Резюме Flashcards

Question

Какие метрики в Grafana и какие алерты реально спасли проект в спрака? — YuMoney

Answer 1

kafka_consumergroup_lag — если lag > 200 000 сообщений 10 минут подряд, Slack-алерт. Остановили пару «зализавшихся» потоков до того, как BI-витрина опустела. fraud_e2e_seconds p95 — должно быть ≤ 600 с; рост ловили, когда Flume на одном из узлов упёрся в диск. spark_executor_failed_total — > 3 failures за пять минут сигналят, что память кончилась или драйвер «захлебнулся». namenode_disk_used_percent — 90 % порог; однажды спасло за сутки до переполнения, переключили архивацию логов в S3-“cold”. checkpoint_age_seconds — если последний checkpoint старше 2 триггеров, значит поток не успевает; алерт позволил вовремя поднять maxExecutors. Благодаря этим пяти правилам MTTR по P1-инцидентам держится 20–25 минут даже в пиковые распродажи — дежурный видит корень боли, а не просто «что-то красное».

Answer 2

Как нашли bottleneck и ускорили более чем на 50 % Инструменты. AWR + SQL Monitor → увидели, что 40 % времени съедает full-scan таблицы CASH_FLOW_RAW. DBMS_XPLAN.DISPLAY_CURSOR → заметили, что фильтр по дате применялся поздно, partition pruning не работал. Действия. Разбили таблицу на RANGE(txn_month) и вынесли агрегацию в MV_CASH_DAILY (REFRESH FAST EVERY 15 min). Добавили bitmap-index на status_cd, чтобы выборка «только cleared» не читала весь partition. Переписали часть логики окна в SUM(...) KEEP (DENSE_RANK LAST ...) — убрали корявый подзапрос. Результат. PL/SQL-процедура сработала за 18 с вместо 38 с (-52 %), нагрузка DB CPU в AWR упала на 5 п.п., Physical Reads — на 8 %.

Answer 3

Nightly-скрипт compare_row_hash.sql. Для каждого отчётного дня считает SHA256 агрегата в старой витрине и новой MV, пишет расхождение в таблицу BI_DIFF_LOG. Порог: ≥ 0,01 % расхождения — таска diff_alert в Airflow ставит DAG на failed, дежурный получает Slack-пинг. За два месяца миграции ни одна проверка не превысила порог; финальный CAB-отчёт приложил diff-лог как доказательство.

Answer 4

dashboard_open_seconds_p95 > 45 с 3 мин подряд → канал #ukhd-alerts (Grafana ↔ Slack). mv_refresh_seconds > 120 с → признак, что ночной REFRESH захлебнулся, реагируем до утреннего совещания. db_buffer_cache_hit_ratio < 92 % → сигнал, что MV не помещается в cache, пора пересчитать размер. oracle_waitclass_userio_pct > 40 %** + ora_temp_space_used** > 80 % → чаще всего виноват CFO-запрос со старым планом; DBA сразу делает ALTER TABLE ... MONITORING. Эти четыре правила за последний квартал ловили все три инцидента P0; средний MTTR остался 15–20 мин, даже когда квартальный отчёт ЦБ и CFO-дашборд крутились одновременно.

Answer 5

Бизнес-контекст. Ночное “окно” 02:00 – 03:00: за час надо загнать 24 млн строк и не сдвинуть отчёт CFO. Тест-гонка на DEV показала: CTAS + TRUNCATE + RENAME ≈ 28 мин, полный дубль данных на диске; MERGE ≈ 17 мин, при пике держит row-lock и душит фронтовые запросы; EXCHANGE PARTITION WITHOUT VALIDATION 42 с, копирования нет, блокировка только на метаданные — в AWR user I/O waits упали на > 90 %. Регуляторная фишка: exchange даёт атомичность «всё-или-ничего», поэтому для ЦБ мы всегда показываем цельную дневную выборку.

Answer 6

Выкачали txn_dt-гистограмму из DBA_TAB_COL_STATISTICS, построили плотность — Pareto-точка 2.6 млн txn/день. Правило: размер самого горячего partition ≤ два объёма buffer cache; при 32 GB это ~55 млн строк — месяц идеально ложится. Схема RANGE(txn_month) + SUBPARTITION BY HASH(customer_sk) для равномерного I/O. check_cardinality.ipynb сравнивает num_rows и avg_cluster_factor между staging и финальным фактом; дисбаланс > 15 % — красный маркер в Jabber.

Answer 7

Surrogate PK (credit_txn_sk) — вычистили составной ключ, JOIN-ы на числе экономят 19 % buffer gets. Bitmap-index на status_cd — отсекает «только просрочки», CPU –5-6 п.п. при 0.4 GB места. ROI считался так: разница DB CPU / добавленный объём индекса; порог установили 0.3 CPU-п.п./GB. Выжили только два индекса выше порога — остальное не окупалось.

Answer 8

Ночной DAG gather_stats_credit_txn стартует сразу после exchange: DBMS_STATS.GATHER_TABLE_STATS с incremental => TRUE, так считаем только новый partition < 90 с. Старая статистика бэкапится в STAT_CREDIT_TXN; если elapsed_time нового плана > 120 % старого — Airflow ставит DAG в failed и пуляет Slack-алерт. За год три предупреждения, дважды откатили статистику, P0-инцидентов не было.

Answer 9

ничего. мой тим лид сказал что этого достаточно и уже все открывается хорошо

Answer 10

Внутри PowerCenter есть техническая БД; из VPN-сегмента я подключился к ней через sqlplus и выгрузил три ключевые таблицы — OPB_TASK, OPB_MAPPING, OPB_SCHED. Скрипт сохранил всё в export_inf_meta.csv, а дальше в Excel я руками добавил для каждой строки RTO/RPO, приоритет P1–P3 и флажок «ядовито/безопасно». Файл сразу зашили прямо в Confluence: любой менеджер мог отфильтровать «что падает первым, если пришёл квартальный freeze». К вечеру того же дня CIO увидел, что картинка сложилась — значит, можно двигаться дальше.

Answer 11

Следующим шагом я написал catalog2yaml.py. Скрипт читает тот самый CSV и для каждой строчки формирует YAML под dag-factory: имя DAG, расписание, owners, retries, SLA, а главное — список нативных операторов. Стандартные источники превращались в OracleToStageOperator, lookup-очистки — в PLSQLProcedureOperator, загрузки в StageToDWHOperator. Когда встречались «ядовитые» штуки — нестандартный Java-трансформ, Normalizer, push-down lookup — скрипт вешал на запись тег needs_refactor. Такие DAG-и не выкатывались автоматически: мы вытаскивали XML-бандл, разбирали логику глазами и переносили её либо в чистый SQL, либо в короткий Python-таск с pandas, если без программного кода было никак. Самая «токсичная» цепочка была вокруг Java-трансформации, которая раскладывала XML отчёта в строчки. Мы просто переписали её на xmltable в Oracle — одна строка вместо трёхсот, и DAG сразу перестал требовать отдельного воркера в Celery.

Answer 12

Когда YAML-файл порождал готовый DAG, Jenkins собирал ветку, разворачивал схему AF_LOAD (новый Airflow) рядом со старой INF_LOAD (Informatica). Ночной pytest прогонял три вида сравнений: select count(*) — банальная сверка количества. sum(amount) — ловит перекошенные суммы. MD5-хэш строки || всех колонок — гарантирует побайтовое совпадение. Если хотя бы один тест давал расхождение, Airflow-run помечался failed, а Slack-бот писал «bit-diff on ACCOUNT_BALANCE, check column currency_cd». Семь ночей подряд без отличий — значит, workflow готов к cut-over.

Answer 13

Два слоя мы оставили в PowerCenter, потому что стоимость миграции превышала выгоду. Первое — real-time MQ-пайплайны в EDQ: они гоняли события с латенси < 2 с и пользовались специфичным JMS-адаптером, который в Airflow пришлось бы переписывать на Kafka Streams — проект затянул бысь на месяцы, а экономия лицензии была копейки. Второе — однократные «архивные» загрузки из стародавнего EBS: скрипты в ряд попали в категорию «run-once, never touch» и умерли вместе с EBS-апгрейдом.

Answer 14

меньше плата за лицензию больше денег у банка

Answer 15

Для старой системы мы уже имели statsd_exporter, поэтому просто расширили его: Airflow слал dag_duration_seconds, task_start_latency_seconds и sla_miss_total. Дополнительно я повесил небольшой Prometheus-экспортер, который раз в пять минут опрашивал таблицу OPB_SESSION_LOG у PowerCenter и клал в метрику inf_session_errors_total. Так на единой Grafana-борде мы одновременно видели, как себя чувствует «старый мир» и как растёт «новый». Alert «dag_duration_seconds p95 вырос > 20 %» спас нас дважды: один раз виновата была утечка памяти в пользовательском UDF, второй — DBA случайно сжали TEMP-табспейс. Итог: за полгода мы безопасно вывели из продакшена 275 workflow, лицензию PowerCenter закопали, а никакой отчёт бухгалтерии не пошёл в красную зону. Всё благодаря тому, что каждый шаг был зафиксирован в инвентаризации, автоматически превращён в код, проверен бит-в-бит и замониторен теми же метриками, которые любит SRE.

Answer 16

Саму маршрутизацию алертов мы «очистили» почти сразу, как только поняли, что Jabber-чат тонет в сотнях сообщений «partition not attached». В Prometheus Alertmanager задали три принципа: (1) группируем по severity и dag_id, чтобы пять подряд ошибок одной витрины сливались в один инцидент; (2) ставим repeat_interval = 30m, иначе от флапа “отвалился TEMP-табспейс → Airflow ретрайт задачу → снова TEMP full” будем получать пинг каждые две минуты; (3) только алерты уровня P0/P1 идут в дежурный канал #ukhd-alerts, всё, что ниже, сверяется с графиком «ночная тишина» и пишется в Jira как технический долг. Такой роутинг свёл шум с ≈ 200 сообщений за ночь до 4-6.

Answer 17

Число 20–25 минут — это именно MTTR: берём метку времени первого “firing” от Alertmanager и время, когда соответствующий DAG снова закрылся статусом success; усредняем по всем инцидентам P0 за месяц. RTO как формальный контракт у нас стоял 45 минут, то есть запас примерно х2 — менеджеры были довольны, аудит не задавал вопросов.

Answer 18

Когда упаковывали Grafana-борд “DAG Health”, сознательно выкинули лишнее: отказались от панелей «CPU каждого Celery-воркера» и «load average по хостам». Они красиво двигались, но ничего не говорили о качестве данных. Оставили только p95 dag_duration_seconds, dag_run_latency_seconds, task_sla_miss_total и спарк-лайн оверлея по дням недели — этого хватает, чтобы одним взглядом увидеть «горит / не горит».

Answer 19

Практический пример, как уложились в 25 минут: в марте 2023-го отчётность ЦБ, ночь четверга, DAG load_credit_txn падает на ORA-01652 (TEMP full). 00:03 — Alertmanager срабатывает, дежурный получает ссылку сразу на проблемный лог-ран. 00:06 — по шаблону post-mortem фиксируем диагноз: последний exchange-partition бросил 12 GB в TEMP, одновременно DBA запустил клонирование схемы — диски взвыли. 00:10 — вручную добавляем новый tempfile на +8 GB, подтверждаем alter database tempfile ..., online, перезапускаем провалившуюся таску в Airflow. 00:26 — DAG закрывается зеленым, Alertmanager гасит инцидент. Полный цикл «заметили → устранили → отчёт пошёл дальше» занял 23 минуты — в пределах среднего MTTR и вдвое быстрее RTO, именно за счёт того, что алерт пришёл один, с правильной меткой dag_id=load_credit_txn, без флуда и без лишнего копания в метриках CPU.

Резюме Flashcards

(43 cards)