(Ашан) Batch Data Platform для аналитики пользователей Flashcards

Question

Почему Parquet лучше CSV?

Answer 1

Parquet хранит схему данных. Колоночный формат. Хорошее сжатие. Лучше работает со Spark, большими данными и аналитическими запросами csv - текстовый формат, плохо сжимается, не хранит схему, подходит для небольшого объема данных и тестов

Answer 2

Основная логика была incremental по updated_at. Late-arriving data анализировали и пришли к выводу, что их влияние на бизнес-метрики минимально, поэтому дополнительная переобработка не внедрялась.

Answer 3

Такого не было, т.к. источники был стабильны. Но у нас было решение на этот счет, мы бы читали данные и добавляли бы новую колонку с null значениями, чтобы можно было работать со старыми данными.

Answer 4

У нас использовался стандартный Git Flow: - `main` — стабильный продакшен-код - `develop` — интеграционная ветка - feature-ветки для разработки ETL и DAG - bugfix/hotfix ветки для исправлений Все изменения проходили код-ревью перед мержем."

Answer 5

"Да, я писал техническую документацию по ETL, DAG и аналитическим таблицам. В документации описывались источники, шаги трансформаций, форматы данных и партиции. Это помогало команде и аналитикам быстро понимать пайплайны."

Answer 6

"Документация писалась прямо в GitLab рядом с кодом в Markdown, а для схем и общих описаний использовалась Confluence."

Answer 7

"Основное взаимодействие было с аналитиками. Они формировали требования к данным и метрикам, я реализовывал пайплайны и витрины, после чего мы совместно валидировали результаты. Обратная связь помогала быстро дорабатывать решения."

Answer 8

"Требования обсуждали на созвонах в Teams, оперативные вопросы решали в чатах, задачи фиксировались в Jira, а документация велась в Confluence и GitLab."

Answer 9

"TTL был реализован на нескольких уровнях. В **Data Lake на HDFS** использовались retention-политики: Airflow DAG-и периодически запускали Spark-задачи или shell-скрипты, которые удаляли или архивировали партиции старше заданного периода (например, по дате). В **ClickHouse** использовались встроенные TTL-механизмы таблиц MergeTree, которые автоматически удаляли или перемещали данные при мерджах. Таким образом, старые данные не накапливались и хранилище оставалось под контролем."

Answer 10

DAG на удаление старых данных запускался **раз в сутки**, обычно **в ночное время**, когда основная нагрузка на кластер была минимальной.

Answer 11

"Потому что проект был batch-ориентированным: ежедневная аналитика, без real-time требований. Kafka добавила бы сложности без реальной пользы.

Answer 12

Spark job-ы иногда выполнялись слишком долго. Приходилось думать над оптимизацией, бродкастить таблицы, экспериментировать с партицированием, а также настройками оптимизатора. Проблема была с недостопностью некоторых API, приходилось настраивать ретри механизмы.

Answer 13

Из Яндекс.Метрики мы забирали **агрегированную статистику по пользовательскому поведению** через Reporting API.

Answer 14

Обычно с утра проверял, как отработали даги за ночь. Если были ошибки, разбирался, читал логи, ну и при необходимости даг перезапускал. Каждый день был дейлик, обсуждали, что сделали, что не сделали, что надо сделать. Ну а в основном занимался по основным задачам, строил пайплайн, разбирался с задачи Spark, ну и писал документацию к сделанному

Answer 15

Мои ключевые достижения: построил Data Lake с нуля, разработал и оптимизировал ETL-пайплайны на Spark, подготовил аналитические витрины в ClickHouse для BI, внедрил incremental загрузки и идемпотентность, а также создал документацию и стандарты для команды. Всё это позволило ускорить аналитику и повысить качество данных."

Answer 16

DAG-и писались локально в Airflow (обычно через Docker Compose), что позволяло тестировать их в UI и проверять зависимости и структуру задач до деплоя в CI/CD.

Answer 17

В CI/CD были реализованы unit-тесты, которые автоматически тестировали даги

Answer 18

В DAG-ах мы тестировали импорт, структуру графа, зависимости и базовые параметры.

Answer 19

При падении прод-пайплайна сначала срабатывал алёрт, затем создавался тикет. Мы читали, разбирались что не так и устраняли причину — будь то код, данные или инфраструктура — деплоили фикс и переобрабатывали данные. После этого усиливали мониторинг и добавляли тесты, чтобы инцидент не повторился.

(Ашан) Batch Data Platform для аналитики пользователей Flashcards

(43 cards)