Dju Jul 8 2019 at 12:18

Внедрение Airflow для управления Spark-джобами в ivi: надежды и костыли

9 min

11K

Онлайн-кинотеатр Иви corporate blogPython*Big Data*DevOps*

+34

Comments 7

shrimpsizemoose Jul 9 2019 at 10:56

Привет! Крутая статья, спасибо :)

А расскажите, как долго ваши пайплайны взаимодействующие с хайвом работают?
И ещё вопрос про частоту запусков. Из статьи я понял что у вас только раз в день что-то запускаются, это так? Ничего чаще нет?
А если пайплайн сломался, у вас его перезапускает сам airflow или оператор?

Dju Jul 10 2019 at 09:52

> А расскажите, как долго ваши пайплайны взаимодействующие с хайвом работают?
Мы используем Spark — у нас внутри пайплайнов множество джойнов и хитрых аггрегаций, но получается очень быстро, спарк с хайвом дружат хорошо.

> И ещё вопрос про частоту запусков. Из статьи я понял что у вас только раз в день что-то запускаются, это так? Ничего чаще нет?

«Тяжелые» джобы с обучением моделей запускаем раз в сутки. Есть сервисные пайплайны, например переливка Postgres->Redis содержит несколько операторов, самый долгий из которых отрабатывает за 4 минуты. Этот пайплан запускается каждый час

> А если пайплайн сломался, у вас его перезапускает сам airflow или оператор?

Если сломался пайплайн — значит, покрашилась какая-то переливка уровнем выше, которой мы не управляем. Поэтому каждая поломка требует разбирательств — посмотреть в заббикс, в канал слака для мониторинга. Если проблема решена — рестартуем внучную.

TimonKK Jul 10 2019 at 09:39

Можете уточнить что значит «переливки Clickhouse → Hive». Вы bспользуете КХ как хранилище сырых данных, а считаете на Hive?

Dju Jul 10 2019 at 09:58

Да, раньше все данные хранились в хайве, продуктовые аналитики использовали Presto для отчётов.

Потом аналититики переехали в Clickhouse (об этом есть небольшой пост: habr.com/ru/company/ivi/blog/347408 ) А ML остался в хайве, потому что у нас пайплайны подготовки данных написаны на Spark, в Clickhouse не хочется переезжать. Мы на стороне кликхауса делаем предагрегацию и переливаем агрегаты в Hive, откуда их спарком подсасываем.

SLASH_CyberPunk Jul 10 2019 at 14:18

Поясните, пожалуйста, про ваш пайплайн от начала до спарк-сабмита: на сколько я уловил из статьи, у вас стартует главный баш (крон?), который дергает даг и сидит ждет N времени, при этом каждые 10 минут опрашивает ваш API над airflow на предмет статуса дага, я верно понял?

Dju Jul 10 2019 at 15:37

Всё верно. Но это только в одном самом важном DAG. Все остальные графы (их около десятка) работают по штатному механизму расписаний Airflow.

NikitaVorobev Mar 27 at 16:54

Добрый день! Сможете раскрыть тему с логами Spark'a?
Как настраивали их сохранение? "По классике" они сохраняются в странном формате, который читается только через YARN, при попытке открыть их тем же pySparkом - выводятся кривые иероглифы, а при попытке перекодировки в utf-8 выстреливает ошибка.