Как бы сильно не развивались технологии, за развитием всегда тянется вереница устаревших подходов. Это может быть обусловлено плавным переходом, человеческим фактором, технологическими необходимостями или чем-то другим. В области обработки данных наиболее показательными в этой части являются источники данных. Как бы мы не мечтали от этого избавиться, но пока часть данных пересылается в мессенджерах и электронных письмах, не говоря и про более архаичные форматы. Приглашаю под кат разобрать один из вариантов для Apache Airflow, иллюстрирующий, как можно забирать данные из электронных писем.
Евгения Киселева @genie_k
Product Analyst
Как мы оркестрируем процессы обработки данных с помощью Apache Airflow
19 min
28KВсем привет! Меня зовут Никита Василюк, я инженер по работе с данными в департаменте данных и аналитики компании Lamoda. В нашем департаменте Airflow играет роль оркестратора процессов обработки больших данных, с его помощью мы загружаем в Hadoop данные из внешних систем, обучаем ML модели, а также запускаем проверки качества данных, расчеты рекомендательных систем, различных метрик, А/Б-тестов и многое другое.
В этой статье я расскажу:
В этой статье я расскажу:
- что за зверь этот Airflow, из каких компонентов состоит и как они между собой взаимодействуют
- про основные сущности Airflow: пайплайны, которые называются DAG, Operator и еще про несколько вещей
- как преуспеть в разработке на Airflow
- как мы внедрили генерацию пайплайнов и так называемое «декларативное писание пайплайнов»
- про плюсы и минусы использования Airflow
+23
Information
- Rating
- Does not participate
- Location
- Воронеж, Воронежская обл., Россия
- Date of birth
- Registered
- Activity