Pull to refresh

Comments 9

А это уже отличная идея для другой статьи…
Если сюда ещё впихнуть типы воркеров и их различия — получится ещё больший винегрет.
xnuinside.medium.com/quick-guide-how-to-run-apache-airflow-cluster-in-docker-compose-615eb8abd67a

я вот отсюда запустил (и оно даже до сих пор работает), из преимуществ над текущей статьёй — все работает в докере, папка с дагами смотрит наружу, руками колдовать практически не надо.

Из минусов — первый запуск надо сделать ровно как описано в статье (запустить контейнеры по очереди для инициализации БД, после этого можно делать обычные docker-compose up -d \ docker-compose down и всё будет работать).

PS. да, в этой сборке тут всего 1 воркер, но для начала хватит
Ну, когда я этим занимался, у меня основная задача была не «побыстрее запустить, чтобы работало», а в линуксе покопаться. Разобраться, как всё правильно работает — чтобы если сломается что — знал бы как чинить…
Почему делал не в докере — не посчитал это оправданным — т.к. это будет не dev/test/prod среда, а просто тестовый сервачок для каких-то моих мелких задач.
не знаю, запуск в докере позволяет быстро с сервера на сервер переезжать, при этом ничего не ломается (во всяком случае за полгода ничего не сломалось само по себе, один раз только место на сервере закончилось и пришлось руками порт на который airflow смотрит освободить)))

если разберешься как через связку SSHOperator + PostgresOperator даги адекватные создавать — напиши, плз, а то у меня всё на PythonOperator'ах работает (пришлось разбираться как в докер кастомные библиотеки засунуть), связь между задачами через context['task_instance'].xcom_pull(task_ids='xxx') + provide_context=True

У меня дешёвый хостинг и 4гб оперативки на сервере.

Если есть докер, то есть возможность сервис мутануть, который из git может вытаскивать все, что нужно и не только )

Для тех, кто в танке, я уже погуглил, чтобы понять, надо мне срочно это установить, чтобы волосы стали шелковистыми, или вначале починить и настроить то, что уже есть :)


Apache AirFlow – это open-source инструмент, который позволяет разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов. Главной особенностью является то, что для описания процессов используется язык программирования Python. Airflow используется как планировщик ETL/ELT-процессов.


https://airflow.apache.org/docs/apache-airflow/stable/start/index.html

Спасибо. А то такая большая статья и ни слова о чем речь...

Sign up to leave a comment.

Articles