Блог компании АльфаСтрахование
Big Data
Hadoop
Комментарии 2
0
Из статьи остался непонятным следующий момент.
До Ливи проблемой было прокинуть спарк-контекст между операторами Эйрфлоу. Теперь, получается, у нас есть некая Ливи-«сессия», внутри которой у нас живет информация в т.ч. о спарк-контексте. Однако непонятно, как теперь эта инфа прокидывается от оператора к оператору. Или сессия живет на датанодах сама по себе, и в коде каждого оператора к ней нужно подключаться?
0

В-целом Вы верно поняли, чуть уточню: Ливи "инжектит" python код в driver, он там и исполняется (со всеми вытекающими). Очень похоже на jupyter — с помощью Ливи мы "добрасываем" операторы в конец нашего кода.


На "драйвере" живет сессия, сами данные (dataframe-ы) живут в worker-ах, их жизнью управляет Spark и они доступны в Spark-программе по именам (как обычно).

Только полноправные пользователи могут оставлять комментарии., пожалуйста.