lonely_luckily Jun 24 2018 at 18:40

Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

6 min

36K

Pixonic corporate blogPython*Game development*Mobile App Analytics*Product Management*

+42

Comments 22

sshikov Jun 24 2018 at 19:12

Не, я понимаю, что вопрос «чем это лучше юпитера» сложный с неоднозначным ответом, но откровенно говоря, он остался нераскрытым. Пару плюсов привели, про минусы умолчали… В общем, какое-то незавершенное впечатление осталось.

lonely_luckily Jun 24 2018 at 19:45

Вопрос и впрямь непростой)
По моему мнению, основные преимущества над Jupyter — это быстрая встроенная визуализация и возможность адаптировать ноутбук для пользователей, не связанных с аналитикой: набросать инструменты ввода встроенными командами, скрыть все блоки кода, переключить на вид отображения, в котором сложно что-либо сломать.
По поводу минусов — все же Jupyter как «IDE для питона» дает куда больше — хотя бы ту же автоподстановку.

sshikov Jun 24 2018 at 19:51

Согласен, сделать из ноутбука форму для конечного потребителя — идеологически это хорошая вещь.

Хотя у нас такое не приживается, в первую очередь наверное потому, что юпитер развернут на хадупе, и конечных пользователей туда не особо пускают, самые конечные пользователи — это Data Science, а от них скрывать код на питоне не требуется, они обычно и есть его авторы.

Присоединюсь к вопросу насчет скалы и спарка — пробовали?

lonely_luckily Jun 24 2018 at 19:59

Ну да, вы правы, тут уже вопрос цели и того, кто будет пользоваться. Spark идет «из коробки», про написание интерпретаторов под другие языки ответил ниже.

igor_suhorukov Jun 24 2018 at 20:50

Спасибо за обзор, как раз решаем Jupyter или Zeppelin. Zeppelin менее матёрым кажется пока

frrrost Jun 24 2018 at 22:20

На стапелях Jupyter, кстати, уже давно готовится идейное продолжение — JupyterLab (https://blog.jupyter.org/jupyterlab-is-ready-for-users-5a6f039b8906)
Пока отличия по большей части интерфейсные — но с ним уже удобнее работать, чем с обычным Юпитером. Надеюсь, до расширенной и упрощенной визуализации данных «из коробки» руки тоже дойдут.
Ну и бонус для тех, кто уже успел поработать с Jupyter — старые ноутбуки открываются в новой оболочке без необходимости конвертации.

potan Jun 24 2018 at 19:46

Jupyter поддерживает многие языки, включая Scala и Julia. А в Zeppelin сложно такую поддержку добавлять?

lonely_luckily Jun 24 2018 at 19:56

Не могу ответить на 100%, так как сам ни разу этим не занимался и подводных камней не знаю, но инструкция (ссылка) выглядит довольно простой.

strobegen Jun 25 2018 at 16:09

Scala поддерживается встроенным интерпритатором для Spark (но ограничена версией которую поддерживает сам Spark), посмотреть что есть можно тут zeppelin.apache.org/supported_interpreters.html

Надо сказать в Jupyter единственный более менее рабочий вариант использовать Scala это Apache Toree и там тоже не все идеально.

Stas911 Jun 24 2018 at 19:47

Смотрел его несколько лет назад — был откровенно сырой, как сейчас с этим?

lonely_luckily Jun 24 2018 at 20:05

Насколько могу судить, у нас довольно стабильно работает, функциональности под наши задачи хватает. Попробуйте ради интереса глянуть снова, вполне возможно стало лучше с тех пор.

Stas911 Jun 24 2018 at 23:39

Я вообще Python и JupyterLab предпочитаю (или SparkNotebook, если для Spark/Scala), но надо будет глянуть

Bloxy Jun 24 2018 at 20:18

Сравнивали ли вы с другими альтернативами, например с SuperSet? Судя по картинкам они функционально похожи, и от того же Apache. И в этой категории есть также множество коммерческих продуктов — почему все таки Zeppelin?

Yo1 Jun 24 2018 at 20:31

главная фишка зепелин — он работает с хадупом через spark, суперсет судя по описанию просто еще один визуализатор sql, поддержка hive или спарк даже не заявлена.

lonely_luckily Jun 24 2018 at 20:39

Увы, подробно альтернативы мы не изучали, так как решение использовать Zeppelin было скорее стихийным, нежели запланированным. Дело в том, что у меня уже был опыт работы с ним (в связке с Impala), и мы в отделе немного поэкспериментировали с ним как со средой для запуска Python-скриптов. Ну и обнаружили пару способов упростить часть нашей рутины)

Конечно, на рынке есть более продвинутые коммерческие решения для подобных задач, с более богатой функциональностью. Но, как мне кажется, лаконичные опенсорсные решения могут быть полезны небольшим игровым студиям.

Stas911 Jun 24 2018 at 23:37

Еще Zeppellin ставится почти автоматом на дистрибутивы Hadoop (одну гулку отметить) — тоже немаловажно для небольших фирм может быть

illuzion Jul 7 2018 at 07:09

Они решают немного разные задачи. Сам активно использую Superset, мне он очень нравится, но это SQL-based конструктор отчетов с визуализацией. Прекрасен как инструмент для сейлзов, маркетеров и всех, кто не шарит в SQL, но хочет получить\покрутить данные сам, не дергая аналитика.
Но! Python\R там и в помине нет. А к сожалению не всё можно решить SQL-запросом, тем более когда исходные данные в разных базах лежат. Вот тогда и нужно подключать аналитиков, и использовать Jupyter или Zeppelin.

Ustas4 Jan 15 2023 at 09:32

Soglasen s Yo1

pphator Jun 25 2018 at 12:16

По-моему опыту, с точки зрения разработки Zeppellin вчистую уступает Jupyter. С точки зрения визуализации результата — Zeppellin выигрывает.

Pahanini Jul 24 2018 at 13:19

Удалось ли в вам использовать web-интерфейс на основе angular? Все мои попытки заставить работать z.angularWatch так, как указано в документации оказались безуспешными.

Ustas4 Jan 15 2023 at 09:38

почти год разрабатывал дашборды в цепеллине. не хватает listbox multiselect option, 3D graphics. но в целом рекомендую

Analytique Nov 19 2023 at 21:40

Супер обзор - всё понятно и по делу, спасибо большое!