Pull to refresh

Comments 22

Не, я понимаю, что вопрос «чем это лучше юпитера» сложный с неоднозначным ответом, но откровенно говоря, он остался нераскрытым. Пару плюсов привели, про минусы умолчали… В общем, какое-то незавершенное впечатление осталось.
Вопрос и впрямь непростой)
По моему мнению, основные преимущества над Jupyter — это быстрая встроенная визуализация и возможность адаптировать ноутбук для пользователей, не связанных с аналитикой: набросать инструменты ввода встроенными командами, скрыть все блоки кода, переключить на вид отображения, в котором сложно что-либо сломать.
По поводу минусов — все же Jupyter как «IDE для питона» дает куда больше — хотя бы ту же автоподстановку.
Согласен, сделать из ноутбука форму для конечного потребителя — идеологически это хорошая вещь.

Хотя у нас такое не приживается, в первую очередь наверное потому, что юпитер развернут на хадупе, и конечных пользователей туда не особо пускают, самые конечные пользователи — это Data Science, а от них скрывать код на питоне не требуется, они обычно и есть его авторы.

Присоединюсь к вопросу насчет скалы и спарка — пробовали?
Ну да, вы правы, тут уже вопрос цели и того, кто будет пользоваться. Spark идет «из коробки», про написание интерпретаторов под другие языки ответил ниже.

Спасибо за обзор, как раз решаем Jupyter или Zeppelin. Zeppelin менее матёрым кажется пока

На стапелях Jupyter, кстати, уже давно готовится идейное продолжение — JupyterLab (https://blog.jupyter.org/jupyterlab-is-ready-for-users-5a6f039b8906)
Пока отличия по большей части интерфейсные — но с ним уже удобнее работать, чем с обычным Юпитером. Надеюсь, до расширенной и упрощенной визуализации данных «из коробки» руки тоже дойдут.
Ну и бонус для тех, кто уже успел поработать с Jupyter — старые ноутбуки открываются в новой оболочке без необходимости конвертации.
Jupyter поддерживает многие языки, включая Scala и Julia. А в Zeppelin сложно такую поддержку добавлять?
Не могу ответить на 100%, так как сам ни разу этим не занимался и подводных камней не знаю, но инструкция (ссылка) выглядит довольно простой.
Scala поддерживается встроенным интерпритатором для Spark (но ограничена версией которую поддерживает сам Spark), посмотреть что есть можно тут zeppelin.apache.org/supported_interpreters.html

Надо сказать в Jupyter единственный более менее рабочий вариант использовать Scala это Apache Toree и там тоже не все идеально.
Смотрел его несколько лет назад — был откровенно сырой, как сейчас с этим?
Насколько могу судить, у нас довольно стабильно работает, функциональности под наши задачи хватает. Попробуйте ради интереса глянуть снова, вполне возможно стало лучше с тех пор.
Я вообще Python и JupyterLab предпочитаю (или SparkNotebook, если для Spark/Scala), но надо будет глянуть
Сравнивали ли вы с другими альтернативами, например с SuperSet? Судя по картинкам они функционально похожи, и от того же Apache. И в этой категории есть также множество коммерческих продуктов — почему все таки Zeppelin?
главная фишка зепелин — он работает с хадупом через spark, суперсет судя по описанию просто еще один визуализатор sql, поддержка hive или спарк даже не заявлена.
Увы, подробно альтернативы мы не изучали, так как решение использовать Zeppelin было скорее стихийным, нежели запланированным. Дело в том, что у меня уже был опыт работы с ним (в связке с Impala), и мы в отделе немного поэкспериментировали с ним как со средой для запуска Python-скриптов. Ну и обнаружили пару способов упростить часть нашей рутины)

Конечно, на рынке есть более продвинутые коммерческие решения для подобных задач, с более богатой функциональностью. Но, как мне кажется, лаконичные опенсорсные решения могут быть полезны небольшим игровым студиям.
Еще Zeppellin ставится почти автоматом на дистрибутивы Hadoop (одну гулку отметить) — тоже немаловажно для небольших фирм может быть
Они решают немного разные задачи. Сам активно использую Superset, мне он очень нравится, но это SQL-based конструктор отчетов с визуализацией. Прекрасен как инструмент для сейлзов, маркетеров и всех, кто не шарит в SQL, но хочет получить\покрутить данные сам, не дергая аналитика.
Но! Python\R там и в помине нет. А к сожалению не всё можно решить SQL-запросом, тем более когда исходные данные в разных базах лежат. Вот тогда и нужно подключать аналитиков, и использовать Jupyter или Zeppelin.
По-моему опыту, с точки зрения разработки Zeppellin вчистую уступает Jupyter. С точки зрения визуализации результата — Zeppellin выигрывает.
Удалось ли в вам использовать web-интерфейс на основе angular? Все мои попытки заставить работать z.angularWatch так, как указано в документации оказались безуспешными.

почти год разрабатывал дашборды в цепеллине. не хватает listbox multiselect option, 3D graphics. но в целом рекомендую

Супер обзор - всё понятно и по делу, спасибо большое!

Sign up to leave a comment.