Pull to refresh

Comments 7

А в чем отличие от стандартных юниксовых пайпов (cat file | grep «never gonna give you up»)?
В приведенном варианте ничем, кроме оверхеда. Удобства работы со спарком в консоли на грош.
Для ad-hoc задач всё же надо использовать другой интерфейс, благо они есть и для скалы и для питона сейчас.
Это просто пример, реально это можно распараллелить на много машин
Народ вон активно пилит Apache Zeppelin, как раз для интерактивной работы a-la ipython notebook. Но оно пока в инкубаторе и неизвестно по стабильности.
В последнее время Hortonworks активно в него донейтит и будет продвигать как Spark Notebook в HDP (инфо из первых рук), т.ч. есть надежда, что его можно будет хотя бы поставить и запустить без плясок с бубнами
Это приятная новость ,) Я возлагаю некоторые надежды на zeppelin после того как посмотрел на graphlab create. Но прицельно пока не щупал.
Я, честно говоря, пока не возлагаю, т.к. не особо понимаю, чем он лучше связки IPython+PySpark+pandas. Для scala есть scala-notebook, который сильно легче и ставится с пол-оборота (чего не скажешь пока про Zeppelin)
Sign up to leave a comment.

Articles