AliceMir Aug 21 2017 at 18:36

Зачем изучать Spark?

5 min

26K

EPAM corporate blog Java *Big Data *

+13

Comments 9

kxl Aug 21 2017 at 19:30

Чтобы прочувствовать как работает спарк нужны источники в несколько терабайт, желательно на разных компьютерах. Всё, что помещается на один — лучше, зачастую, быстрее обрабатывать другими средствами. А scala — язык, более выразительный, чем java. Даже без спарка следует ознакомиться с ним… Да, для spark можно писать и на python, но там есть свои ограничения — например, коллегии столкнулись с тем, что для DataFrame нет метода map — только для rdd.

zaleslaw Aug 21 2017 at 21:00

Чтобы прочувствовать, да, так и есть, можно даже петабайты взять, хотя вы самостоятельно можете себе урезать выч.ресурсы и все будет почти тоже самое (например взять кластер из 8 ядерных машинок по 16GB). Особо большого выигрыша от уборки хипа в десятки GB тут и нет.

А чтобы освоить Spark API на базовом уровне, до того как тебя подпустят к терабайтам и петабайтам — вполне хватит самостоятельной работы с опорой на источнике.

Согласитесь, подпускать к драгоценным терабайтам бойца, который не знает что такое Parquet и пытается сам оптимизировать руками набор операций над DataFrame-ом — не стоит, пусть подучит матчасть.

Про Python — не знал про ограничения API, впрочем обычная ситуация, когда Scala API уехало вперед.

kxl Aug 21 2017 at 22:15

Для чтения, то почему бы не подпустить сразу? Чтобы не было иллюзий о том что сервер будет намного мощнее…

zaleslaw Aug 22 2017 at 12:47

С точки зрения сохранности драгоценных петабайт — да, с точки зрения того, что и чтение может быть неэффективным и сканить все и быть CPU Burst на нашем едином кластере — пусть учатся на локальны машинка вместо 2 Гб занимать 1 Гб, как вы считаете?

kxl Aug 22 2017 at 14:16

так ведь и ресурсы ограничить можно на таску, при запуске spark-submit

pak63 Aug 22 2017 at 06:44

Есть хороший плагин Azure Toolkit for IntelliJ. Внутри уже есть готовые примеры (SBT и Maven). Можно заранее выбрать версию Apache Spark, зависимости будут прописаны.
Пока в плагине отсутствует возможность для сабмита готовых приложений из IDEA на свои локальные кластера (пока только для кластеров в Azure). Плагин позволяет быстрее познакомить с Apache Spark и написать простое приложение на Scala или Java. Eclipce версия тоже существует.

zaleslaw Aug 22 2017 at 12:45

Спасибо, буду пробовать, понравится — буду рекомендовать. Но в целом, уверенному в себе Java-разрабу, собрать скелет проекта с Sbt и найти верные зависимости в maven central будет более чем полезно, как вы считаете?

kxl Aug 22 2017 at 14:20

можно и maven проект использовать — никто на sbt не настаивает. спарку нужна конечная сборка (jar) а чем вы там её собирали — пофиг

ov7a Aug 23 2017 at 10:53

Это позволит безболезненно удалить поддержку RDD в Spark 3.0

Хотелось бы пруфов. Да, MLib отказываются от rdd, но о подтверждений того, что от rdd откажутся в core (или хотя бы думают над этим) я не смог найти.