Pull to refresh

Comments 9

Чтобы прочувствовать как работает спарк нужны источники в несколько терабайт, желательно на разных компьютерах. Всё, что помещается на один — лучше, зачастую, быстрее обрабатывать другими средствами. А scala — язык, более выразительный, чем java. Даже без спарка следует ознакомиться с ним… Да, для spark можно писать и на python, но там есть свои ограничения — например, коллегии столкнулись с тем, что для DataFrame нет метода map — только для rdd.
Чтобы прочувствовать, да, так и есть, можно даже петабайты взять, хотя вы самостоятельно можете себе урезать выч.ресурсы и все будет почти тоже самое (например взять кластер из 8 ядерных машинок по 16GB). Особо большого выигрыша от уборки хипа в десятки GB тут и нет.

А чтобы освоить Spark API на базовом уровне, до того как тебя подпустят к терабайтам и петабайтам — вполне хватит самостоятельной работы с опорой на источнике.

Согласитесь, подпускать к драгоценным терабайтам бойца, который не знает что такое Parquet и пытается сам оптимизировать руками набор операций над DataFrame-ом — не стоит, пусть подучит матчасть.

Про Python — не знал про ограничения API, впрочем обычная ситуация, когда Scala API уехало вперед.
Для чтения, то почему бы не подпустить сразу? Чтобы не было иллюзий о том что сервер будет намного мощнее…
С точки зрения сохранности драгоценных петабайт — да, с точки зрения того, что и чтение может быть неэффективным и сканить все и быть CPU Burst на нашем едином кластере — пусть учатся на локальны машинка вместо 2 Гб занимать 1 Гб, как вы считаете?
так ведь и ресурсы ограничить можно на таску, при запуске spark-submit
Есть хороший плагин Azure Toolkit for IntelliJ. Внутри уже есть готовые примеры (SBT и Maven). Можно заранее выбрать версию Apache Spark, зависимости будут прописаны.
Пока в плагине отсутствует возможность для сабмита готовых приложений из IDEA на свои локальные кластера (пока только для кластеров в Azure). Плагин позволяет быстрее познакомить с Apache Spark и написать простое приложение на Scala или Java. Eclipce версия тоже существует.

Спасибо, буду пробовать, понравится — буду рекомендовать. Но в целом, уверенному в себе Java-разрабу, собрать скелет проекта с Sbt и найти верные зависимости в maven central будет более чем полезно, как вы считаете?
можно и maven проект использовать — никто на sbt не настаивает. спарку нужна конечная сборка (jar) а чем вы там её собирали — пофиг
Это позволит безболезненно удалить поддержку RDD в Spark 3.0

Хотелось бы пруфов. Да, MLib отказываются от rdd, но о подтверждений того, что от rdd откажутся в core (или хотя бы думают над этим) я не смог найти.

Sign up to leave a comment.