dmt_chkg 14 мая 2019 в 13:41

Что особенного в Cloudera и как ее готовить

6 мин

12K

Блог компании AtosBig Data*Хранение данных*Хранилища данных*Hadoop*

+12

Комментарии 3

sshikov 14 мая 2019 в 15:43

>При ближайшем рассмотрении видно, что Google Cloud Dataflow базируется на разновидности Apache Beam, при этом в Apache Beam входит хорошо документированный фреймворк Apache Spark

Простите, а вы в этом уверены? Насколько я знаю, у Beam есть SparkRunner, который позволяет запускать задачи Beam под управлением Spark — и это не совсем тоже самое, что входящий в состав спарк. Я бы сказал, что совсем не тоже. Запускаться под управлением спарка еще Crunch умел — и тоже самого спарка в его составе никогда не было.

И что самое главное — в Beam вроде не входит ничего похожего на HDFS, поэтому говорить что Beam это быстрая замена хадуп — ну это как-то так себе формулировочка. Быстрая замена MapReduce — ну да, может быть. Но это ни разу не отменяет того факта, что MapReduce в чистом виде и так уже мало используется, в том числе и на хадупе.

dmt_chkg 15 мая 2019 в 16:54

Очевидно, что от MapReduce постепенно отказываются в пользу того же самого Spark как минимум из-за нагрузок на сеть и ради щадящей работы с хранилищем во время выполнения задачи. Наличие в дистрибутиве одного проекта не означает, что нужно отказываться от другого схожего и сбрасывать его со счета, лучше — пользоваться различными платформами исходя из задач и ресурсов.
Более того, в Atos Codex Datalake Engine датаноды изолированы друг от друга посредством OpenStack, что положительно сказалось на производительности в реальных задачах.

sshikov 15 мая 2019 в 17:16

Не все понял из вашего ответа, честно говоря.

Поясню — мне просто не понравилась формулировка, что в Beam якобы входит спарк. Мне кажется (я смотрел на Beam год назад, но вряд ли что-то могло сильно поменяться) что ничего такого нет — просто Beam может использовать спарк (или несколько других движков) для запуска своих задач. В том числе и без хадупа, это чистая правда. Я бы, кстати, даже не рассматривал Beam как замену спарку — они конечно похожи, но далеко не идентичны по возможностям. Переход в обе стороны будет стоит многих усилий.

А второе то, что спарк не может заменить хадуп, потому что в нем нет хранилища (hdfs). Ну т.е. в качестве замены всему хадупу он не годится. Ну то есть некоторые формулировки слегка нечеткие.

В целом же то утверждение, что у хадупа есть альтернативы в облаке, вопросов не вызывает. В зависимости скажем от масштаба они вполне могут быть лучше.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий