Блог компании Atos
Big Data
Хранение данных
Хранилища данных
Hadoop
Комментарии 3
+1
>При ближайшем рассмотрении видно, что Google Cloud Dataflow базируется на разновидности Apache Beam, при этом в Apache Beam входит хорошо документированный фреймворк Apache Spark

Простите, а вы в этом уверены? Насколько я знаю, у Beam есть SparkRunner, который позволяет запускать задачи Beam под управлением Spark — и это не совсем тоже самое, что входящий в состав спарк. Я бы сказал, что совсем не тоже. Запускаться под управлением спарка еще Crunch умел — и тоже самого спарка в его составе никогда не было.

И что самое главное — в Beam вроде не входит ничего похожего на HDFS, поэтому говорить что Beam это быстрая замена хадуп — ну это как-то так себе формулировочка. Быстрая замена MapReduce — ну да, может быть. Но это ни разу не отменяет того факта, что MapReduce в чистом виде и так уже мало используется, в том числе и на хадупе.
0
Очевидно, что от MapReduce постепенно отказываются в пользу того же самого Spark как минимум из-за нагрузок на сеть и ради щадящей работы с хранилищем во время выполнения задачи. Наличие в дистрибутиве одного проекта не означает, что нужно отказываться от другого схожего и сбрасывать его со счета, лучше — пользоваться различными платформами исходя из задач и ресурсов.
Более того, в Atos Codex Datalake Engine датаноды изолированы друг от друга посредством OpenStack, что положительно сказалось на производительности в реальных задачах.
0
Не все понял из вашего ответа, честно говоря.

Поясню — мне просто не понравилась формулировка, что в Beam якобы входит спарк. Мне кажется (я смотрел на Beam год назад, но вряд ли что-то могло сильно поменяться) что ничего такого нет — просто Beam может использовать спарк (или несколько других движков) для запуска своих задач. В том числе и без хадупа, это чистая правда. Я бы, кстати, даже не рассматривал Beam как замену спарку — они конечно похожи, но далеко не идентичны по возможностям. Переход в обе стороны будет стоит многих усилий.

А второе то, что спарк не может заменить хадуп, потому что в нем нет хранилища (hdfs). Ну т.е. в качестве замены всему хадупу он не годится. Ну то есть некоторые формулировки слегка нечеткие.

В целом же то утверждение, что у хадупа есть альтернативы в облаке, вопросов не вызывает. В зависимости скажем от масштаба они вполне могут быть лучше.
Только полноправные пользователи могут оставлять комментарии., пожалуйста.