blognetology 27 июн 2017 в 11:30

Apache Spark: из open source в индустрию

4 мин

5.2K

Блог компании НетологияData Mining*Big Data*

Recovery Mode

Комментарии 4

nehaev 27 июн 2017 в 13:46

Спарк существует и используется в индустрии уже довольно давно, поэтому сомневаюсь, что настолько высокоуровневый обзор спарка сегодня кому-то интересен. Но это ладно. Все впечатление портит сравнительная таблица (последняя картинка). Это просто халтура. Вот что сразу бросается в глаза:

Что такое "Абстракция данных" и почему у спарка это DStream?
Что за новый язык программирования "Clothure"?
Почему "Вероятность дубликации данных" измеряется не от 0 до 1, а как "да/нет"?
Что значит "Задержка обработки" и как она измерялась?
"Проходимость" — страшно подумать, каким надмозгом это переводилось...
"Готовности продукта" — почему во множественном числе? Опять же интересно, как эти "готовности" измерялись...

blognetology 27 июн 2017 в 19:11

Спасибо за замечания, внесли некоторые изменения в таблицу.

-1

Sonorx 27 июн 2017 в 15:05

Неплохая обзорная статья, особенно спасибо за собранные сведенья в таблице по сравнению фреймворков, очень полезная информация. Вот правда таблица во вступлении непонятно как относиться к остальной статье.

-1

sshikov 27 июн 2017 в 21:15

Открываем родной сайт спарка, и читаем первый же абзац, где написано буквально следующее:

У авторов:
>Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.

У вас:
>Hadoop сохраняет данные на жесткий диск на каждом шаге алгоритма MapReduce, а Spark производит все операции в оперативной памяти.

И уверяю вас, это далеко не единственный перл.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий