Комментарии 4
Спарк существует и используется в индустрии уже довольно давно, поэтому сомневаюсь, что настолько высокоуровневый обзор спарка сегодня кому-то интересен. Но это ладно. Все впечатление портит сравнительная таблица (последняя картинка). Это просто халтура. Вот что сразу бросается в глаза:
- Что такое "Абстракция данных" и почему у спарка это DStream?
- Что за новый язык программирования "Clothure"?
- Почему "Вероятность дубликации данных" измеряется не от 0 до 1, а как "да/нет"?
- Что значит "Задержка обработки" и как она измерялась?
- "Проходимость" — страшно подумать, каким надмозгом это переводилось...
- "Готовности продукта" — почему во множественном числе? Опять же интересно, как эти "готовности" измерялись...
+3
Неплохая обзорная статья, особенно спасибо за собранные сведенья в таблице по сравнению фреймворков, очень полезная информация. Вот правда таблица во вступлении непонятно как относиться к остальной статье.
-1
Открываем родной сайт спарка, и читаем первый же абзац, где написано буквально следующее:
У авторов:
>Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.
У вас:
>Hadoop сохраняет данные на жесткий диск на каждом шаге алгоритма MapReduce, а Spark производит все операции в оперативной памяти.
И уверяю вас, это далеко не единственный перл.
У авторов:
>Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.
У вас:
>Hadoop сохраняет данные на жесткий диск на каждом шаге алгоритма MapReduce, а Spark производит все операции в оперативной памяти.
И уверяю вас, это далеко не единственный перл.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Apache Spark: из open source в индустрию