Как стать автором
Обновить

Комментарии 4

Спарк существует и используется в индустрии уже довольно давно, поэтому сомневаюсь, что настолько высокоуровневый обзор спарка сегодня кому-то интересен. Но это ладно. Все впечатление портит сравнительная таблица (последняя картинка). Это просто халтура. Вот что сразу бросается в глаза:


  1. Что такое "Абстракция данных" и почему у спарка это DStream?
  2. Что за новый язык программирования "Clothure"?
  3. Почему "Вероятность дубликации данных" измеряется не от 0 до 1, а как "да/нет"?
  4. Что значит "Задержка обработки" и как она измерялась?
  5. "Проходимость" — страшно подумать, каким надмозгом это переводилось...
  6. "Готовности продукта" — почему во множественном числе? Опять же интересно, как эти "готовности" измерялись...
Спасибо за замечания, внесли некоторые изменения в таблицу.
Неплохая обзорная статья, особенно спасибо за собранные сведенья в таблице по сравнению фреймворков, очень полезная информация. Вот правда таблица во вступлении непонятно как относиться к остальной статье.
Открываем родной сайт спарка, и читаем первый же абзац, где написано буквально следующее:

У авторов:
>Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.

У вас:
>Hadoop сохраняет данные на жесткий диск на каждом шаге алгоритма MapReduce, а Spark производит все операции в оперативной памяти.

И уверяю вас, это далеко не единственный перл.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий