Как стать автором
Обновить

Комментарии 6

А чо по тестам в сравнении с реальным железом?
Звучит очень интересно.
Исходя из того, что проект занимает 3000 строчек на Java,
они как минимум его еще не особо тестировали, даже если работает.
У меня так же сложилось впечатление, что в проекте слова концепции опережают дело реализацию. Во всяком случае, проект до сих пор до версии 1.0 не 'дожил'. (Но это не умаляет инновационности идей, используемых в проекте).
Скажите, а в чем преимущество hadoop по сравнению с другими распределенными системами? Например, hazelcast тоже дает возможность распределенно выполнить задачу.

Вопрос не праздный, у нас большой кластер на Cassandra, данные как-то нужно анализировать. Я пробовал hadoop с поддержкой кассандры, очень тормозит. Hazelcast еще не пробовал.
Не буду лукавить: по Hazelcast ничего конструктивного (в контексте сравнения с Hadoop) сказать не могу.

Но могу сказать:
0. самописные реализации по распределенной обработке, в ряде случае, могут показывать лучший результат, чем Hadoop (но писать / поддерживать / развивать такие реализации — немалые временные и финансовые издержки).
1. есть (проприетарный, надо полагать) проект Dryad (Dayota) от Microsoft, который, если мне не изменяет память, в этом году отсортировал петабайт данных качественно быстрее [на меньшем количестве вычислительных узлов за меньшее время], чем платформа Hadoop.

Про Cassandra:
если не секрет, поделитесь опытом: 'очень' это сколько по времени, на каком объеме данных и может какие-то особенности в запросах.
Пробовал на малых объемах, каюсь. Проблема в том, что чтобы что-то действительно попробовать, нужно разворачивать кластер, писать тесты — это все время.

Сейчас у нас 24 машины с кассандрой, на каждой 100-500 Гб данных
Запросы могут быть разные, от тех, где нужен быстрый ответ, до тех, где можно ночью задание запустить.

Коллеги как-то настороженно к hadoop относятся, его надо разворачивать, настраивать, интегрировать с кассандрой, а hazelcast уже есть, года 3, правда, только в качестве кэша. Вот я и спросил, есть ли какие преимущества, стоит ли вообще пробовать hadoop.

Hazelcast предостовляет свою реализацию ExecutorService, т.е. написал FutureTask, запустил — и готово, задания будут расползаться по кластеру, потом запуствиший поток получит результат. С Hadoop, насколько я понял, результат будет записан в HDFS, т.е. его еще надо будет как-то прочитать
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории