Comments 14
Это интеграция Apache Hadoop с SQL Server 2012, то есть они прикрутили поддержку Apache Hadoop к SQL Server. Microsoft настойчиво пытаются сказать, что SQL Server тоже может быть решением для Big Data. Может быть, может быть… Скептицизм, который у меня остался после работы с SQL Server 2000 в юности, пока еще не выветрился полностью :)
Может быть, это предвзятое мнение и SQL Server 2008 хорош :)

Greenplum тоже интегрировал Apache Hadoop со своей базой данных Greenplum Database и называет это решение Greenplum HD. На самом деле, сейчас практически все производители в области хранения и обработки данных разрабатывают интеграцию с Apache Hadoop — это говорит о многом.
Забыл упомянуть, что Greenplum HD взял дистрибутив MapR M5 за основу для своей базы.
2008 весьма и весьма. Это уже не 2000 =) Будет или нет МС развивать Хадуп, посмотрим. Они в нем заинтересованы, и, в ствете последних веяний из Редмонда, запросто могут начать его поддерживать.
Да, Microsoft предлагает развернуть Apache Hadoop на их облаке Azure. Правда, он не упоминает, какой дистрибутив они берут за основу, вполне возможно что они его собрали сами. Не думаю, что они заинтересованы в развитии Hadoop собственными силами, скорей они пытаются адаптировать его для своих продуктов — это, кстати, подтверждается следующим комментарием. Хотя уже то, что они обратили внимание на Apache Hadoop, уже говорит о том, что они поверили в перспективы этого проекта.
вам нужно было с MapR сравнивать, который сейчас даже в Amazon встроил в свой EMR сервис. Да и различия там посущественнее.
и имхо платить не нужно в подавляющем большинстве случаев, т.к. весь этот propitiatory bullshit хоть и решает определенный класс проблем, но в то же время привносит свои, специфичные.
Да, совершенно верно — я незаслуженно упустил MapR в этой статье.

Попробую кратко описать в комментарии основные отличия MapR M3 и MapR M5 от CDH и HDP. Итак, 29 июня 2011 года MapR представило свой дистрибутив на основе Apache Hadoop. Чтобы иметь представление, что это такое, приведу картинку:



Главные отличие дистрибутива от MapR — это то, что там нет HDFS. Вместо него MapR разработало свою распределенную файловую систему с поддержкой произвольного чтения/записи без блокировок, имеющую довольно значительные преимущества по сравнению с HDFS. Например, она поддерживает компрессию и распределяет метаданные по кластеру, что дает возможность создавать неограниченное количество файлов и, что более важно в текущий момент, устраняет single point of failure в виде централизованной NameNode.

По уверениям CEO MapR Джона Шроедера они значительно переделали компоненты, относящиеся к MapReduce, а также разработали свою распределенную файловую систему, что позволило увеличить производительность в 3-5 раз по сравнению с основными конкурентами — Cloudera и Hortonworks.

MapR M3 совершенно бесплатно, можно скачать с их сайта.
MapR M3

MapR M5 платная, стоит $4000 за узел (цена на 2011 году), обладает расширенной функциональностью по сравнению с MapR M3 — JobTracker HA, Distributed NameNode, NFS Multinode HA, Mirroring, Snapshots, Data placement control и техническая поддержка 24х7. Amazon предпочел решение от MapR — Elastic MapReduce. Google выбрал его в качестве платформы для внутреннего поиска. Также, EMC заключило соглашение с MapR об использовании этого дистрибутива в качестве основы для Greenplum HD.

Подводя итог, можно сказать, что дистрибутив от MapR — это серьезное решение с вполне определенными и ясными преимуществами, можно его рассматривать, как одно из ведущих наравне с CDH и HDP, а в некоторых моментах оно даже дает уникальные возможности по сравнению с остальными решениями.
Спасибо интересно было почитать. Видно что вы в теме. Сам был на hadoop summite. Вообще клево наблюдать за войнами и развитием таких технологий. Хочу лишь добавить что HMC и Cloudera Manager невозможно сравнивать, слишком разный функицонал. Цена за Cloudery конечно удивила.
про нестабильность cdh4 преувеличено. в cdh4 не надо использовать yarn. hdfs2 + mr1 работают стабильно и быстрее (crc например ускорили в разы)
Можно узнать чем вас обидела Cloudera?
слишком агрессивное настроение чувствуется по отношению к ней.

По поводу утверждений, что это всего-лишь набор апачевских проектов, а сами они ничего не делали, вы не правы:
1. Flume — система для event процессинга, зародилась в cloudera и позже отдана в инкубатор апача
2. Hue — удобная веб обвязка поверх хадупа, пига и хайва, также зародилась в cloudera и отдана в инкубатор
3. Sqoop — система для синхронизации-переливки данных между хадупом (файлы на хдфс, хайв, пиг, хбэйс) и обычными реляционками, вплоть до создания схемы, зародился и развивался в cloudera и отдан в инкубатор

Дополнительно в пределах cdh3 или cdh2 вы имеете полную совместимость своих джобов и работу без проблем, в мире hadoop с этим большая проблема, особенно когда версии выпускают часто и какая активная сказать никто не может, а стоит выйти новой версии разработчики забивают на предыдущие. Для миграции между версиями имеются исчерпывающие мануалы. Cloudera же вливает гигантское количество багфиксов в виде бэкпорта в свои продукты, так же имеются бэкпорты отдельных улучшений из следующих нестабильных версий в существующие стабильные. Все наработки по хадуповскому стеку открыты, бери и скачивай в сорцах, изменяй и пересобирай. Исключением является консоль управления, но она появилась когда была уже версия cdh3, причем была уже не первый месяц. Так что я бы рассматривал Cloudera в качестве RedHat для рынка hadoop решений. Один из ведущих разработчиков Todd Lipcon работает у них, все направления развития и новинки в тестировании и достижении хадупа как платформы очень четко просматриваются в его твитере.

Использовал cdh2 и cdh3, их стабильность по сравнению с ванильным хадупом это было что-то, сравнивать с cdh4 не берусь так как ушел с того проекта, но сомневаюсь в том, что Cloudera выпустила сырой продукт на рынок, уж слишком они серьезно подходят к делу, да и не жалеют отдавать свои наработки в открытый доступ.

Чем же будет Hortonworks еще покажет время, активность у них неплохая, но слишком молоды еще.

А вообще в мире BigData для меня выделяются:
1. hadoop — cloudera
2. cassandra — datastax
Cloudera меня ничем не обидела, и у меня не было намерения выставить Cloudera в плохом свете. То, что она пионер в области Apache Hadoop — я совершенно согласен с этим и многое она привносит в развитие Hadoop. Впрочем, как и MapR и Hortonworks. Хотя надо заметить, что по-моему мнению, Cloudera привносит самую большую часть из них. Насчет значимости Hue довольно спорный вопрос, но тут, наверное, не может быть единого мнения. Но, то, что они сделали очень многое для развития Hadoop — неоспоримый факт, и только за это можно высказать им свое уважение.
Only those users with full accounts are able to leave comments. Log in, please.