Комментарии 24
"С декабря 2020 года для всех пользователей CDP стал доступен Spark 3.0, а добавление 3.1 запланировано на первую половину 2021."
Можно уточнить о какой конкретно версии идет речь? Релиз Spark 3.1.0 же отменили и вроде пока не ясно когда будет 3.1.1
Добрый день!
1) Правильно ли я понимаю, что все, кто купил ранее лицензию CDH должны покупать новую на CDP?
2) Ранее у вас была бесплатная редакция CDH, многие ей пользуются. В текущей ситуации с закрытием бесплатного дистрибутива получается, что пользователь на express должен искать альтернативу CDH или покупать лицензию и мигрировать в CDP. Как при таком рваном векторе развития продукта можно ему доверять?
Удивительная вещь конкуренция — до объединения было две хороших компании, после объединения ни одной.
Закрыть под лицензию то, что всегда распространялось свободно (я имею ввиду репозитории старых версий cdh), то, чем люди по всему миру пользуются — это очень странное решение. Думаю, что при наличии прямого конкурента на рынке такое вряд ли произошло бы.
Возможно что сам продукт стал лучше после объединения, но я не могу посмотреть, потому что на запрос триала, который я отправил дней 10 назад через форму на сайте, мне никто не ответил)
Конкурентов да, по сути больше нет. Все остальные поделки на базе big top с устаревшими версиями не назовешь конкурентами.
С другой стороны, Клаудера обещала выложить исходники CDP. Полгода как просрочили и отчета пока нет.
странный ход от клоудеры конечно. и ценник убийственный. может конечно в краткосрочной перспективе удастся вытянуть денег с тех кто подсел на бесплатную сборку, но в долгосрочном это убивает интерес к хадуп, который и так уже не на взлете.
большинство будет ориентироваться на альтернативы хадуп экосистемы, что то типа k8s+spark.
Удачи вам с k8s+spark когда будете искать команду на 3000-4000 человеко дней с таймлайном год для проекта.
клоудера вымогает $6к за узел в месяц. месяц Карл. 10 узлов тянут на $2M за 3 года. при том, что к клоудере все равно какую-то полноценную субд надо будет закупать. это сравнимо со всякими oracle exadata, если не дороже. при этом нам, к примеру, пришлось выкидывать их сборку spark, свой hue собирать и многое другое. в тюнинг Импалы у нас думаю тысяча человекочасов вложено и все равно валится с ошибками памяти.
10 улов за 3 года — $240k + налоги. Карл, куку. За такие деньги вы только посмотрите как другие смотрят на Exadata.
Для какой цели вам надо СУБД то закупать?
CDP закрывает все задачи системы интеграции данных в гомогенной архитектуре тк имеет в сборке сервисы на все виды нагрузки.
Если вы не знаете как это сделать, это не означает что это невозможно. Максимум что вам понадобится, Карл, это какой-нибудь постгресик под метаданные.
поэтому к клоудере приходится ставить нормальную субд для ad-hoc BI запросов.
Как же тогда интерфейс на медленный HDFS (а правильно все же говорить про паркет да желательно новый который с Page Indices) показывают производительную лучше чем GreenPlum при высококонкурентной нагрузке 50+ одновременных аналитических запросов?
Может вы просто не умеете правильно работать с технологией? Или не умеете делать правильный сайзинг (типа поднимем 100500 ущлов 8 CPU 64 Gb)?
Ну и очень хочется понять как вам так уникально насчитали $6k в месяц, если все ценники официально опубликованы и это можно проверить.
Хм. правда возможно они для бедных восточных стран?
habr.com/ru/company/itsumma/blog/539328/#comment_22622646
на счет «100500 ущлов 8 CPU 64 Gb» (tm) это реально рекомендация клоудеры. их хренатень под названием kudu рекомендует 1000 таблетов на узел, т.е. если у тебя тысяча таблиц, с сотнями партиций и всякие dev, uat, pre-prod разделы, понадобится невообразимое кол-во мелких узлов. и врятли 100500 хватит
8\64 (еще пади и с минимальным кол-вом маунтов на узел) — такие узлы я бы рекомендовал только для спарк обработки и то если вы идете в историю с облаком. Никто вменяемый не будет будет в он прем такие узлы делать и ждать после этого чуда.
Где вы найдете тот же GreenPlum с такими параметрами? Impala — это полноценный MPP движок, работающий над данными HDFS. И сайзить его надо именно с подходом проектирования классических MPP.
Kudu кстати великолепно сожительствует с HDFS под онлайн нагрузкой с доступом из Imapala. Но если вы ищете охеретительно быстрый доступ по ключу то лучше смотреть в сторону Phoenix. Все это есть в сборке CDP.
Те если все таки вы не разобрались это не значит что технология плохая.
если уж так приспичило, на каждом узе по 128G памяти, 20 ядер. совершенно нормальные узлы, на которых и так уже большая часть ресурсов выделена Импале, которая ничего сложного и не делает. все тяжелые ETL / скоринги делает map-reduce и спарк.
Так же я советовал определиться сколько запросу надо памяти и какой мемлим в итоге суммарный по узлам (mem_lim * кол-во узлов)
Memory left in process limit: 9.51 GB
тому запросу еще 9.51 GB дозволялось скушать, но Executor уже съел свои 80GB лимита выполняя другие запросы. если убрать конкруентов, запрос замечательно исполняется.
Во второй ветке impala наоборот приколы были, когда при отсутствии конкуренции и наличии большого кол-ва тредов Impala начинала поднимать дополнительные сканеры, которые быстро кпирались в лимит запроса. В этом случае надо было ограничивать кол-во сканеров через параметр сессии.
В третьей ветке появился параметр в ресурсном пуле max cap который не выделяет всю память запросу, а задает только верхний предел. Это избавило от проблемы переедания лишней памяти например теми пользователями, которые любили задать максимум чтобы не заморачиваться.
1) Не всегда, зависит от условий актуального договора. Обычно для заказчиков с активной лицензией мы предлагаем варианты перехода на CDP на тех же условиях.
2) Все верно. Вектор развития всегда был нацелен на корпоративных заказчиков, в этом плане ничего не поменялось. Стоимость лицензии обычно окупается в несколько (десятков/сотен) раз после внедрения платформы, поэтому это небольшая цена по сравнению с бенефитами
Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?