Cloudera 22 фев 2021 в 16:49

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

4 мин

5.9K

Блог компании ClouderaApache*Big Data*Хранение данных*Hadoop*

Recovery Mode

-1

Комментарии 24

Cheypnow 24 фев 2021 в 12:35

"С декабря 2020 года для всех пользователей CDP стал доступен Spark 3.0, а добавление 3.1 запланировано на первую половину 2021."

Можно уточнить о какой конкретно версии идет речь? Релиз Spark 3.1.0 же отменили и вроде пока не ясно когда будет 3.1.1

Kiryl_Halozhyn 24 фев 2021 в 20:51

Все верно, тк 3.1.0 официально не будет, то речь идёт о 3.1.1. Версия у нас в дистрибутиве сейчас это 3.0.1. Мы планируем добавить 3.1.1 версию почти сразу после официального релиза вместе с коннекторами к Куду и Hbase, которые не успели выпустить с 3.0. Ходят слухи, что 3.1.1 будет в конце марта

DiamondBK 24 фев 2021 в 12:35

Добрый день!
1) Правильно ли я понимаю, что все, кто купил ранее лицензию CDH должны покупать новую на CDP?
2) Ранее у вас была бесплатная редакция CDH, многие ей пользуются. В текущей ситуации с закрытием бесплатного дистрибутива получается, что пользователь на express должен искать альтернативу CDH или покупать лицензию и мигрировать в CDP. Как при таком рваном векторе развития продукта можно ему доверять?

opan 24 фев 2021 в 15:16

Удивительная вещь конкуренция — до объединения было две хороших компании, после объединения ни одной.

EvgenyVilkov 25 фев 2021 в 11:40

Чисто ради интереса — а какие критерии вы вкладываете «в хорошая компания»?

opan 25 фев 2021 в 12:04

В данном случае я имею ввиду клиенториентированность. Уважение к сообществу, в котором она находится, и во многом благодаря которому имеет возможности для развития.
Закрыть под лицензию то, что всегда распространялось свободно (я имею ввиду репозитории старых версий cdh), то, чем люди по всему миру пользуются — это очень странное решение. Думаю, что при наличии прямого конкурента на рынке такое вряд ли произошло бы.

Возможно что сам продукт стал лучше после объединения, но я не могу посмотреть, потому что на запрос триала, который я отправил дней 10 назад через форму на сайте, мне никто не ответил)

EvgenyVilkov 25 фев 2021 в 12:38

Ну бесплатного в этом мире ничего не бывает, это же понятно. Нет CDH открытого — идите в Apache Big Top. Нет нужных сервисов в Big Top, идите за покупкой саппорта в Cloudera. Как компания может развивать за просто так?
Конкурентов да, по сути больше нет. Все остальные поделки на базе big top с устаревшими версиями не назовешь конкурентами.

С другой стороны, Клаудера обещала выложить исходники CDP. Полгода как просрочили и отчета пока нет.

bigdata-dev 26 фев 2021 в 11:07

в мире полно бесплатного софта, начиная с ubuntu и firefox, до ngnix и mariadb.
странный ход от клоудеры конечно. и ценник убийственный. может конечно в краткосрочной перспективе удастся вытянуть денег с тех кто подсел на бесплатную сборку, но в долгосрочном это убивает интерес к хадуп, который и так уже не на взлете.
большинство будет ориентироваться на альтернативы хадуп экосистемы, что то типа k8s+spark.

EvgenyVilkov 26 фев 2021 в 12:48

Очень странное заявление про Hadoop который не на взлете и убийственный ценник. Посчитайте TCO и cost per performance и вы поймете что конкурентов по сути у Cloudera нет. Именно CDP с их перечнем сервисов, а не других сборок.

Удачи вам с k8s+spark когда будете искать команду на 3000-4000 человеко дней с таймлайном год для проекта.

bigdata-dev 26 фев 2021 в 14:05

вы видно не в теме, mapr помер, hdp ушел на дно и был поглощен полуживой клоудерой. у клоудеры акции в глубоком минусе, явно облака все перетягивают.
клоудера вымогает $6к за узел в месяц. месяц Карл. 10 узлов тянут на $2M за 3 года. при том, что к клоудере все равно какую-то полноценную субд надо будет закупать. это сравнимо со всякими oracle exadata, если не дороже. при этом нам, к примеру, пришлось выкидывать их сборку spark, свой hue собирать и многое другое. в тюнинг Импалы у нас думаю тысяча человекочасов вложено и все равно валится с ошибками памяти.

EvgenyVilkov 26 фев 2021 в 14:15

On prem узел Cloudera в год стоит $8k в год.
10 улов за 3 года — $240k + налоги. Карл, куку. За такие деньги вы только посмотрите как другие смотрят на Exadata.

Для какой цели вам надо СУБД то закупать?
CDP закрывает все задачи системы интеграции данных в гомогенной архитектуре тк имеет в сборке сервисы на все виды нагрузки.
Если вы не знаете как это сделать, это не означает что это невозможно. Максимум что вам понадобится, Карл, это какой-нибудь постгресик под метаданные.

bigdata-dev 26 фев 2021 в 15:03

$8k было до поглащения hdp, сейчас они нам $6к в месяц уже насчитали. не знаю, может бедным странам на востоке скидки какие дают, нам видно скидки не полагаются. но все равно, на кой кастрированный клоудерой хадуп, не имеющего полноценного решения даже за $240к? то что клоудера продвигает в своей коробке все равно мусор. Импала это по сути интерфейс на медленный hdfs, как источник к BI не годиться. Импала все тянет в инмемори, чуть серьезней нагрузка и executors ноды валятся с Memory limit exceeded. но самое потрясающее, что нода координатор тянет себе в память весь датасет, какой надо отдать клиенту.
поэтому к клоудере приходится ставить нормальную субд для ad-hoc BI запросов.

EvgenyVilkov 26 фев 2021 в 16:02

Как же я тогда на Impala получаю 1млн SQL запросов в сутки на 14 узлах при утилизации CPU процентов так на 30?

Как же тогда интерфейс на медленный HDFS (а правильно все же говорить про паркет да желательно новый который с Page Indices) показывают производительную лучше чем GreenPlum при высококонкурентной нагрузке 50+ одновременных аналитических запросов?
Может вы просто не умеете правильно работать с технологией? Или не умеете делать правильный сайзинг (типа поднимем 100500 ущлов 8 CPU 64 Gb)?

Ну и очень хочется понять как вам так уникально насчитали $6k в месяц, если все ценники официально опубликованы и это можно проверить.
Хм. правда возможно они для бедных восточных стран?

bigdata-dev 26 фев 2021 в 17:10

как же так — в соседней теме я вам уже рассказывал, но вы предпочли слиться
habr.com/ru/company/itsumma/blog/539328/#comment_22622646
на счет «100500 ущлов 8 CPU 64 Gb» (tm) это реально рекомендация клоудеры. их хренатень под названием kudu рекомендует 1000 таблетов на узел, т.е. если у тебя тысяча таблиц, с сотнями партиций и всякие dev, uat, pre-prod разделы, понадобится невообразимое кол-во мелких узлов. и врятли 100500 хватит

EvgenyVilkov 26 фев 2021 в 17:29

В соседней теме вы мне так и не сказали характеристики узлов между прочим.
8\64 (еще пади и с минимальным кол-вом маунтов на узел) — такие узлы я бы рекомендовал только для спарк обработки и то если вы идете в историю с облаком. Никто вменяемый не будет будет в он прем такие узлы делать и ждать после этого чуда.

Где вы найдете тот же GreenPlum с такими параметрами? Impala — это полноценный MPP движок, работающий над данными HDFS. И сайзить его надо именно с подходом проектирования классических MPP.

Kudu кстати великолепно сожительствует с HDFS под онлайн нагрузкой с доступом из Imapala. Но если вы ищете охеретительно быстрый доступ по ключу то лучше смотреть в сторону Phoenix. Все это есть в сборке CDP.

Те если все таки вы не разобрались это не значит что технология плохая.

Yo1 26 фев 2021 в 18:34

я два раза указал, что Impala Daemon Executors mem_limit итак уже поднят до 80Gb и лимит на запрос 64G. этого совершенно достаточно, что бы сделать выводы. нехватало бы памяти на узле, была бы соответствующая ошибка, а так хорошо видно что executor свои 80G получает, но не способен их грамотно распределить между конкурирующими запросами.
если уж так приспичило, на каждом узе по 128G памяти, 20 ядер. совершенно нормальные узлы, на которых и так уже большая часть ресурсов выделена Импале, которая ничего сложного и не делает. все тяжелые ETL / скоринги делает map-reduce и спарк.

EvgenyVilkov 26 фев 2021 в 18:47

Переподписки памяти на хосте между импалой и ярном нет?
Так же я советовал определиться сколько запросу надо памяти и какой мемлим в итоге суммарный по узлам (mem_lim * кол-во узлов)

bigdata-dev 26 фев 2021 в 19:19

нет. переподписки нет, запрос падает потому что не может получить свои законные 64G на Executor, который хоть и имеет 80G, но выполняет сразу несколько запросов.
Memory left in process limit: 9.51 GB

тому запросу еще 9.51 GB дозволялось скушать, но Executor уже съел свои 80GB лимита выполняя другие запросы. если убрать конкруентов, запрос замечательно исполняется.

EvgenyVilkov 27 фев 2021 в 10:47

Ну так надо правильно настроить admission control. Если памяти свободной не будет, то запрос встанет в очередь. В профиле запроса можно увидеть, поискав строку admission, стразу он выполняться начал или ожидал высвобождения ресурсов.
Во второй ветке impala наоборот приколы были, когда при отсутствии конкуренции и наличии большого кол-ва тредов Impala начинала поднимать дополнительные сканеры, которые быстро кпирались в лимит запроса. В этом случае надо было ограничивать кол-во сканеров через параметр сессии.
В третьей ветке появился параметр в ресурсном пуле max cap который не выделяет всю память запросу, а задает только верхний предел. Это избавило от проблемы переедания лишней памяти например теми пользователями, которые любили задать максимум чтобы не заморачиваться.

Kiryl_Halozhyn 26 фев 2021 в 15:06

Для скачивания триальной версии форма не нужна — это можно сделать прямо на сайте (у этой версии будет только встроенная СУБД). Для получения доступа к триалу полноценной версии напишите мне в личку — помогу с организацией процесса

EvgenyVilkov 25 фев 2021 в 11:38

КМК пользователь на express может остаться на express. Единственная проблема — что теперь (недели две как) express скачать нельзя с оф сайта

Kiryl_Halozhyn 26 фев 2021 в 15:01

Добрый!
1) Не всегда, зависит от условий актуального договора. Обычно для заказчиков с активной лицензией мы предлагаем варианты перехода на CDP на тех же условиях.
2) Все верно. Вектор развития всегда был нацелен на корпоративных заказчиков, в этом плане ничего не поменялось. Стоимость лицензии обычно окупается в несколько (десятков/сотен) раз после внедрения платформы, поэтому это небольшая цена по сравнению с бенефитами

EvgenyVilkov 24 фев 2021 в 12:35

Cloudera Data Visualization является доп компонентном к CDP? или к Workbench?

Kiryl_Halozhyn 24 фев 2021 в 20:57

Зависит от форм-фактора, в частном и публичном облаках он включён в основной дистрибутив. В локальной версии Base он является доп компонентом и работает на базе Workbench’а

Зарегистрируйтесь на Хабре, чтобы оставить комментарий