Pull to refresh

Comments 18

вся обработка потока легко помещается на 2 железки, а при желании можно и на одной это делать и никто не заметит

биг-дата такая биг-дата

Что интересно, во времена MapReduce статей дальше wordcount днём с огнём не сыщешь, появился спарк и по 2-3 статьи в неделю только на хабре. Вот она, сила маркетинга!
да уж, данных становится все больше, скорости растут и смузи уже за простой Hadoop MapReduce не наливают :-)
Те, кто знают MapReduce, за еду не работают…
Пока просто картинка. Работа с аналогом — Amazon Redshift.
Druid к Redshift это как теплое к мягкому
второй это честный sql
первый заточенность на агрегациях поверх псевдо-olap, да еще и без join'ов (хотя свое дело и делает хорошо в этой части если данные денормализованы)
Ну column-ориентированные же? Для анализа и агрегации задуманы :-)
И нечестный SQL в Redshift — очень урезанный, без joins, без внешних ключей, так, игрушечный
а в druid просто нету sql, от слова СОВСЕМ
хотя сейчас imply что-то и пытается делать транслятор, но работы еще вагон

я бы понял, если бы сравнили druid c Pinot, но с редшифтом это уж слишком.

>> Ну column-ориентированные же?
по хорошему, сегмент в друиде это bitmap индекс, что и объясняет, почему select у них появился совсем не сразу, да и сейчас используется только для отладки, так как тормозной до ужаса.

column-ориентированные зачастую преподносят почему вам не нужны индексы, тут же только индексы и есть.

>> Нет уникальных ключей и т.п
в друид вообще нету понятий ключей, есть dimention и событие в append-only виде, ни обновлений ни изменений нету
Как быстро он индексирует входящие данные? По вашему опыту/мнени, сколько INSERT'ов в секунду одна приличная нода выдержит? 50к? 100к?
вот тут не могу сказать сразу, так как у нас пока и нагрузка не 50к и стоит реалтайм за кафкой, что еще больше сглаживает пики
Ну это понятно что будет стоять lb/mq (:
Все хотел его погонять. Обещают аналитику, следовательно много записей и агрегация.

Только руки не доходят. И Docker'a официального у них нет.

Не подойти просто )
докер есть, отдельно есть уже более гранулированные (брокер, ноды)

в свое время вообще делал просто «скачал, распаковал, запустил дефолт», а уже дальше думаешь что тебе нужно
для начала хватит и одной машинки-инстанса, на котором все 3 типа запустить, примеры у них тоже неплохие

для визуализации (пока еще достаточно сырое, но уже от реста избавляет в простейших случаях) Imply. да и quickstart там описывает как запустить в одну команду, к тому же у него есть и свежий docker

плохо искали ;)
Действительно. Я по привычке на докер хабе глянул, не увидел официального / с большим количеством скачиваний и оставил «на потом».

Спасибо за наводку. Теперь у меня нет отмазок чтобы не попробовать (:

Попробую его помучать приличной нагрузкой (:
1к сообщений в секунду как-то несерьезно. Сколько экзекуторов/железа потребуется, чтобы обрабатывать хотя бы 1-10кк сообщений в секунду?
ну это реальная боевая нагрузка, честная
Я ни в коем случае не ставлю это под сомнение. Просто на моем проекте планируется нагрузка в тысячу раз выше и я надеялся, что может вы уже делали сайзинг.
Sign up to leave a comment.