AlexSerbul Dec 25 2015 at 16:41

Интерактивная карта клиентов — Apache Spark Streaming и Яндекс.Карты

6 min

17K

Битрикс24 corporate blogYandex API*Big Data*

Comments 18

kirichenko Dec 25 2015 at 17:37

вся обработка потока легко помещается на 2 железки, а при желании можно и на одной это делать и никто не заметит

биг-дата такая биг-дата

Что интересно, во времена MapReduce статей дальше wordcount днём с огнём не сыщешь, появился спарк и по 2-3 статьи в неделю только на хабре. Вот она, сила маркетинга!

AlexSerbul Dec 25 2015 at 17:38

да уж, данных становится все больше, скорости растут и смузи уже за простой Hadoop MapReduce не наливают :-)

-1

kirichenko Dec 29 2015 at 11:08

Те, кто знают MapReduce, за еду не работают…

Eternalko Dec 25 2015 at 18:43

Работали с Druid'ом? Или просто картинка?

AlexSerbul Dec 25 2015 at 18:44

Пока просто картинка. Работа с аналогом — Amazon Redshift.

xhumanoid Dec 25 2015 at 20:39

Druid к Redshift это как теплое к мягкому
второй это честный sql
первый заточенность на агрегациях поверх псевдо-olap, да еще и без join'ов (хотя свое дело и делает хорошо в этой части если данные денормализованы)

AlexSerbul Dec 25 2015 at 21:56

Ну column-ориентированные же? Для анализа и агрегации задуманы :-)

AlexSerbul Dec 25 2015 at 21:57

И нечестный SQL в Redshift — очень урезанный, без joins, без внешних ключей, так, игрушечный

AlexSerbul Dec 25 2015 at 22:25

Ой, простите, Вы конечно правы — joins в Redshift есть конечно. Нет уникальных ключей и т.п. docs.aws.amazon.com/redshift/latest/dg/c_unsupported-postgresql-features.html

Я помню когда его смотрел, осталось впечатление урезанного SQL до небалуй :-)

xhumanoid Dec 26 2015 at 00:42

а в druid просто нету sql, от слова СОВСЕМ
хотя сейчас imply что-то и пытается делать транслятор, но работы еще вагон

я бы понял, если бы сравнили druid c Pinot, но с редшифтом это уж слишком.

>> Ну column-ориентированные же?
по хорошему, сегмент в друиде это bitmap индекс, что и объясняет, почему select у них появился совсем не сразу, да и сейчас используется только для отладки, так как тормозной до ужаса.

column-ориентированные зачастую преподносят почему вам не нужны индексы, тут же только индексы и есть.

>> Нет уникальных ключей и т.п
в друид вообще нету понятий ключей, есть dimention и событие в append-only виде, ни обновлений ни изменений нету

Eternalko Dec 26 2015 at 01:52

Как быстро он индексирует входящие данные? По вашему опыту/мнени, сколько INSERT'ов в секунду одна приличная нода выдержит? 50к? 100к?

xhumanoid Dec 26 2015 at 15:05

вот тут не могу сказать сразу, так как у нас пока и нагрузка не 50к и стоит реалтайм за кафкой, что еще больше сглаживает пики

Eternalko Dec 26 2015 at 21:25

Ну это понятно что будет стоять lb/mq (:
Все хотел его погонять. Обещают аналитику, следовательно много записей и агрегация.

Только руки не доходят. И Docker'a официального у них нет.

Не подойти просто )

xhumanoid Dec 26 2015 at 21:48

докер есть, отдельно есть уже более гранулированные (брокер, ноды)

в свое время вообще делал просто «скачал, распаковал, запустил дефолт», а уже дальше думаешь что тебе нужно
для начала хватит и одной машинки-инстанса, на котором все 3 типа запустить, примеры у них тоже неплохие

для визуализации (пока еще достаточно сырое, но уже от реста избавляет в простейших случаях) Imply. да и quickstart там описывает как запустить в одну команду, к тому же у него есть и свежий docker

плохо искали ;)

Eternalko Dec 26 2015 at 22:32

Действительно. Я по привычке на докер хабе глянул, не увидел официального / с большим количеством скачиваний и оставил «на потом».

Спасибо за наводку. Теперь у меня нет отмазок чтобы не попробовать (:

Попробую его помучать приличной нагрузкой (:

lonelylockley Dec 26 2015 at 14:56

1к сообщений в секунду как-то несерьезно. Сколько экзекуторов/железа потребуется, чтобы обрабатывать хотя бы 1-10кк сообщений в секунду?

AlexSerbul Dec 27 2015 at 21:15

ну это реальная боевая нагрузка, честная

lonelylockley Dec 30 2015 at 20:46

Я ни в коем случае не ставлю это под сомнение. Просто на моем проекте планируется нагрузка в тысячу раз выше и я надеялся, что может вы уже делали сайзинг.