alextokarev 8 фев 2023 в 11:08

Платформа данных в Леруа Мерлен — как мы победили масштабирование

10 мин

6.6K

Блог компании Леруа МерленBig Data*Хранение данных*Data Engineering*

Кейс

Комментарии 17

OneManStudio 8 фев 2023 в 11:40

Круто, может еще через 5 лет сайт научится запоминать выбраный регион, брать его из кукисов, по геометки или хотя бы подтягивать из профиля авторизированного профиля. А то авторизацию запоминает, а регион стабильно мск выбирает.

Когда уже для клиентов что нибудь сделают?) Сайт как был унылой затычкой 10 лет назад, так и остался таким до сих пор.

Хорошо хоть магазин остался нормальным.

Geckelberryfinn 8 фев 2023 в 11:48

В целом решение весьма логично, но, возможно несколько перегружено технологическими слоями. Flink, Nifi, Spark... Причём много усилий для перерасчёта дельт. На следующем этапе я бы исследовал возможность исключения Nifi из цепочки и рассмотрел бы возможность и целесообразность перехода к Databricks с его стримингом и Delta tables. Возможно упростит обслуживание дельт без ущерба масштабируемости решения.

alextokarev 8 фев 2023 в 11:56

NiFi мы уже на текущем этапе исключили, заменив его Flink-ом

EvgenyVilkov 16 фев 2023 в 16:03

Леройчик в яндекс клауде, Весь креатив надо самому впиливать. Не все на это готовы

KlimenkoIv 1 мар 2023 в 09:23

Коллега, а почему DataBricks?
Все, что представлено, является бесплатным решением.К тому же, все представленные сервисы можно замостить у себя, без ухода в облака. С точки зрения безопасников, это просто Must Be.

seasadm 8 фев 2023 в 12:21

Интересно как вы 800 источников насчитали...

alextokarev 8 фев 2023 в 12:26

Ведём свой дата каталог

EvgenyVilkov 8 фев 2023 в 13:31

В верном направлении движетесь.

Через Х лет ждем материал "мы наконец то решили отказаться от GreenPlum".

HDDimon 8 фев 2023 в 14:25

Вы сторону delta lake не смотрели? Соглашусь с коллегой, решение кажется технологически перегруженным. Я правильно понимаю что flink вы внедрили ради оконных функций для применения дельт?

alextokarev 8 фев 2023 в 14:34

В целом да, сейчас flink используется больше как труба для перекачки данных из кафки в s3, и из фичей флинка пока что используются только оконные функции. Но в будущем мы планируем развивать этот модуль для выполнения более сложных аналитических расчетов на потоках данных.

OldPronStar 8 фев 2023 в 16:09

пользуясь случаем, хочу спросить:

почему софт на служебных леруашных смартфонах так болезненно реагирует на разлочку загрузчика и рутирование, что даже magiskhide не спасает?

neura 8 фев 2023 в 17:42

Это часть нашего security pipeline

andylar 8 фев 2023 в 21:54

Хорошо бы еще ценность научиться понимать всех этих 800 источников)

web3_Venture 8 фев 2023 в 22:41

Теперь я знаю как выглядит зоопарк технологий. Причем зоопарк почти одних и теже технологий которые в большинстве случаев замещают друг друга.

Как будто ктото пытался впихнуть всё что слышал знает...

-1

EvgenyVilkov 16 фев 2023 в 16:02

Вообще ни разе не правы. Очень простая архитектура и почти правильная. Все то лишнее не этой картинке - это GreenPlum. Но до этого они пока не созрели.

KlimenkoIv 1 мар 2023 в 09:25

Коллега, а какую альтернативу СУБД для аналитического хранилища вы рассматриваете?

EvgenyVilkov 1 мар 2023 в 09:55

А что такое СУБД? :) Зачем она? Есть хранение в S3, к которому легко приклеивается например iceberg. К слою хранения нужен метастор (который к слову скоро появится у яндекса как SaaS). Дальше нужен движок (spark, impala, trino - выбирай любой) который в зависимости от потребности поднимается в managed k8s. Работает быстрее GP а еще и дешевле в плане билинга в облаке.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий