Как стать автором
Обновить
110.8
Леруа Мерлен
Мы строим технологическую компанию-платформу.

Опыт разработки и внедрения систем данных в data-driven компаниях

Время на прочтение3 мин
Количество просмотров1.9K

Привет, Хабр! Меня зовут Ксюша Блажевич, я руководитель направления data science и product-owner в Леруа Мерлен. 13 апреля в 19:00 МСК мы совместно с Yandex.Cloud огранизуем  митап о платформах данных, на котором обсудим c Авито и Райффайзенбанком методы и инструменты скоринга входных данных, их агрегации и создании единой системы.

Под катом расписание митапа и анонсы докладов: о релизе нового функционала Yandex Object Storage, методах ускорения time to market до 1 дня, применении lightGBM при приемке товара на складах и оптимизации размещения банкоматов с помощью JupyterHub.

Программа

Дмитрий Ибрагимов
Дмитрий Ибрагимов

19:00 - 19:20 МСК 
Создание Data Platform в Леруа Мерлен
Дмитрий Ибрагимов, SRE Леруа Мерлен

Расскажет об архитектуре Data Platform Леруа Мерлен, а также сделает обзор новинок и инструментов для работы с данными и их обработки. Детально обсудим: 

  • способы и инструменты интеграции нереляционных источников данных (Kafka/Nifi/Object Storage/Spark); 

  • потоковую обработку CDC на платформе Apache Flink; 

  • снижение порога вхождения для работы с данными с помощью Apache Superset.


Всеволод Грабельников
Всеволод Грабельников

19:20 - 19:40 МСК
Данные в S3: поддержка S3 storage в ClickHouse, а также как выполнить select-запрос к файлу, не имея никакой СУБД
Всеволод Грабельников, архитектор Yandex.Cloud

Поделится тем, как команда подошла к решению задачи поддержки хранения и обработки данных в СУБД ClickHouse в S3, а также впервые расскажут о новом функционале по поддержке select-запросов для parquet/csv файлов в S3 (Yandex Object Storage).


Илья Салманов
Илья Салманов

19:40 - 20:00 МСК
Витрины данных в Авито и их применение в бизнес-задачах
Илья Салманов, middle engineer юнита DWH

Раскроет тему витрин данных и того, как с их помощью упростить жизнь аналитиков и дата-инженеров, а именно закрыть потребности более 100 дата-специалистов командой из 14 инженеров. Все о том, как Авито:

  • стандартизировала процесс создания витрин;

  • поддерживает качество кода и данных в витрине;

  • строит дерево зависимостей и пересчитывает витрины (парсинг кода, потоки, SLA витрины);

  • ускоряет time to market для витрин (до 1 дня).


Михаил Сеткин
Михаил Сеткин

20:00 - 20:20 МСК
От анализа данных до внедрения в прод: как инфраструктура помогает обучать и внедрять ML-модели на примере реальных бизнес-кейсов
Михаил Сеткин, руководитель направления по развитию прикладной платформы Data Lake Райффайзенбанк

Райффайзенбанк расскажет о своей платформе Data Lake и поделится, как:

  • произвести моделирование тендеров для закупок;

  • обработать гипотезу по оптимизации расстановки мест для банкоматов с помощью JupyterHub на основе данных транзакционной активности клиентов, исторических данных с банкоматов, а также данных Open Street Map;

  • создать чатбот, научиться распознавать паспорта, 2-НДФЛ и отчеты об оценке залогов для ускоренного ввода данных в систему с помощью виртуальной машины в виртуальном частном облаке VMWare, по cenb такой IAAS, есть шаблоны с CPU/GPU;

  • выработать два паттерна вывода в prod: модель как бэк в веб-сервисе (автоматическая классификация текста жалоб клиентов); модель как UDF-функция в режиме пакетной обработки на Spark (предсказание спроса на наличные в банкоматах).


Ксения Блажевич
Ксения Блажевич

20:20 - 20:40 МСК
Светофор 2.0: страх и ненависть на пути от экселя к градиентному бустингу
Ксения Блажевич, руководитель продукта Леруа Мерлен
Дмитрий Фокеев, менеджер по распределению и доступности заказов Леруа Мерлен

Мы с моим коллегой Димой Фокеевым поделимся опытом того, как мы обучили модель выявлять проблемные поставки от поставщиков на складах. В деталях расскажем о сложностях, с которыми столкнулась наша команда во время разработки и внедрения ML-продукта в компании с большим количеством оффлайн процессов.
На примере продукта «Светофор» покажем, как в дата-инфраструктуру компании вписался ставший "классическим" стек для продуктивизации ML-решений - Kubernetes, Airflow, DVC и собственный model registry на базе S3 и Postgres.

Присоединяйся к нам 13 апреля - регистрируйся на мероприятие по ссылке

Теги:
Хабы:
+2
Комментарии2

Публикации

Информация

Сайт
leroymerlin.ru
Дата регистрации
Дата основания
2004
Численность
свыше 10 000 человек
Местоположение
Россия
Представитель
Nastianastasia