Pull to refresh
28
0
Джумурат Александр @Dju

Lead DS

Send message
alexanderturchin проводили эксперимент, в котором завели свежую модель от фейсбука — нейросеть, которая в своей архитектуре включает слои, реализующие факторизационные машины

Подробнее тут: github.com/facebookresearch/dlrm (реализация на PyTorch)

Оффлайн метрики модели хороши, но по понятным причинам (долгий инференс) до прода пока не докатили

Кажется, вы цитируете статью про переезд с кронов на Airflow — этот шаг действительно ускорил нам выкатывание новых моделей, т.е. улучшение было необходимым, это не "эксперимент ради эксперимента".
Следующую статью постараемся сделать более "алгоритмической", про какую-нибудь из новых моделей, не всё же время писать про переезды — мы наконец "приехали", куда надо.
P.s. ну, может про переезд на k8s ещё расскажу =)

добавление новых зависимостей в проект с историей — это всегда боль. Цель статьи не в демострации SOTA рекомендаций, а скорее в рассказе о том какие шаги были пройдены при внедрении нового функционала.
Всё верно. Но это только в одном самом важном DAG. Все остальные графы (их около десятка) работают по штатному механизму расписаний Airflow.
Да, раньше все данные хранились в хайве, продуктовые аналитики использовали Presto для отчётов.

Потом аналититики переехали в Clickhouse (об этом есть небольшой пост: habr.com/ru/company/ivi/blog/347408 ) А ML остался в хайве, потому что у нас пайплайны подготовки данных написаны на Spark, в Clickhouse не хочется переезжать. Мы на стороне кликхауса делаем предагрегацию и переливаем агрегаты в Hive, откуда их спарком подсасываем.
> А расскажите, как долго ваши пайплайны взаимодействующие с хайвом работают?
Мы используем Spark — у нас внутри пайплайнов множество джойнов и хитрых аггрегаций, но получается очень быстро, спарк с хайвом дружат хорошо.

> И ещё вопрос про частоту запусков. Из статьи я понял что у вас только раз в день что-то запускаются, это так? Ничего чаще нет?

«Тяжелые» джобы с обучением моделей запускаем раз в сутки. Есть сервисные пайплайны, например переливка Postgres->Redis содержит несколько операторов, самый долгий из которых отрабатывает за 4 минуты. Этот пайплан запускается каждый час
image

> А если пайплайн сломался, у вас его перезапускает сам airflow или оператор?

Если сломался пайплайн — значит, покрашилась какая-то переливка уровнем выше, которой мы не управляем. Поэтому каждая поломка требует разбирательств — посмотреть в заббикс, в канал слака для мониторинга. Если проблема решена — рестартуем внучную.
а что за файл options.txt в архиве data.zip?

Про фильтрацию и группировку вопросов нет, а как вы будете оценивать корректность ответа на запросы /recomnend и /suggest?

А почему репозиторий dockerfiles как бы есть, но пустой? https://github.com/avito-tech/dockerfiles

Мощь рекомендательных систем,, основанных на методах коллаборативной фильтрации, как раз в способности отфильтровывать «информационный шум» и вылавливать ценную информацию о взаимосвязях между фильмами среди десятков миллионов пользовательских просмотров. Теги в ivi, конечно, используются — но работают они только на ранних этапах, когда контент недавно появился на сервисе и не успел набрать статистику. С ростом числа просмотров рекомендательный движок начинает понимать, какой аудитории предложить данный контент.
и где книжка? Полгода почти прошло)
snikolenko, маленькая ошибка в статье. В Пункте про вероятностные предпосылки DGP r~Poisson(n*p), а у Вас r~Poisson(n,p). Но у распределения Пуассона один параметр?
А лабораторные в курсе по Hadoop будут?
Вместо слайдов для третьей лекции лежат слайды второй
спасибо! Намного удобнее, чем искать по таблицам математических символов нужную закорючку в html)

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity