alexanderturchin проводили эксперимент, в котором завели свежую модель от фейсбука — нейросеть, которая в своей архитектуре включает слои, реализующие факторизационные машины
Кажется, вы цитируете статью про переезд с кронов на Airflow — этот шаг действительно ускорил нам выкатывание новых моделей, т.е. улучшение было необходимым, это не "эксперимент ради эксперимента".
Следующую статью постараемся сделать более "алгоритмической", про какую-нибудь из новых моделей, не всё же время писать про переезды — мы наконец "приехали", куда надо.
P.s. ну, может про переезд на k8s ещё расскажу =)
добавление новых зависимостей в проект с историей — это всегда боль. Цель статьи не в демострации SOTA рекомендаций, а скорее в рассказе о том какие шаги были пройдены при внедрении нового функционала.
Да, раньше все данные хранились в хайве, продуктовые аналитики использовали Presto для отчётов.
Потом аналититики переехали в Clickhouse (об этом есть небольшой пост: habr.com/ru/company/ivi/blog/347408 ) А ML остался в хайве, потому что у нас пайплайны подготовки данных написаны на Spark, в Clickhouse не хочется переезжать. Мы на стороне кликхауса делаем предагрегацию и переливаем агрегаты в Hive, откуда их спарком подсасываем.
> А расскажите, как долго ваши пайплайны взаимодействующие с хайвом работают?
Мы используем Spark — у нас внутри пайплайнов множество джойнов и хитрых аггрегаций, но получается очень быстро, спарк с хайвом дружат хорошо.
> И ещё вопрос про частоту запусков. Из статьи я понял что у вас только раз в день что-то запускаются, это так? Ничего чаще нет?
«Тяжелые» джобы с обучением моделей запускаем раз в сутки. Есть сервисные пайплайны, например переливка Postgres->Redis содержит несколько операторов, самый долгий из которых отрабатывает за 4 минуты. Этот пайплан запускается каждый час
> А если пайплайн сломался, у вас его перезапускает сам airflow или оператор?
Если сломался пайплайн — значит, покрашилась какая-то переливка уровнем выше, которой мы не управляем. Поэтому каждая поломка требует разбирательств — посмотреть в заббикс, в канал слака для мониторинга. Если проблема решена — рестартуем внучную.
Мощь рекомендательных систем,, основанных на методах коллаборативной фильтрации, как раз в способности отфильтровывать «информационный шум» и вылавливать ценную информацию о взаимосвязях между фильмами среди десятков миллионов пользовательских просмотров. Теги в ivi, конечно, используются — но работают они только на ранних этапах, когда контент недавно появился на сервисе и не успел набрать статистику. С ростом числа просмотров рекомендательный движок начинает понимать, какой аудитории предложить данный контент.
snikolenko, маленькая ошибка в статье. В Пункте про вероятностные предпосылки DGP r~Poisson(n*p), а у Вас r~Poisson(n,p). Но у распределения Пуассона один параметр?
Подробнее тут: github.com/facebookresearch/dlrm (реализация на PyTorch)
Оффлайн метрики модели хороши, но по понятным причинам (долгий инференс) до прода пока не докатили
Кажется, вы цитируете статью про переезд с кронов на Airflow — этот шаг действительно ускорил нам выкатывание новых моделей, т.е. улучшение было необходимым, это не "эксперимент ради эксперимента".
Следующую статью постараемся сделать более "алгоритмической", про какую-нибудь из новых моделей, не всё же время писать про переезды — мы наконец "приехали", куда надо.
P.s. ну, может про переезд на k8s ещё расскажу =)
Потом аналититики переехали в Clickhouse (об этом есть небольшой пост: habr.com/ru/company/ivi/blog/347408 ) А ML остался в хайве, потому что у нас пайплайны подготовки данных написаны на Spark, в Clickhouse не хочется переезжать. Мы на стороне кликхауса делаем предагрегацию и переливаем агрегаты в Hive, откуда их спарком подсасываем.
Мы используем Spark — у нас внутри пайплайнов множество джойнов и хитрых аггрегаций, но получается очень быстро, спарк с хайвом дружат хорошо.
> И ещё вопрос про частоту запусков. Из статьи я понял что у вас только раз в день что-то запускаются, это так? Ничего чаще нет?
«Тяжелые» джобы с обучением моделей запускаем раз в сутки. Есть сервисные пайплайны, например переливка Postgres->Redis содержит несколько операторов, самый долгий из которых отрабатывает за 4 минуты. Этот пайплан запускается каждый час
> А если пайплайн сломался, у вас его перезапускает сам airflow или оператор?
Если сломался пайплайн — значит, покрашилась какая-то переливка уровнем выше, которой мы не управляем. Поэтому каждая поломка требует разбирательств — посмотреть в заббикс, в канал слака для мониторинга. Если проблема решена — рестартуем внучную.
понадобилось время чтобы найти правила https://highloadcup.ru/media/condition/accounts_rules.html
Про фильтрацию и группировку вопросов нет, а как вы будете оценивать корректность ответа на запросы /recomnend и /suggest?
А почему репозиторий dockerfiles как бы есть, но пустой? https://github.com/avito-tech/dockerfiles