vasiliyrubtsov Mar 18 2020 at 10:51

Как мы используем item2vec для рекомендаций похожих товаров

9 min

15K

AvitoTech corporate blogProgramming*Data Mining*Algorithms*Machine learning*

+35

Comments 29

Cubist Mar 18 2020 at 11:33

А как быть с типа объявлений которые на грани запрета находятся? На сколько я понимаю рога косули на многих ресурсах под запретом (какие-то типы). Как вы боретесь с рекомендацией нежелательного контента? На сколько я помню были эксперименты на Youtube что там за 5-6 переходов по рекомендациям можно было на всякую чернуху попасть с абсолютно безобидных роликов.

vasiliyrubtsov Mar 18 2020 at 11:53

Мы на главной странице фильтруем объявления, которые пользователи много раз скрывали. Это позволять отфильтровать нежелательный контент. Однако если объявление только появилось на сайте, то оно может появиться и на главной. Сейчас мы обдумываем как предсказывать нежелательность контента и учитывать это в нашей модели ранжирования.

Zenitchik Mar 18 2020 at 12:14

А что не так с рогами косули?

sgjurano Mar 18 2020 at 14:26

Нельзя продавать части тел краснокнижных животных.

Zenitchik Mar 18 2020 at 19:16

Даже если сами сбросили?

sgjurano Mar 19 2020 at 04:47

Настолько подробно не знаю.
А как это понять по рогам? :)

sergeyns Mar 19 2020 at 10:27

для украшений нет разницы, а вот для «лекарств» нужны с живых…

sgjurano Mar 18 2020 at 14:14

Классная статья, спасибо!
А можешь подробнее расписать про то, какие данные вы держите в gpu-памяти? Я не до конца понял что именно вы туда загрузили — объявления (но там вроде явно больше 20 чисел) или контакты.

vasiliyrubtsov Mar 18 2020 at 14:40

Данные это датасет (пары айтемов) и фичи айтемов. Обычно фичи много памяти занимают. Но в нашем случае это просто числа — локация, регион, id квадрата на координатной плоскости, для заголовка — первые 7 слов. В итоге получается около 20 чисел для одного айтема.

sgjurano Mar 18 2020 at 14:44

Теперь понял, спасибо :)

temakone Mar 19 2020 at 04:16

А с каким лоссом то обучали?

vasiliyrubtsov Mar 19 2020 at 10:25

Шаг 4 в «Обучение модели» — кросс-энтропия

slgero Mar 19 2020 at 10:25

Спасибо за статью, прочитал с большим удовольствием
А сколько времени у вас ушло на реализацию этой новой модели? Начиная от продумывания концепции, и заканчивая введения её в прод?

vasiliyrubtsov Mar 19 2020 at 10:27

Я думаю чуть меньше года. Но это было параллельно с другими задачами

more_cry Mar 19 2020 at 10:34

спасибо за статью. правильно ли я понимаю, что векторы хранятся в базе данных и Sphinx прикручена сверху? если да, то чем не устроил, например, поиск с помощью postgresql/POSTGIS ближайших векторов?

vasiliyrubtsov Mar 19 2020 at 10:48

Мы храним вектора в индексах сфинкса. Не пробовали другие базы данных, так как у нас вся инфраструктура настроена на поиске в сфинксе.

MikeVL Dec 21 2021 at 16:02

Поделитесь, как можно использовать postgresql/POSTGIS для поиска ближайших векторов?

sgjurano Dec 21 2021 at 23:09

Можно использовать cube-индекс, мы так делаем для поиска дубликатов объявлений, я хочу после НГ написать статью об этом)

MikeVL Dec 23 2021 at 16:45

Отлично, буду ждать. А подскажите, размерность куба увеличивали, по умолчананию он позволяет работать только со 100 элементами массива.

sgjurano Dec 23 2021 at 20:35

Не, оставили как есть (dba настоятельно попросили), сделали дополнительный слой в нейронке, который отображает в нужную размерность.

В нашем случае это можно было сделать без заметного влияния на качество, а вычислять в итоге нужно меньше :)

vtrokhymenko Mar 19 2020 at 21:49

а это за какой период?
> [...] увеличил на 30% контакты с похожих, на 20% контакты с ленты персональных рекомендаций и значимо прирастил байеров на Авито.

vasiliyrubtsov Mar 19 2020 at 21:51

По результатам аб теста.
Соответственно, сразу после раскатки.

zaco Mar 23 2020 at 02:05

Спасибо за статью! А где можно почитать про то как хранить вектора в индексах Sphinx и перемножать векторы и искать похожие полным перебором чтоб это быстро работало?

vasiliyrubtsov Mar 25 2020 at 16:17

sphinxsearch.com/docs/sphinx3.html#searching-vector-searches

sgjurano Apr 9 2020 at 01:57

Тут важно учитывать число векторов в одном индексе.

Насколько я помню, по словам Аксёнова порядка 50 ms занимает перебор миллиона 128d-векторов в одном индексе, поэтому данные важно шардировать, если их много.

FFelix Mar 25 2020 at 16:17

Спасибо за статью!
Несколько вопросов от «чайника» (только учусь):
1.непонятно что имеется в виду на схеме слоёв нейронной сети, после дропаута. Что-то там странное с размерностью:
196*512, потом после relu 512*128. Что показывает размерность?
И еще понимание осложняется тем, что до дропаута, вектор полученный как конкатенация разных типов фич — имеет другую размерность: 192.

2.Не ясно как имеено происходит обучение, начиная с «шага 3»:
используются вообще только негативные примеры? Так получается из текста: «Выбираем 100 негативных с самым большим скором». Или тут имелось в виду что из всех негативных только 100 самых похожих? Просто это не ясно из описания шагов 3 и 4.

3.Не понятна картинка на шаге 4, для cross-enthropy loss: он считается между 8-битными векторами (128 булевых измерений), полученных из нейронной сети, или я что-то не понял?
На картинке показано сравнение beoolan-type и float-type вектора.

Очень надеюсь на ответы/пояснения

vasiliyrubtsov Mar 25 2020 at 16:32

Когда мы стакаем эмбеддинги всех фичей получаем 196 (=64+32+64+16+16). Дропаут никак на размерность не влияет. После него идет линейный слой, который на вход принимает размерность 196, а на выходе — 512. Также и про другие слои.
Да, 100 самых похожих выбираем из негативных. Немного поправлю в тексте, спасибо.
Нейронка на выходе дает 128-мерный float вектор. Про bool — это label для примеров. У первого (позитивного) он 1, у остальных (негативных) — 0. А там считаем кросс-энтропию (мультиклассовый logloss ).
К int8 мы приводим уже после обучения, так храним вектора. Ну и во время инференса работаем также с int8.

FFelix Mar 25 2020 at 21:15

64+32+64+16+16 = 192 ))
В остальном — после комментариев понял. Спасибо!

vasiliyrubtsov Mar 26 2020 at 13:04

да))