Spoilt333 Oct 16 2014 at 17:25

Как мы кластеризуем подарки в ОК

4 min

18K

VK corporate blog ОК corporate blog Data Mining *Hadoop *

+30

Comments 20

iamAnton Oct 16 2014 at 20:22

Не совсем понятно какая от этого польза?

-2

Spoilt333 Oct 16 2014 at 20:28

А улучшение рекомендательное системы по вашему недостаточно высокая цель?)

UFO just landed and posted this here

Spoilt333 Oct 16 2014 at 22:33

обязательно:)

Spoilt333 Oct 17 2014 at 11:51

Вопросы видимо появились после моего коммента.
Как используем сейчас ответил ниже.
Пересечения кластеров — пустое множество. Так как каждый подарок попадает ровно в 1 кластер.
Но в целом, даже бинарный вектор длиной в кол-во кластеров и 1 там где из кластера дарился хотя бы один подарок — является неплохой фичей для наших рекламных задач.

UFO just landed and posted this here

Spoilt333 Oct 17 2014 at 14:01

Алгоритм дает однозначное сопоставление. По сути, алгоритм находит своеобразные центроиды и бьет пространство объектов на непересекающиеся области.

Spoilt333 Oct 17 2014 at 14:07

Кстати вариант похожий по смыслу на «пересекающиеся кластера» мы делали с помощью LDA, но топики подарков получились так себе, из-за того, что Ципфа никто не отменял. Были подарки попавшие почти везде с большим весом. Ну и визуальное представление кластеров получалось не настолько крутым. В этом варианте семантика вылазит на поверхность.

Ananiev_Genrih Oct 17 2014 at 09:19

Такой вопрос, почему для коллаборативной фильтрации был выбран кластерный анализ а не ассоциативные правила? они же заточены именно под эту цель.
Быть может датасет настолько велик что только эта библиотека потянула?
Кстати, какой порядок числа записей?

Spoilt333 Oct 17 2014 at 11:46

Под коллаборативной фильтрацией вы здесь имеете в виду рекомендательные системы в целом или все-таки SVD над спарс матрицами? В общем случае рекомендательные системы это больше чем коллаборативная фильтрация.
В этом конкретном случае, первое что получается запилить — это улучшение тегирования. Модераторы могут тегировать подарки не по-одному, а кластерами. Это в свою очередь улучшает ранжирование выдачи.
К сожалению я не могу говорить про порядок числа реальных записей. Но для этого примера я брал примерно 200к разных подарков с медианой количества дарений в районе нескольких сотен.

UFO just landed and posted this here

Spoilt333 Oct 17 2014 at 13:30

таргетирование… откуда оно тут взялось?)
Люди редко хотят подарок просто так. Обычно они ищут его в поиске. Ранжирование поисковой выдачи с учетом персональных интересов и без учета очевидно будет отличаться. Насколько я знаю, пока что история дарений не учитывается. Но есть множество других факторов, например: поисковый запрос, пол, текущий праздник если он есть и т.д. Этот эксперимент можно считать одним из шагов в сторону персональной выдачи подарков.

UFO just landed and posted this here

Ananiev_Genrih Oct 17 2014 at 14:22

Так и не увидел ответа про ассоциативные правила, почему «побрезговали» этим инструментом? Транзакцией в данном случае выступил бы ID юзера, на выходе устойчивые релевантное правила.

-1

Spoilt333 Oct 17 2014 at 14:27

Матрица дарений настолько разрежена, что нормально ассоциативные правила можно применять на очень маленькой подвыборке. Но вопрос тут скорее в другом. Какую задачу вы предлагаете так решать?

Ananiev_Genrih Oct 17 2014 at 17:04

Один из очевидных путей максимизации – построить хорошую рекомендательную систему.

Spoilt333 Oct 17 2014 at 14:29

В нашем случае помимо рекомендаций есть задача тегирования, выделения фич для других задач и еще много чего не озвученного.

DjOnline Oct 17 2014 at 15:56

Блок «с этим товаром покупают» именно так и работает, анализируя статистику продаж других товаров в одной корзине каждого покупателя.
Но на выходе другой результат — получаются рекомендуемые товары-дополнения и аксессуары.