varagian 18 июл 2014 в 09:16

Пишем простую систему рекомендаций на примере Хабра

4 мин

40K

Data Mining*

+20

Комментарии 16

Gasoid 18 июл 2014 в 10:24

А как рекомендовать по просмотренному контенту? например, рекомендации в ютубе?

efimovgk 18 июл 2014 в 10:50

Смотреть не на связь пользователей, а на связь контента, используя ту же метрику, о которой говорилось в статье.

rucoder 18 июл 2014 в 13:48

Аналогично, в БД разницы нет, что добавление в избранное, что автоматическое добавление в список просмотренных. Разве что психологическое различие — действие производится больше автоматически. Но YouTube, как и другие большие проекты, скорее всего использует гибридный метод.

sonic 18 июл 2014 в 14:21

Надо усложнить, сделать профиль хабраюзера на внешнем сайте, связать его с реальным профилем и прикрутить 10 бальные оценки.
Тогда можно будет делать более точные рекомендации.

-1

SLY_G 18 июл 2014 в 15:12

Опробовал систему рекомендаций на себе — ни одна из рекомендованных статей не заинтересовала.
То ли что-то глючит, то ли рекомендации по этому алгоритму не работают.

varagian 18 июл 2014 в 15:35

Скорее всего я слишком упростил алгоритм, пытаясь сделать его доступным для самой широкой аудитории.

У меня есть догадка, где основная проблема с этой версией алгоритма. Попробую вечером пофиксить эту проблему, и можно будет посмотреть результат.

powerman 19 июл 2014 в 15:42

Да, у меня тоже все рекомендации абсолютно мимо. Если получится пофиксить — расскажите, в чём дело было.

varagian 20 июл 2014 в 20:29

Попробовал пофиксить. Как сейчас результаты?

powerman 20 июл 2014 в 20:31

Да, так уже намного лучше. Что изменили?

varagian 20 июл 2014 в 21:03

Сделал поиск локальным, N-top user-based filtering. Т.е. сначала определяем neighbourhood пользователя, например 15 самых схожих. Потом делаем всё тоже самое только для этого локального подпространства.

Если сделать поиск глобальным, то самая примитивная регуляризация т.е. деление на n_p приводит к отвратительным результатам.

Упрощенно говоря, у нас есть один пользователь похожий на нас на 0.5 и он рекомендует статью Неведомая хрень и еще десять пользователей рекомендующих статью Хабр всё еще торт, в том числе два пользователя похожих на нас аж на 0.9 (супер высокий показатель), и еще 8 похожих на нас на 0.01.

Тогда для первой статьи Неведомая хрень: 0.5 / 1 ==> ранг 0.5
Для второй Хабр всё еще торт: ( 0.9 + 0.9 + 0.01*8 )/10 ==> ранг 0.19

Т.е. получается, что «далёкие» пользователи создают шум при регуляризации оценки.

koltykov 20 июл 2014 в 11:48

Тоже попробовал на себе, ни одна статья не по теме моих интересов. Хотя в избранном немало статей.
А так идея очень хорошая.
И можно применить ее было бы на своих проектах. Скажем как вариант вытащить данные с поиска или контекстных сетей и показывать рекомендуемые материалы на основе этих данных.

varagian 20 июл 2014 в 20:25

Попробуйте сейчас еще раз.

SLY_G 20 июл 2014 в 23:49

Уже лучше! Из 20 рекомендаций подошли 6.

vvzvlad 19 июл 2014 в 00:12

Мне тоже рекомендованные статьи не показались интересными. Может это потому, что я не особо добавляю в избранное.

varagian 20 июл 2014 в 20:33

Не, я попытался сильно упростить алгоритм и в итоге получилась лажа. Сейчас внёс небольшие изменения в код; можете посмотреть осмысленность текущей выдачи?

vvzvlad 21 июл 2014 в 00:43

Да, стало гораздо релевантнее. Правда, для меня выдало одну мою статью — 207282

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Пишем простую систему рекомендаций на примере Хабра

Комментарии 16

Публикации

Истории