overmes 23 апр 2013 в 21:32

Рекомендательные системы: You can (not) advise

9 мин

43K

Data Mining*

+35

Комментарии 20

ekze 23 апр 2013 в 21:43

advice and advise — the difference
www.grammar-monster.com/easily_confused/advice_advise.htm

А картинка для новости классно выбрана :3

mukizu 23 апр 2013 в 22:23

Самое главное в правильный день. Автор явно ждал выхода 3й полнометражки.

overmes 23 апр 2013 в 22:30

она же вышла 17го ноября 2012 года

asdkola 23 апр 2013 в 22:44

24 апреля выход на BD и DVD, он, наверно, про это.

kaichou 24 апр 2013 в 09:17

дада, сегодня на ня торрентах

divanikus 23 апр 2013 в 22:47

ZOMG TEH REI!!!

+11

halyavin 23 апр 2013 в 22:48

Из статьи создается впечатление, что семейство алгоритмов называется SVD. На самом деле оно называется алгоритмами основанными на факторизации матрицы. Ключевые слова для поиска — «matrix factorization».

halyavin 23 апр 2013 в 22:52

На счет суммы рекомендательных систем с разными весами, недавно вышла статья NIPS2012_0178, в которой предлагают их сделать переменными.

overmes 24 апр 2013 в 02:03

регрессионный анализ, интересно
жаль только, что улучшение всего на несколько сотых.

spmbt 24 апр 2013 в 00:04

Скорее всего, проблемы рекомендательных систем в том, что их пытаются применить к не очень детализированной оценке. Например, толпа людей с разными вкусами голосует за фильм. Небольшое приближение к истине — отобрать из всех людей некоторую группу с вкусами, похожими на вкусы принимающего рекомендации. Но всё равно, скрытых параметров оказывается много и улучшение не такое значительное, как хотелось бы.

Как пример ситуации, где можно легко и довольно глубоко конкретизировать рекомендации — это лента статей того же Хабра, плюс похожие ленты. Читатели вполне осознают свои интересы, а рекомендатели вполне могут точно классифицировать тип статьи. Например, если воспользоваться уже созданной классификацией тем, то оценщикам нужно уточнить тематику статьи, если автор сделал это неточно, и указать несколько (2-3) оценок направленности и качества: качественность, лёгкость, полезность.

После этого остальные читатели получают точную (пропорционально точности оценщиков и их количеству) классификацию статей. Таким образом, первые прочитавшие будут помогать следующим, а следующие — следующим. И тогда она бы работала — все хабы приобрели бы реальный смысл.

В мире кино и книг система должна бы быть похожей — иметь прежде классификацию жанров, которые стали бы смотреть или читать зрители/читатели и несколько срезов оценок (профессиональность, качество, сложность).

overmes 24 апр 2013 в 01:51

в моей статье я рассматривал жанровую РС — у неё низкие показатели.
основной проблемой считаю, что все РС создаются на основе существующих данных. Необходимо сначала узнать решаема ли задача? если решаема, какие данные необходимы для решения? можем ли мы их получить?

а таких исследований я не встречал. РС сейчас не основа, а всего-лишь дополнение.

printf 24 апр 2013 в 00:39

Плюсанул картинку.

Впервые пишу это на хабре, даже как-то неловко.

+13

kaichou 24 апр 2013 в 09:18

На главной хабра новость про Рей.
Я джвадцать лет ждал этого дня.

sophist 24 апр 2013 в 16:43

Интересно, а сильно ли зависит предсказательная способность рекомендательных алгоритмов от шкалы оценки?

overmes 24 апр 2013 в 16:56

не сильно, человек не способен выбрать из большого числа вариантов и в основном использует 3-4 оценки
я точно не проверял, но можно посчитать распределение оценок

sophist 24 апр 2013 в 17:11

Кстати, распределение интересно было бы.

Но, если так, тогда не стоило ли бы (для рекомендательных сервисов) упростить шкалу? Ведь если шкала для человека избыточна, в оценках появляется попросту шум.

overmes 24 апр 2013 в 18:37

получилось вот так:

по x — количество используемых оценок
по y — количество пользователей

все не так плохо как я думал

RomanL 24 апр 2013 в 18:22

Иногда используется MAP как метрика точности в подобных системах: www.kaggle.com/wiki/MeanAveragePrecision

mephius 24 апр 2013 в 23:27

Где-то с полгода пользуюсь имхонетом (преимущественно для фильмов).
Насколько я знаю, базовые принципе те же, что описаны в статье, плюс ворох уточняющих моментов:

по оценкам пользователя выбирают группу других пользователей со схожими оценками и дают рекомендации на основании оценок этой «фокус-группы»
учитывают актуальность оценки (ставлю оценку фильму: оценка «весит» больше, если я смотрел этот фильм сегодня, меньше, если вчера, давно, очень давно)
пробуют формировать карту вкусов пользователя устраивая опросники с косвенными вопросами
рекомендация подсчитывается комплексно, учитываются вычисленные предпочтения пользователя по жанрам, режиссерам, актерам и т.п.
...

Бывают, правда, достаточно курьезные рекомендации (поначалу в рекомендациях у меня было довольно много корейских фильмов, например), но можно корректировать рекомендацию, указывая, почему тот или иной фильм рекомендовать не нужно.

Вообще там для фильмов, книг, игр и музыки разные уточняющие алгоритмы судя по всему, но поскольку пользуюсь только фильмами, точно не скажу.

Вообще такого рода сервисы нужны, контента уже генерится столько, что фильтровать очень сложно становится.

overmes 25 апр 2013 в 09:04

«фокус-группы»

похоже на User/User систему, её действительно стоит использовать, она позволяет находить некоторые зависимости

учитывают актуальность оценки

одна вещь, которая меня сильно поразила то, что актуальность оценки очень слабо влияет на результат
в timeSVD все оценки зависят от времени, но улучшение точности всего 0.01, и у BellKor примерно такие же результаты
Они пытались на основе оценок и времени построить что-то типа аппроксимирующего сплайна, но эффект также минимален

пробуют формировать карту вкусов пользователя устраивая опросники с косвенными вопросами

вот это действительно может помочь, особенно если найти скрытые факторы

рекомендация подсчитывается комплексно

я пробовал несколько гибридных систем с самыми различными типами информации, но точность улучшить не получилось

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Рекомендательные системы: You can (not) advise

Комментарии 20

Публикации

Истории