Как стать автором
Обновить

Комментарии 20

Самое главное в правильный день. Автор явно ждал выхода 3й полнометражки.
она же вышла 17го ноября 2012 года
24 апреля выход на BD и DVD, он, наверно, про это.
дада, сегодня на ня торрентах
Из статьи создается впечатление, что семейство алгоритмов называется SVD. На самом деле оно называется алгоритмами основанными на факторизации матрицы. Ключевые слова для поиска — «matrix factorization».
На счет суммы рекомендательных систем с разными весами, недавно вышла статья NIPS2012_0178, в которой предлагают их сделать переменными.
регрессионный анализ, интересно
жаль только, что улучшение всего на несколько сотых.
Скорее всего, проблемы рекомендательных систем в том, что их пытаются применить к не очень детализированной оценке. Например, толпа людей с разными вкусами голосует за фильм. Небольшое приближение к истине — отобрать из всех людей некоторую группу с вкусами, похожими на вкусы принимающего рекомендации. Но всё равно, скрытых параметров оказывается много и улучшение не такое значительное, как хотелось бы.

Как пример ситуации, где можно легко и довольно глубоко конкретизировать рекомендации — это лента статей того же Хабра, плюс похожие ленты. Читатели вполне осознают свои интересы, а рекомендатели вполне могут точно классифицировать тип статьи. Например, если воспользоваться уже созданной классификацией тем, то оценщикам нужно уточнить тематику статьи, если автор сделал это неточно, и указать несколько (2-3) оценок направленности и качества: качественность, лёгкость, полезность.

После этого остальные читатели получают точную (пропорционально точности оценщиков и их количеству) классификацию статей. Таким образом, первые прочитавшие будут помогать следующим, а следующие — следующим. И тогда она бы работала — все хабы приобрели бы реальный смысл.

В мире кино и книг система должна бы быть похожей — иметь прежде классификацию жанров, которые стали бы смотреть или читать зрители/читатели и несколько срезов оценок (профессиональность, качество, сложность).
в моей статье я рассматривал жанровую РС — у неё низкие показатели.
основной проблемой считаю, что все РС создаются на основе существующих данных. Необходимо сначала узнать решаема ли задача? если решаема, какие данные необходимы для решения? можем ли мы их получить?

а таких исследований я не встречал. РС сейчас не основа, а всего-лишь дополнение.
Плюсанул картинку.

Впервые пишу это на хабре, даже как-то неловко.
На главной хабра новость про Рей.
Я джвадцать лет ждал этого дня.
Интересно, а сильно ли зависит предсказательная способность рекомендательных алгоритмов от шкалы оценки?
не сильно, человек не способен выбрать из большого числа вариантов и в основном использует 3-4 оценки
я точно не проверял, но можно посчитать распределение оценок
Кстати, распределение интересно было бы.

Но, если так, тогда не стоило ли бы (для рекомендательных сервисов) упростить шкалу? Ведь если шкала для человека избыточна, в оценках появляется попросту шум.
получилось вот так:


по x — количество используемых оценок
по y — количество пользователей

все не так плохо как я думал
Где-то с полгода пользуюсь имхонетом (преимущественно для фильмов).
Насколько я знаю, базовые принципе те же, что описаны в статье, плюс ворох уточняющих моментов:

  • по оценкам пользователя выбирают группу других пользователей со схожими оценками и дают рекомендации на основании оценок этой «фокус-группы»
  • учитывают актуальность оценки (ставлю оценку фильму: оценка «весит» больше, если я смотрел этот фильм сегодня, меньше, если вчера, давно, очень давно)
  • пробуют формировать карту вкусов пользователя устраивая опросники с косвенными вопросами
  • рекомендация подсчитывается комплексно, учитываются вычисленные предпочтения пользователя по жанрам, режиссерам, актерам и т.п.
  • ...


Бывают, правда, достаточно курьезные рекомендации (поначалу в рекомендациях у меня было довольно много корейских фильмов, например), но можно корректировать рекомендацию, указывая, почему тот или иной фильм рекомендовать не нужно.

Вообще там для фильмов, книг, игр и музыки разные уточняющие алгоритмы судя по всему, но поскольку пользуюсь только фильмами, точно не скажу.

Вообще такого рода сервисы нужны, контента уже генерится столько, что фильтровать очень сложно становится.
«фокус-группы»

похоже на User/User систему, её действительно стоит использовать, она позволяет находить некоторые зависимости

учитывают актуальность оценки

одна вещь, которая меня сильно поразила то, что актуальность оценки очень слабо влияет на результат
в timeSVD все оценки зависят от времени, но улучшение точности всего 0.01, и у BellKor примерно такие же результаты
Они пытались на основе оценок и времени построить что-то типа аппроксимирующего сплайна, но эффект также минимален

пробуют формировать карту вкусов пользователя устраивая опросники с косвенными вопросами

вот это действительно может помочь, особенно если найти скрытые факторы

рекомендация подсчитывается комплексно

я пробовал несколько гибридных систем с самыми различными типами информации, но точность улучшить не получилось
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории