snikolenko 28 фев 2012 в 14:34

Рекомендательные системы: постановка задачи

5 мин

31K

Блог компании Surfingbird

+22

Комментарии 22

Eternalko 28 фев 2012 в 15:31

Есть очень важный культурный аспект таких систем.

Все эти системы фильтрации контента, начинают немного пугать. Началось это примерно с момента, когда фейсбук начал показывать новости на основании «личных предпочтений», ему и только ему известными алгоритмами.

Оказалось, что те люди, новости которых мне интересны, попали под автоматический фильтр.

Лично меня это тревожит. Такие системы, начинают закрывать для нас все новые и новые горизонты и ограничивают наши круги интересов на все более узкие темы.
В итоге это сеть станет настолько монотематична, что мозги деградировать будут.

Так случилось у меня с Last.fm. Незаметно, он построил такую базу, за рамки которой я выйти просто не мог. Тоесть, он определил мои далеко не полные муз. предпочтения, и замкнулся на них.

Печально что к этому стремится гугл и все новостные сайты. Каждый сам себе интеллектуальную тюрьму построит.

+10

snikolenko 28 фев 2012 в 15:53

Этот культурный аспект известен как filter bubble, про это есть целая книжка. У меня своего отношения к этому нет; мне кажется, что это всё задачи, поддающиеся решению, и если будет спрос на то, чтобы выйти из filter bubble, то будут и решения, которые это делают.

Eternalko 28 фев 2012 в 16:08

> Этот культурный аспект известен как filter bubble

Будем знать! Хотя название какое-то неудачное.

Личный опыт подсказывает, что спрос может создавать маргинальное меньшинство. Большинство будет «хавать что дают».

И прошу это не принимать как снобизм. Я не причисляю себя к «тем золотым 5%». Есть области, где я вхожу и в 5% и есть где в 1%. Но это узкоспециализированные темы связанные с тем что у меня есть специальное образование или специальные знания на тему.

А есть целая пропасть тем и областей, где я преспокойно вхожу 95%. Также и каждый нормальный человек.

Поэтому в массе своей мы не в состоянии создать спрос. Тут будет играть роль предложение.

snikolenko 28 фев 2012 в 17:33

Название из метафоры – каждый сидит в своём bubble, который создан коллаборативной фильтрацией, и за пределы не вылезает.

> спрос может создавать маргинальное меньшинство
Да, наверное, но ведь любое «маргинальное меньшинство» в интернете может включать в себя миллионы людей. Например, Minecraft – это очень маргинальная игра, на большого любителя. :)

Но вообще да, для surfingbird будет важно пытаться вывести пользователя за пределы его привычного окружения – собственно, это ведь один из главных use cases…

Eternalko 28 фев 2012 в 19:22

> Название из метафоры – каждый сидит в своём bubble

Да, я понял. Просто она не «сочная» какая-то :) Но и я лучшего ничего пока не придумал :)

> «маргинальное меньшинство» в интернете может включать в себя миллионы людей

Тоже правда.

> вывести пользователя за пределы его привычного окружения – собственно, это ведь один из главных use cases

Отлично!

snikolenko 29 фев 2012 в 16:12

Filter globe?
(шутка в том, что то, что должно быть глобальным, оказывается больше похоже на snow globe)

savados 28 фев 2012 в 16:13

Вот и вот хорошие способы выйти «за рамки базы» в Last.fm

ksavenkov 3 мая 2012 в 10:06

Это во многом вопрос интерфейса. Если пользователь видит только то, что рекомендовано — такое эффект есть. Если рекомендация работает как подсказка — он минимален. Правда, и в этом случае можно направлять действия пользователя — тем не менее, при желании он всегда может не пользоваться этой подсказкой.

Eternalko 3 мая 2012 в 13:07

Уже вроде как определились, что эти системы жестко щемат и агрессивно фильтруют.

LordOfFrost 28 фев 2012 в 16:14

Надеюсь, с вашей системой не случится того же самого, что в итоге случилось с Татикомами из сериала)
А то те тоже… Доучились.

Envek 28 фев 2012 в 16:24

Обожаю татиком, жду дальнейших статей

gromich 28 фев 2012 в 17:53

Не Татикомы а Тачикомы, двоечники. Верить надо не корявым субтитрам а оригиналу.

WGH 28 фев 2012 в 21:09

Холивар на тему Поливанова на хабре?!

gromich 29 фев 2012 в 10:54

Не, на эту тему хай филологи холиварят. Мы же по простому, по рабоче-крестьянски, указали заблудшим душам как надо и… все… :-)

topsecret1 28 фев 2012 в 21:06

Очень интересный аспект рекомендательных систем, который зачастую не рассматривают, это целевая функция. Можно ведь рекомендовать, достигая определенных целей. Так, например, Amazon не ставит себе цель максимально удовлетворить пользователя, его задача — продать на как можно большую сумму. Существует уйма целей: максимальная оценка от пользователя, максимальная продажа, расширить опыт пользователя, неожиданность рекомендации (serendipity), рекомендации для группы пользователей (какой фильм посмотреть вместе с друзьями), и так далее.

snikolenko 29 фев 2012 в 12:20

У нас, к счастью, ситуация достаточно чистая. Мы видим ваши лайки и хотим сделать так, чтобы вы ставили их почаще. :)

unloved 29 фев 2012 в 10:05

большое спасибо за статью, всё думал откуда взять датасет для экспериментов

snikolenko 29 фев 2012 в 12:21

Netflix и KDDCup – большие датасеты, очень большие, они задуманы ещё и как проверка на «сможете ли вы хорошо реализовать то, что придумали». Для экспериментов лучше что-нибудь поменьше, например, movielens:
www.grouplens.org/node/73

VolCh 29 фев 2012 в 10:27

Эх, в лучших традициях сериалов — на самом интересном месте.

А по теме, да, цель рекомендации важна. Я вот как-то им не доверяю, особенно если они это действительно рекомендуют (купить), а не просто информируют «кто покупает книжку, которую вы смотрите часто покупает и эту». Может цели и алгоритмы одни и те же, но даже формулировка отношение меняет. Из интереса можно посмотреть. То что ~~навязывают~~ рекомендуют — не буду.

А вот чего не видел — рекомендательного сервиса новостей. Приходится держать с пяток сайтов открытыми и время от времени их рефришить в надежде, что глаз за что-то зацепится.

snikolenko 29 фев 2012 в 12:23

Новости – это почти всегда тоже рекомендательная система, только другого типа: коллаборативная фильтрация – это «оффлайн-рекомендации», а новости – это «онлайн-рекомендации», когда главное – быстро за трендами следовать. Про это обязательно будет отдельная инсталляция, но, наверное, не очень скоро.

mahoro 1 мар 2012 в 23:51

С нетерпением жду продолжения.

Кстати, ваша книжка про Винни-Пуха — одна из любимых по этой тематике :)

brutto 13 ноя 2015 в 07:44

А что за книжка? )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий