bibilov 10 авг 2017 в 19:05

Как угодить кинозрителю и не потерять деньги: составляем план закупок при помощи ML

6 мин

3.5K

Блог компании Проектная школа программирования GoToПрограммирование*Открытые данные*Промышленное программирование*Машинное обучение*

Комментарии 4

Marduk 11 авг 2017 в 12:26

Интересный подход, но насколько релевантна аудитория ресурса MovieLens — аудитории пассивных «зрителей», не оставивших оценок? :)

Как-то со 112 строчкой в предсказаниях странно: видимо слов Star Wars не хватило бедному Хану Соло

DmitryPasechnyuk 13 авг 2017 в 22:57

Отчасти согласен, с вашим мнением, но руководствовался тем, что доля тех, кому понравился фильм в числе прореагировавших той или иной оценкой примерно пропорциональна мнению всех просмотревших, но не выразивших своё мнение.

roryorangepants 11 авг 2017 в 12:26

Я правильно понимаю по скриншоту с оценкой важности фич модели Random Forest, что вы используете Rating фильма в качестве одной из фич? Но разве Rating — это не постериорная характеристика фильма, которая неизвестна для ещё не вышедших фильмов?

Также не совсем понятно, почему в реальных условиях был протестирован алгоритм без модификации?
Вы пишете:

Отбирать меньше 60 фильмов из данного количества может не иметь смысла, а в совокупности с тем, что в реальных условиях “граница прибыльности” нового алгоритма может несколько сместиться вправо, было решено тестировать изначальный алгоритм.

Однако же если посмотреть на качество прогнозов изначального и финального алгоритмов, видно, что как раз таки изначальный алгоритм был бы лучше, если бы имело смысл отбирать меньше 60 фильмов.

DmitryPasechnyuk 12 авг 2017 в 19:26

Спасибо за внимание к моей работе, попробую прокомментировать.
1) Вопрос про Rating. На первый взгляд это может показаться странным, но тем не менее, rating приобретает ненулевое значение ещё раньше, чем фильм начинает появляться в кинотеатрах. Возможно это из-за того, что кто-то оценивает описание, а возможно они посмотрели пиратскую версию фильма. У некоторых фильмов эта оценка получилась пропорциональной той, что образовывалась у фильмов после просмотра людьми. На фильмах с большой популярностью это правило не работает, но у них как правило оказываются большими другие фичи.
2) Вопрос про выбор алгоритма для тестирования. Похоже, что я не точно выразился. Я хотел сказать, что в реальных условиях кинотеатру не будет необходимости в выборе >60 фильмов на ближайший период. А так как на участке <=60 фильмов лучше работает алгоритм без модификаций, то было в дальнейшем решено использовать его.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий