Как стать автором
Обновить

Как угодить кинозрителю и не потерять деньги: составляем план закупок при помощи ML

Время на прочтение6 мин
Количество просмотров3.5K
Всего голосов 7: ↑7 и ↓0+7
Комментарии4

Комментарии 4

Интересный подход, но насколько релевантна аудитория ресурса MovieLens — аудитории пассивных «зрителей», не оставивших оценок? :)


Как-то со 112 строчкой в предсказаниях странно: видимо слов Star Wars не хватило бедному Хану Соло

Отчасти согласен, с вашим мнением, но руководствовался тем, что доля тех, кому понравился фильм в числе прореагировавших той или иной оценкой примерно пропорциональна мнению всех просмотревших, но не выразивших своё мнение.
Я правильно понимаю по скриншоту с оценкой важности фич модели Random Forest, что вы используете Rating фильма в качестве одной из фич? Но разве Rating — это не постериорная характеристика фильма, которая неизвестна для ещё не вышедших фильмов?

Также не совсем понятно, почему в реальных условиях был протестирован алгоритм без модификации?
Вы пишете:
Отбирать меньше 60 фильмов из данного количества может не иметь смысла, а в совокупности с тем, что в реальных условиях “граница прибыльности” нового алгоритма может несколько сместиться вправо, было решено тестировать изначальный алгоритм.

Однако же если посмотреть на качество прогнозов изначального и финального алгоритмов, видно, что как раз таки изначальный алгоритм был бы лучше, если бы имело смысл отбирать меньше 60 фильмов.

Спасибо за внимание к моей работе, попробую прокомментировать.
1) Вопрос про Rating. На первый взгляд это может показаться странным, но тем не менее, rating приобретает ненулевое значение ещё раньше, чем фильм начинает появляться в кинотеатрах. Возможно это из-за того, что кто-то оценивает описание, а возможно они посмотрели пиратскую версию фильма. У некоторых фильмов эта оценка получилась пропорциональной той, что образовывалась у фильмов после просмотра людьми. На фильмах с большой популярностью это правило не работает, но у них как правило оказываются большими другие фичи.
2) Вопрос про выбор алгоритма для тестирования. Похоже, что я не точно выразился. Я хотел сказать, что в реальных условиях кинотеатру не будет необходимости в выборе >60 фильмов на ближайший период. А так как на участке <=60 фильмов лучше работает алгоритм без модификаций, то было в дальнейшем решено использовать его.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий