Как стать автором
Обновить

Комментарии 27

Спасибо за статью!


Может быть, пригодится моя статья на хабре про то, как парсить КиноПоиск: https://habrahabr.ru/post/280238/


Кроме того, у меня остался dataset и сырые html-ки (правда, он был собран полгода назад и не содержит последние новинки). Если интересно, могу поделиться для дальнейших изысканий :)

Ваша статья и впрямь может облегчить затею с парсингом, спасибо!

А датасет состоит только из фичей указанных в статье? Я был бы очень благодарен за возможность поиграться с ним :)
а так http://kinopoisk.cf/?
С этим сервисом я разбирался где-то месяца два назад и тогда он толком не работал. В комментарии ниже, написали, что и сейчас он должным образом не функционирует.
Попробуйте 3 последних графика сделать в 3х мерном пространстве и в виде сглаженных гистограмм изменяющихся по годам. Да, а стоимость каких либо объектов (у вас — бюджет фильма) всегда указывают на логарифмической шкале.
У меня ощущение, что веса коэффициентов линейной регресси сформировались по большей частью «классическими» фильмами (напр. Побег из шоушенка, Зелёная миля, Список Шиндлера), судя по бОльшим весам длительности и года, часто такие картины длятся 3 часа. Я бы попробовал исключить их и посмотреть как поведут себя другие коэффициенты (может и добавить новые, например возраст главного актёра в момент съемок)

Я бы еще Россию добавил на график:


средний рейтинг фильма vs страна


И добавил начало координат, а то может сложиться впечатление, что в Великобритании фильмы в 4 раза лучше чем в Канаде.


image

К сожалению исследуемый датасет не является репрезентативными относительно российского кинематографа, поэтому для его исследования придётся собирать данные отдельно
Интересно было бы посмотреть на изменения в графиках, если фильтровать входные данные: например, отсечь фильмы, рейтинг которых определен менее, чем сколькими-то просмотрами. Потому что, например, в жанре документальных фильмов ни один, из тех, кто оценен на строгую 10, не имеет больше 40 голосов, а в среднем имеет меньше 10. Практически та же ситуация — с фильмами, оцененными на единицу, там, правда, разнообразие вносят два фильма про Джастина Бибера.

Для своих рейтингов, кстати, имдб фильтрует на уровне 1500 голосов.

Кстати, интересно, что за двухсотмилионные фильмы у Великобритании (и у Канады)? Или расчеты учитывали совместное производство — например, какой-нибудь «Гарри Поттер» считался английским фильмом, а «Человек из стали» канадским?
Вот еще пример точечной визуализации и фильтрации по разным параметрам фильмов:
http://shiny.rstudio.com/gallery/movie-explorer.html

Может и автору пригодится подобная идея.
API Кинопоиска можно же юзать через этот сервис — http://kinopoisk.cf

Пока нельзя

Более того, проект полностью стал платным… Грусть. Теперь проще собирать свою базу, чем рассчитывать на других. Либо заплатить и вылить все. В любом случае, грусть и печаль.

Нужно учитывать, что мы имеем дело с типичным случаем ошибки выжившего. Если выборка фильмов за последние лет 20 более-менее репрезентативна (в базу попадает большинство фильмов, вышедших в прокат), то за прошлые десятилетия мы имеем только лучшие (или наиболее популярные по другим причинам) фильмы. Отсюда могут быть всякие странные зависимости от года выпуска.

А скачок длительности фильмов вероятно связан с крушением "Студийной системы" и массовым распространением телевидения.

Бюджеты фильмов на одном графике с учетом инфляции и валют на текущий момент я правильно понимаю?
Нет, бюджеты фильмов указаны без учёта инфляции
Для бюджетов такое приведение менее актуально, чем для сборов — до начала 2000-х снято не так много фильмов, которые имели большой, по нынешним меркам, бюджет, до начала 90-х — и того меньше (вроде бы только «Клеопатра» и «Супермен» стоили больше 200 миллионов в нынешних деньгах). Вот для сборов это актуально — например, только один из фильмов, снятых после 2000 года имеет сборы больше 2 миллиардов, поправленных по инфляции.
> Получается, что американцы нерационально используют свои ресурсы, раз тратят больше, но по качеству проигрывают.

Вполне логично. Деньги идут на спецэффекты и формальное «качество» фильма, что идет в ущерб реальному качеству.
По сути ведь за редким исключением фильмы производства США (особенно последнее время) являются добротными боевиками, триллерами и проч, но не имеющими притом почти ничего примечательного, выделяющего фильм из общего ряда. Иначе говоря, действие в ущерб здравому смыслу и глубине мысли, ибо развлечение, а не «чтоб подумать».
А отдельные шедевры никак не могут переломить общей тенденции и существенно сместить общий рейтинг.
Кстати, все это вполне логичным образом согласуется и с последующими результатами.

> Из последних двух графиков можно сделать вывод, что с годами мы тратим на фильмы больше, а получаем их по качеству ниже.

Техническая сложность фильмов растет (спецэффекты, оборудование), вот и расходы растут.
А качество падает от все возрастающего перекоса в сторону спецэффектов и формального технического качества (FullHD, 4k, 8k...).
>>Деньги идут на спецэффекты и формальное «качество» фильма, что идет в ущерб реальному качеству.

А вот это тоже может, кстати, быть ошибкой выжившего. Какой процент из фильмов 30-40-50-60-70 годов сейчас известен массам? Да копеечный. И в памяти остаются лучшие, и пересматриваютя-перепоказываются, опять же — лучшие. А значительная часть фильмов, которые были «ну так себе», банально забывается. И тогда тоже могли вполне себе быть какие-нибудь дорогущие «пеплумы», например, которые, в итоге, ничем не запомнились и сейчас известны только очень узким спецам.
Несомненно, хорошие фильмы всегда были в меньшинстве.
Только есть такая тенденция нехорошая.
Раньше в нехорошие попадала только откровенная халтура. А если было старание с технической стороны (именно старание, а не объемы этой самой технической стороны), то и сценарий был как правило хорош, и режиссура.
А теперь, в эпоху компьютерных спецэффектов, часто видно, что когда фильм делали, очень старались, выкладывались, не халтурили, а фильм все равно получается ни о чем. И все похоже на то, что все оно постольку, поскольку выкладывались только на технической стороне вопроса, забывая и о сюжете, и о игре актеров.
Есть и другой момент.
Количество выпускаемых фильмов заметно возрасло, а количество хороших притом столь же заметно уменьшилось относительно предыдущих годов. Причем это практически во всех странах.
А если и появляется сейчас что-то действительнго хорошее, то в прокате его редко когда увидишь. Я уже и в кинотеатр на премьеры ходить перестал, ибо надоело тотальное разочарование почти во всех новых фильмах вне зависимости от их рейтинга.
выкладывались, не халтурили, а фильм все равно получается ни о чем.
Такое бывает, но не так часто — разве что в случае, когда расчитывают на раскрученную франшизу. Но не стоит путать это с тем, что, мол «фильмы все про пыщь-пыщь» — значительная часть пеплумов или костюмных драм 30-50-х — про абсолютно такое же пыщь-пыщь.

Количество выпускаемых фильмов заметно возрасло
Вот тут, к сожалению, не могу ничего сказать, т.к. нету доступа к статистике выхода фильмов по годам — статистика ИМДБ тут тоже некорректна, т.к. включает в себя, с одной стороны «не все» по ранним фильмам, с другой стороны — заполнена телефильмами, «прямо на двд»-релизами и т.д.
Если возьмёшь рейтинг кинопоиска, то есть такой интересный признак — на сколько рейтинг кинопоиска отличается от IMDB. Чисто эмпирически я выяснил, что мне, например, имеют гораздо больше шанс понравиться фильмы, у которых отрыв 0,5 а фильмы, для которых рейтинг Кинопоиска выше рейтинга IMDB на 1 заходят вообще прям хорошо, даже если это, например 4,7 и 6 как у https://www.kinopoisk.ru/film/4137/

Думаю может быть интересно посмотреть что русскому хорошо, а в мировом кинематографе смерть. :)

Кроме того прям просится посмотреть изменение по времени жанрового состава фильмов. И отношение сборы/бюджет — ключевой признак для американского кинематографа по понятным причинам, на IMDB эти данные есть, хотя не знаю есть ли они в кагловском датасете.
А еще есть https://www.rottentomatoes.com/
Падение качества в прошлые годы скорее всего более субъективно, чем кажется. Зритель стал более избалованным, ему уже то, что «прокатывало» в прошлые разы, нравится меньше.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации