Pull to refresh
  • by relevance
  • by date
  • by rating

Как я парсил всю базу данных игр Metacritic-а

Python
Sandbox
Metacritic — англоязычный сайт-агрегатор, собирающий отзывы о музыкальных альбомах, играх, фильмах, телевизионных шоу и DVD-дисках. (с википедии).

Использованные библиотеки: lxml, asyncio, aiohttp (lxml — библиотека разбора HTML страниц с помощью Python, asyncio и aiohttp будем использовать для асинхронности и быстрого извлечения данных). Также будем активно использовать XPath. Кто не знает, что это такое, отличный туториал.
Читать дальше →
Total votes 31: ↑20 and ↓11 +9
Views15.5K
Comments 23

Анализируй это: оценки игр на Metacritic

RGames and game consoles
Sandbox
Привет, мир Хабр!

В этом посте я хотел бы поделиться своим опытом сбора и анализа базы игр сайта Metacritic.com, рассказать о том, что получилось, и что ещё в планах. Надеюсь, что материал найдёт своего читателя, а возможный фидбек укажет слабые места и потенциальные направления для дальнейшего анализа.

Предыстория


Многие из нас весной-летом этого года получили в своё распоряжение несколько свободных часов в день – работа на дому, спад деловой активности и другие причины всем известны. Своё свободное время я решил обратить на пользу – подтянуть R, которым не пользовался с университетских времён, а заодно и попрактиковаться на реальных данных (грош цена сертификатам без реальных проектов).

Почему я выбрал именно эту базу? Потому, что люблю игры. А ещё, потому что в июне случился скандал вокруг игры The Last of Us. Part II, которая получила практически полное признание критиков, и была крайне негативно воспринята частью игрового сообщества.

Мне было интересно найти ответ на несколько вопросов:

  1. Насколько соответствуют друг другу оценки прессы и игроков?
  2. Существует ли значимая динамика в а) оценках прессы; б) оценках игроков; в) разности оценок?

И я приступил к поиску ответов.
Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views2.8K
Comments 17