5 February 2017

Анализ статей Хабрахабр и Geektimes

ProgrammingAlgorithmsData visualization


Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске. UPD: по поводу расчета рейтинга — я тоже ошиблась при расчете. Тут в обсуждении OsipovRoman пишет, что отличия небольшие.

Результаты обработки данных


Анализ хабов


Распределение количества хабов, в которых размещена статья:


Самые большие хабы по количеству статей:


Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):


Граф связей не делала, т.к. не собирала список хабов отдельно.

Количество статей в зависимости от времени


В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.

Количество постов за месяц:


За год:


В хабе «Математика»:



Хаб «Космонавтика»:



Хаб «Хабрахабр»:



Количество изображений (видео), используемых в постах в зависимости от времени










И в отдельных хабах:







Облака ключевых слов и отдельных хабов


Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:



Хаб «Математика»:


Хаб «Программирование»:


Хаб «Java»:


Хаб «Open source»:


Хаб «Машинное обучение»:


Сайты, на которые ссылаются в статьях



Убираем Хабрахабр как источник ссылок:


В хабе «Математика» (без Хабрахабра как источника ссылок):


Хаб «Разработка под iOS»:


Хаб ".NET":


Коды, которые приводят в статьях


Без SomeCode (если не указан язык программирования):


В хабе «Алгоритмы»:


В хабе «Программирование»:


В хабе «Настройка Linux»:


В хабе «Машинное обучение»:


Частота встречаемости слов








В хабе «Разработка под iOS»


В хабе «Разработка под Android»:


Частота употребления названий операционных систем в хабе «Open source»:


И на Хабрахабре/Geektimes:


Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений






Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.

Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}

Вероятность, того, что пост наберет определенный рейтинг:


Вероятность, того, что пост наберет определенное число просмотров:


Зависимость рейтинга и числа просмотров поста от времени публикации


















Зависимость рейтинга поста от его объема





Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.

Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:


Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:


Посты с максимальным количеством


Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал"
Комментариев: "Как раздавать инвайты на Google+"
Рейтингом: "Делаем приватный монитор из старого LCD монитора"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году"
Просмотрами: "Взломать Wi-Fi за… 3 секунды"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы"
Текста: "Создаем клон Flappy Bird — Zombie Bird"
Tags:хабрахабрпарсингобработка данныхвизуализациястатистикапоиск закономерностейwolfram mathematicawolfram language
Hubs: Programming Algorithms Data visualization
+49
11.9k 57
Comments 30
Top of the last 24 hours