17 December 2015

Сравнение аудитории Хабрахабра, Гиктаймса и Мегамозга

Data MiningVK API
Привет, Хабр!
Год назад я писал статью о том, кто и как подписан на Хабрахабр в соцсети Вконтакте. Буквально в первых же комментариях к тому посту было выражено пожелание увидеть разницу между подписчиками Geektimes и собственно Хабра. Прошел всего год и я, поборов свою лень, это желание исполняю.

На самом деле у моей медлительности были и объективные причины – в январе запустился Мегамозг, и стало очевидным, что сравнение надо делать по всем трем сайтам. А для этого необходимо было подождать хотя бы полгода с момента окончательного разделения Хабра.

В этой статье не будет очередных статистических выкладок о том, в какой день недели пост на Хабре получает наилучший рейтинг, а в какой собирает мало комментов — про это уже все сказано задолго до меня. Зато под катом мы попытаемся понять, как отличаются аудитории «хабровых» пабликов по различным параметрам (от пола до отношения к вредным привычкам), и есть ли связь между поведением пользователей в VK и на самих сайтах.



Вместо вступления


Для начала, обратимся к предметной области. Что из себя представляют три некогда единых сайта?
Если вспомнить пояснения создателей, то вкратце и очень упрощенно, специфика каждого сайта такова:
  • Хабрахабр (далее – ХХ) –для собственно IT-шников
  • Гиктаймс (ГТ) – для гиков
  • Мегамозг (ММ) – для ИТ-управленцев


Как и чем отличаются аудитории этих сайтов? На этот вопрос подробно могут ответить, пожалуй, только сотрудники TM. А мы посмотрим на то, как отличаются аудитории одноименных пабликов в ВК.

Вкратце о методике сбора данных.
С помощью VK Api были собраны данные по всем подписчикам пабликов Хабрахабр, Geektimes и Мегамозг. Данные собирались на конец октября. Примерно на эту же дату с помощью самописного парсера (доступа к Хабр Api, увы, нет) были скачены все (ну или практически все) доступные статьи с этих же сайтов.

В некоторых местах я ссылаюсь на статистическую значимость или незначимость различий. Она проверялась с помощью хи-квадрат критерия. Уровень значимости <0,05 (в том числе для коэффициентов корреляций).

UPD: Кроме того, все же повторю и здесь свою цитату из прошлой статьи:

«Также, обращаю внимание, что исследуемая выборка — аудитория паблика из соцсети «Вконтакте». А это значит, что данные пользователей в ней периодически могут изменяться, они могут быть неверны или неточны. Поэтому когда я буду говорить «читатели Хабра состоят на 146% из 91-летних мужчин с Острова Мэн», это не истина в последней инстанции. Просто такова информация, указанная пользователями в профилях.» И выводы, сделанные на основе данных подписчиков Хабра в VK, конечно же не обязательно будут справедливы для всех хабражителей на самих сайтах.


Во-первых, необходимо понять, как перекликаются аудитории пабликов. Для торжественности момента приведем диаграмму Венна с соблюдением масштаба:

Таблица пересечения аудиторий пабликов
Хабрахабр Гиктаймс Мегамозг
Хабрахабр 517 553 - -
Гиктаймс 31 309 45 603 -
Мегамозг 11 162 7 034 13 470

Общее пересечение (пользователи, подписанные сразу на все три паблика) – 6 481

Видим вполне логичную картину. Поскольку ГТ и ММ являются «отпрысками» самого Хабра, они пока что не могут тягаться с ним ни по размеру аудитории в целом, ни даже по относительному количеству «уникальных» подписчиков.
Под «уникальными» подписчиками здесь понимаются пользователи, подписанные только на этот паблик и ни на один из двух других. На рисунке они выделены цветными областями, в то время как «неуникальные» — серыми.
Для того чтобы наиболее четко выделить отличия аудиторий пабликов, анализировать мы будем именно «уникальных подписчиков», то есть серые области на рисунке – отбрасываем. Пример, почему это необходимо делать, приведен чуть ниже.
Итак, приступим.

Пол


Не будем оригинальными и первым же делом посмотрим на различия по полу:


Интерактивный вариант (где возможно, я буду приводить ссылки на интерактивные диаграммы, ибо они более наглядны и приятны глазу).

Больше всего девушек в процентном соотношении среди подписчиков Мегамозга – практически треть. Меньше всего – в Гиктаймс (среди гиков реже встречаются представительницы «слабого» пола?), а Хабр занимает золотую середину. Причем различия эти статистически значимы.

Обратите внимание, как отличается распределение для уникальных и неуникальных пользователей: большинство подписчиков ГТ и ММ – одновременно подписчики ХХ. Большинство подписчиков ХХ – мужчины. Из-за этого начинает искажаться и распределение признака (в данном случае пола) в других аудиториях. Именно поэтому мы анализируем только уникальных подписчиков.

В целом, ничего неожиданного мы не увидели: среди «технарей» традиционно больше мужчин. Мегамозг, пожалуй наименее «технарский» проект из всех, что предопределяет относительно высокий процент девушек.
С полом определились, на очереди возраст.

Возраст


Посмотрим на распределение относительного количества подписчиков по годам рождения (значения до 1975 года колеблятся около 0, так что эту часть графика отбросим для наглядности):


Интерактивный вариант

У Хабра и GT довольно плавные кривые. Линию Мегамозга «колбасит» больше всех – вероятно, это происходит из-за относительно малого количества респондентов. Но даже несмотря на это, очевидно, что «пик» у Хабра приходится на более солидный возраст, нежели чем у его «дочерних» сайтов, пускай и всего на пару-тройку лет. Наверное, такие различия довольно логичны. Хотя лично я ожидал, что у Мегамозга будет более возрастная публика. Но, как известно, мои ожидания — это мои проблемы.

При этом отличия между ХХ и ГТ, ХХ и ММ – статистически значимы, а между ГТ и ММ – нет (что, в общем-то и так видно из рисунка). Любопытен так же всплеск активности в диапазоне 2000-2001 годов, наблюдаемый прежде всего у Хабра, ему я объяснения не нашел. Сильного всплеска численности аудитории «Вконтакте» этого года рождения не наблюдается. Так что будем надеяться, что у молодежи просто растет интерес к IT. Или же это как-то связано с «дефолтными» возрастами при регистрации в соцсети.

География


В этот раз (в отличие от прошлого исследования) ограничимся странами «большой четверки» Хабра – Россией, Украиной, Белоруссией, Казахстаном. Страны дальнего зарубежья отбросим, потому что даже если страна в профиле пользователя указана правдиво (сами помните, что порой указывают в графе «страна» хабравчане), то подавляющее большинство пользователей из таких стран – эмигранты с постсоветсткого пространства. Остаются страны бывшего СССР. Их мы тоже учитывать не будем, потому что они не дают сколько-нибудь значимого (а иногда и вовсе никакого не дают) числа уникальных подписчиков для Мегамозга.

В конце концов, около 92% подписчиков приходятся именно на четыре вышеназванные страны, так что многого мы не упустим. И вот так выглядит разбивка «нормированного» числа подписчиков по ним:


Интерактивный вариант

Если вы помните, в прошлом году самой захабренной страной стала Белоруссия. Она и сейчас своего не упускает, но только относительно Хабрахабра. В то время как дочерние проекты интересны, прежде всего, пользователям из России. Замыкает четверку Казахстан, кроме случая с Мегамозгом, где третье место вырвано в упорной борьбе у Украины. Но по ММ вообще наблюдается самое равномерное распределение.

Наиболее резкий спад интереса к дочерним пабликам наблюдается у украинских пользователей. Либо на Украине меньше интересуются тематиками этих ресурсов, либо за прошедший год пользователи из этой страны стали реже подписываться на паблики VK. Проверка первой гипотезы выходит за рамки нашего исследования, а вот вторую легко опровергнуть — достаточно взглянуть на темпы роста подписчиков Хабрахабра за прошедший год (с момента прошлого исследования) в разбивке по странам:


Интерактивный вариант

Как мы видим, все страны «большой четверки» показали одинаковый рост, за исключением Казахстана, который здесь в однозначных лидерах.

Вузы


Статистики по вузам в этот раз не будет, извините. И вот почему: как вы помните, мы смотрим только уникальных пользователей. Но деление по вузам разбивает подписчиков на слишком малые группы. Настолько малые, что даже для ГТ (не говоря уж про ММ) зачастую не остается уникальных пользователей. Из-за этого вуз может присутствовать в списке вузов подписчика Хабра, но будет отсутствовать в списке для ГТ. Что будет создавать ложное впечатление, будто студентам/выпускникам этого вуза Geektimes неинтересен вовсе.

Понятный пример. Есть такой вуз, а вернее факультет вуза — ФСПО ИТМО. Из него 30 человек подписаны на Хабр и 5 человек на Geektimes. При этом все подписанные на ГТ подписаны на ХХ. Как результат – количество уникальных подписчиков ГТ — 0. Что с таким вузом делать? Игнорировать? Включать в статистику с особой пометкой? Анализировать по неуникальным пользователям? В общем, слишком много вопросов, а ценность сравнения сомнительна. Так что если кого-то интересует статистика по конкретному вузу – обращайтесь, выгружу.

Вредные привычки


В отношении к курению и алкоголю подписчики высказывают удивительное равнодушие, даже неинтересно:


Интерактивный вариант


Интерактивный вариант

Правда, можно заметить, что мегамозговцы к вредным привычкам относятся чуть более лояльно. Видимо, работа более нервная. Но на самом деле это все не значимые отличия.

Политические взгляды


А вот различия в политических взглядах оказались значимы:


Интерактивный вариант

Самыми неравнодушными, либеральными (но и консервативными!) оказались подписчики Мегамозга. А наименее и наиболее умеренными – «гики» и хабравчане соответственно.

Семейное положение


Еще более интересны и различия в делах любовных.
«Вконтакте» предоставляет несколько вариантов отношений, в которых состоит пользователь. Мы их немного скомпонуем, чтобы было нагляднее и удобнее:

Таблица соответствия статусов семейного положения
Статус для анализа Статус из ВК
Есть партнер Есть партнер
В браке
Помолвлен
Влюблен (да, можно быть влюбленным безответно, но не будьте занудами)
Нет партнера Нет партнера
В активном поиске В активном поиске
- Все сложно

Статус «все сложно» исключим – его сложно трактовать, да и выбрало его всего 3,2% подписчиков.
Вдобавок разделим респондентов по половому признаку. И получим занимательную картину:


Интерактивный вариант

Во-первых, во всех пабликах девушки более успешны в поиске второй половинки, нежели парни (причем статистически значимо).

А теперь посмотрим на количество подписчиков без второй половинки. Суммарно статусы «свободен» и «в поиске» дают примерно одинаковые результаты для всех пабликов. Но при этом хабравчане почти вдвое «смелее» своих коллег и активно ищут вторую половинку. Любой комментарий на этот счет выглядит плоской шуткой, даже если это было сказано всерьез. Так что оставим без комментариев. Ну а девушкам-подписчицам Мегамозга, судя по всему, и так хорошо, даже если они и одиноки.

Связь между ВК и сайтами (лайки, рейтинги, вот это все)


Следующим шагом хотелось бы увязать поведение пользователей в ВК и на самих сайтах. Сразу оговорюсь, что мы будем рассматривать только данные за 2015-й год. Во-первых, потому что именно в начале этого года произошло окончательное разделение на три различных сайта. А во-вторых, я не уверен, что создатели Хабра хотели бы, чтобы публиковалось сравнение показателей, например, количества просмотров. Особенно в разрезе лет.

У записей в VK мы будем рассматривать три основных числовых показателя:
  • Количество лайков
  • Количество репостов
  • Количество комментариев


У постов на сайтах показателей чуть больше:
  • • Рейтинг
  • • Просмотры
  • • Комментарии
  • • Избранное

Но, конечно же, кроме вышеперечисленных существует еще ряд факторов, которые могут влиять на показатели постов. Часть из них описывалась в других статьях по тематике (день, в который опубликован пост, например), часть требует более глубокого анализа, который выходит за рамки данной статьи, поэтому мы не будем их пытаться учесть. Ведь у нас нет задачи построить регрессионную модель, мы просто хотим посмотреть на связь показателей между собой.

Но как минимум еще один фактор мы должны учесть, а именно – дата публикации. Ведь с течением времени количество подписчиков может расти, а это, в свою очередь, может влиять на количество репостов и лайков (больше подписчиков – больше лайков). Тогда мы не можем просто сравнить запись, созданную 1 января 2015-го с записью от сегодняшнего числа — нам необходимо будет так же учитывать насколько больше лайков ставят сегодня.

Для начала определимся с изменением числа подписчиков за 2015-й год. В этом нам поможет старый-добрый веб-архив, с помощью которого мы сможем найти несколько значений числа подписчиков каждого паблика для нескольких разных дат. Отобразим эти точки на графике:



Мы видим, что быстрее всех в относительном выражении растет аудитория Мегамозга (недалеко от него Гиктаймс), а медленнее всего – Хабр. Это вполне логично, учитывая возраст пабликов – молодые паблики растут быстрее.

Но главная хорошая для нас новость заключается в том, что изменение числа подписчиков практически идеально описывается линейной функцией. Не придется сильно мучиться в дальнейшем, если захотим учесть влияние этого фактора. Простейшей регрессией мы можем предсказать численность аудитории любого из пабликов на любую дату в исследуемом периоде.

Но придется ли этот фактор учитывать? Похоже, что нет:



Лайки достаточно равномерно «размазаны» по всему году. Получается, что как ни увеличивается аудитория паблика, щедрее на лайки и репосты она не становится.

Кстати, обратите внимание на «зазубрины» снизу на распределении HH. Это те самые выходные, про которые столько раз говорилось в обзорах статей Хабра – видимо потому что статей выходит мало и хабражители становятся щедрее на рейтинг. Эта закономерность в какой-то степени перекочевала и в соцсеть. Но только для Хабра — на остальные паблики, как видно из графиков, она не распространяется. Это подтверждается и коэффициентами корреляции для величин «количество записей в день» и «среднее количество лайков».
  • Хабрахабр -0.455
  • Гиктаймс -0.237
  • Мегамозг -0.169


Теперь, когда мы прояснили вопросы с наиболее очевидными зависимостями, хочется посмотреть, как обстоят дела с другими показателями. Для этого построим корреляционные матрицы для каждого паблика. Но будем помнить, что корреляция говорит о тесноте связи, но в общем случае не позволяет установить причину и следствие. Для наглядности отобразим матрицы в следующем виде:



Как мы видим, ситуация примерно одинакова для всех пабликов. Серьезные отличия есть только в зависимости показателя «избранное» от лайков и репостов. У Хабра связь достаточно явная, у остальных значительно слабее.
Следует также отметить практически линейную связь лайков и репостов, хотя это было довольно ожидаемо.

От дня года (и, как следствие, от количества подписчиков) ничего не зависит. Зато наблюдается довольно сильная корреляция между просмотрами статьи и ее рейтингом/количеством добавления в избранное. Что вполне логично – плохую статью вряд ли будут много просматривать, а хорошей статье, написанной для малой аудитории, не набрать сильно много плюсов.

Лайки и репосты из ВК слабо связаны с рейтингом, проставляемом на сайтах (зато у Хабра и ГТ они не сильно, но коррелируют с количеством просмотров статей). Это собственно, один из главных выводов сравнения. Получается, что аудитория хабропабликов во Вконтакте и аудитория на сайтах не слишком сходятся в оценке постов.

Занимательно, что количество комментариев на сайтах и количество комментариев в ВК очень слабо зависят друг от друга, хотя и призваны служить одной и той же цели – обсуждению статьи. Еще одно подтверждение разного поведения юзеров в VK и на самих порталах.

Вместо заключения


Можно долго спорить, было ли разделение Хабра оправдано и с какой целью оно делалось, но уже сейчас, спустя чуть менее года, начинают проявляться различия между аудиториями трех разных сайтов (или, по крайней мере, их пабликов). Подводя итог, можно сказать, что постепенно и Гиктаймс и Мегамозг начинают жить своей собственной жизнью, набирая свою отчасти уникальную аудиторию. Хоть пока и несравнимую по количеству с аудиторией своего «папы». Как разделение сказалось на жизни самого Хабра — другой вопрос, выходящий за рамки данного поста.

На этой философской ноте и закруглимся. До новых встреч, если таковым суждено быть. И помните, что статистика – лишь третий вид лжи.

P.S. Я извиняюсь, что запостил так же в хабе VK Api, а никакого кода не привел (он тривиален). Но насколько я видел, здесь порой бывают такие статьи. Думаю, это вполне подходящий паблик для поста, посвященному обработке данных, добытых из VK.
Tags:ХабрахабрГиктаймсМегамозгВконтактеАнализ данных
Hubs: Data Mining VK API
+35
33.6k 62
Comments 121