17 January 2010

О Хабрахабре, статистике и тортах

Statistics in IT

Лирическое отступление


Здравствуйте!
Однажды темным зимним вечером мне было нечего делать и я убивал время чтением любимого Хабрахабра. В коментах в очередной раз проскочила фраза о том, что Хабр, дескать, уже не торт.

Статистика, статистика и еще раз статистика


Мне стало интересно, можно ли как-нибуть оценить качество статей на Хабре численно и будет ли видно по полученной оценке, как оно менялось со временем, или же, на самом деле, все эти комментарии не более чем брюзжание о том, что раньше и трава была зеленее? Дело было вечером и делать было нечего, поэтому я взял волю в кулак и написал простенького бота, который неспеша перекопал почти 2800 страниц главной Хабра и собрал статистику по захабренным статьям с момента открытия Хабра и по 31 декабря 2009 года.
Традиционная картинка для привлечения внимания, график количества статей по месяцам:



Тематика


Самая первая мысль, которая пришла мне в голову — проверить то, как изменилось тематическое наполнение Хабра за время его существования. Как извесно, блоги на Хабрахабре поделены на категории, с которыми можно ознакомиться здесь. Для начала я попробовал посчитать количество статей для каждой категории по годам (в статистике по месяцам слишком много шума, поэтому пришлось от нее отказаться). К сожалению, не у всех блогов проставлена категория, для таких она помечена как «n/a».


Более наглядно эти же данные можно представить в виде круговых диаграм:




Очевиден позитивный трэнд — на Хабре уменьшилось количество оффтопика и стало больше профильного контента. Очень вырос процент программирования. А вот железо, о котором бытует мнение, что его стало больше в последнее время, на самом деле практически не выросло — хотя, возможно, усилиями того же Бумбурума качество статей о железе все же поднялось.

Оценки


Как же изменилось качество сферической статьи в вакууме главной страницы Хабра за время его существования? Первое, что приходит в голову — это посчитать среднюю оценку такой статьи. Следующий график илюстрирует такую оценку по месяцах:

Пик, который мы видим в августе 2008 года — это ни что иное, как запуск СуперХабра и введение инвайтов.

Комментарии


Еще один интересный показатель — среднее количество комментариев к статье:

Все предсказуемо: в отличие от статей, комментарии могут оставлять все зарегистрированые пользователи, поэтому введение инвайтов приостановило рост этого показателя. Среднее количество комментариев хорошо отражает размер активной аудитории Хабра. Ах да, пик слева — единственная статья в июле 2006 года, которую до сих пор комментируют — ведь она самая-самая первая.

Холиворы


Один из самых интересных вопросов, которые я задавал себе перед тем, как приступить к этой статье — это то, действительно ли на Хабре в последнее время стало больше спорных топиков, которые вызывают у читателей бурю эмоций и желание избить собеседников? Как вообще можно оценить такой показатель? После долгих раздумий я решил, что с определенной погрешностью этот показатель можно проиллюстрировать с помощью отношения количества негативных оценок статьи к общему количеству оценок. Итак, «спорной» я назвал статью, у которой количество «минусов» составляет более трети от общего количества оценок. На следующем графике красной линией показаны спорные статьи, а синей — все:

Видно довольно плохо, давайте попробуем посчитать относительное количество спорных статей от общего числа:

Вот здесь уже видно лучше: количество спорных статей растет и сейчас уже почти достигло максимума, который наблюдался перед вводом инвайтов (тогда по Хабру ходили слухи о ботнете, который минусовал неугодные и плюсует угодные его создателю статьи). Введение инвайтов и новых правил затормозило этот процесс, но ненадолго. Это наверное единственный тревожный звонок, который я увидел, проанализировав собранные данные.

Выводы


Вполне очевидно, что всю жизнь Хабра можно поделить на две части — в августе 2008 года, с введением нового движка и правил, проект повзрослел и стабилизировался. 2009 год был первым годом взрослой жизни этого проекта и он его прожил просто прекрасно: росло и количество и качество статей, не говоря уже о посещаемости.
Однако, не все так гладко в датском королевстве — нужно что-то делать со статьями, которые минусуют просто потому, что в них упоминают о теме, которая не нравится фанату какой-нибуть технологии или же наоборот плюсуют потому, что там говорится о священной корове фаната. Концепция скрытых статей для подписчиков блога ИМХО себя не оправдывает. Впрочем, ответы на вопросы «кто виноват?» и «что делать?» выходят далеко за границы этой статьи и на этом я остановлюсь. Единственное замечание — новым рулевым Хабра надо будет серьезно подумать над этим вопросом.

Пост Скриптум


Если у читателя возникнут какие-либо идеи о том, как еще можно проанализировать собранные данные — напишите мне, я с удовольствием выслушаю их.
Tags:статистикахабрахабрторт
Hubs: Statistics in IT
+162
1k 22
Comments 111