Web analytics
December 2012 11

В поисках идеального поста, или загадки хабра


Перед тем, как я попал на хабр, знакомые рассказывали мне, что это ресурс, на который очень трудно получить приглашение, где собрались серьёзные люди, где пишут серьёзные вещи, притом реакция сообщества совершенно непредсказуема: иногда можно долго стараться, написать большую интересную и полезную статью, и её заминусуют, а иногда бывает, опубликуешь какую-нибудь ерунду, и её вдруг принимают «на ура».

Сейчас, когда я на хабре уже некоторое время, прочитал довольно много статей, и даже написал несколько своих, хочу поделиться своим впечатлением о загадочном и непредсказуемом хабре, как он выглядит со стороны, и о вопросе, который волнует многих авторов: «почему посты минусуют?»

Ясно, что в основном хабраюзеры положительно относятся к статьям, но все-таки минусы обязательно есть, хотя их намного меньше, чем плюсов. И это понятно: невозможно написать что-то такое, что понравится абсолютно всем, а точнее, чтобы не нашлось ни одного, кому бы это НЕ понравилось. И тут у меня возникла мысль: а были ли вообще на хабре такие посты, у которых нет ни одного минуса? То есть скажем, 200 плюсов, и ни одного минуса?

Мне вдруг представился этот идеальный пост: нечто невероятно красивое, вызывающее светлое чувство, необъяснимое, как безмолвная красота звёзд. Как же его найти, пост без единого минуса?

Из тех статей, что я читал, таких мне припомнить не удалось, хотя бы 1-2 минуса, но обязательно были. Возникла логичная мысль, что если такие и были, то искать их надо где-то в конце списка лучших постов за месяц, потому что именно там, по идее, должны были встретиться посты, где при наибольшем количестве плюсов было меньше всего минусов. Просмотрев несколько последних страниц (97-100), я обнаружил один такой пост.

К сожалению чуда не произошло, хороший пост, но ничего особенного. Тогда я подумал, что надо собрать и проанализировать всю статистику. Возможно среди постов с наименьшим количеством минусов найдутся какие-то закономерности, например максимум, который и укажет мне заветный идеальный пост среди всего множества, написанного за годы существования хабра.

Я скачал все 100 страниц «лучших за всё время» постов, написал простую программу для анализа и выделил для каждого поста количество «плюсов» и «минусов». Вот что получилось:


Это графически отображенные вдоль оси Х тысяча лучших постов, отсортированные по итоговой оценке (рейтингу), показанному зеленым, а красным — количество минусов. Видно, что минусы довольно сильно грызут даже лучшие статьи. Возможно кому-то покажется более наглядным другое изображение, где крупнее показаны 500 лучших постов, отсортированные по количеству плюсов, поэтому минусы оказались «вдавленными» вглубь графика:


Потом я отсортировал посты по количеству минусов. Картина получилась неожиданная:

Сначала я вообще не понял, что это. Здесь каждый зубец — это посты с одинаковым количеством минусов (слева 1, 2, и т.д.), отсортированные внутри по количеству плюсов. Кстати, в итоге нашлось всего 2 поста без единого минуса. Картина сама по себе интересная, но тут я обратил внимание вот на что: хотя по идее высота зубцов должна иметь нормальное или случайное распределение, видно, что первые 10 расположены странной двойной лесенкой:

Как так могло получиться, что максимальный рейтинг постов с количеством минусов 1-5 последовательно растёт, затем следует падение, и потом от 6 до 10 опять равномерный рост? Я не нашел никакого объяснения этому факту, разве что тут постарались какие-то сверхъестественные силы.

Если посмотреть на ту же статистику по лучшим за месяц, мы увидим нормальное распределение, без всяких аномалий:


Почитав статьи, находящиеся на вершинах этих зубцов, я подумал: интересно, как распределялись бы посты, если учитывать количество минусов по-разному? То есть, например, умножить их на 5, чтобы вверху остались только посты, где очень мало минусов. Я провёл такой эксперимент: предположим, что есть коэффициент негативности, и рейтинг с его учётом вычисляется как

R = P — N*КН

где P — кол-во плюсов, N — кол-во минусов, КН — коэффициент негативности.

Для примера рассмотрим несколько абстрактных постов:

— пост с полезной или интересной информацией, за который поставили 130 плюсов, но некоторым всё же что-то не понравилось, и они поставили 4 минуса;
— пост с поздравлением (юбилей ресурса или изобретения), принятый положительно (140 плюсов), но так как он в общем-то бестолковый, минусов у него много, скажем, 27;
— пост на спорную тему, например про копирайт, который набирает много голосов, как положительных, так и отрицательных;
— полезный, но мало кому интересный пост, например, о реализации какого-нибудь специфического алгоритма, набирает всего 27 плюсов, при этом 8 человек считают, что надо было всё сделать не так, и они поставили минусы.

При обычной формуле рейтинга, когда коэффициент негативности КН = 1, посты распределятся так:

Если КН=5, то посты, где много минусов, уходят вниз — «копирайт» опускается, уступая место статье про алгоритм:

Ещё увеличиваем КН, и день рождения тоже уходит вниз, таким образом при увеличении КН вверху оказываются оба тематических поста, а спорные остаются в хвосте:

Теперь перемещаем движок коэффициента негативности в другую сторону, уменьшая тем самым вес минусов:

Здесь вперёд сразу вырывается день рождения, который собрал много плюсов. А если мы еще уменьшим коэффициент:

То увидим, что на первом месте оказывается копирайт, подвигая всё остальное вниз. Таким образом при желании пользователи-оптимисты могли бы найти посты, имеющие наибольшую положительную реакцию, независимо от того, сколько минусов они набрали.

Я немного поэкспериментировал с этим коэффициентом на реальных данных и на статистике лучших постов, построил графики, которые стали выглядеть довольно причудливо, так как они теперь пересекали ось x, но это оказалось не особо интересно, поэтому я решил построить график постов в плоскости оценок. По оси X – плюсы, по оси Y — минусы:

Что-то в этой картине завораживает, как будто искры, летящие в пространство, я долго смотрел на неё, когда первый раз увидел. Это график для лучших постов за всё время, где видно, что они отсечены границей худшего рейтинга (170) среди лучших постов за всё время. А в начале статьи я поместил график за месяц, где отсекаются только отхабренные. По обеим картинкам наглядно видно то, что мы все знаем и так: редкий пост на хабре долетает до 500 плюсов, а большинство распределены по плоскости практически равномерно. Тут я окончательно убедился, что нет никакого идеального поста, и что попытки его найти надо оставить, иначе последствия могут быть непредсказуемы.

Но что же заставляет хабраюзера нажать на плюс или на минус? На самом деле, эта мысль возникла у меня гораздо раньше, еще до того, как я построил самый первый график, приведённый здесь. Возможно я неправ, но вот какое у меня сложилось впечатление:

Хотя это сайт для IT-шников, которые, как многие считают, должны думать как машины, беспристрастно оценивая только полезную информацию, и отметая всё остальное, мне кажется, хабровчане в оценке постов руководствуются не только умом, но и чувствами. Они используют кнопки под постом по их прямому назначению, как и написано в хинте: «нравится» или «не нравится».

Если после прочтения возникли отрицательные эмоции, будь то тоска от большого количества букв, непонимание, негодование, или что-то ещё — это минус. Если положительные эмоции — и не важно почему, потому что информация может пригодиться, заставляет задуматься или просто интересна, если она вызывает ностальгию, воодушевление или любые другие положительные чувства — это плюс. Каждый старается написать интересную статью, невозможно угадать, понравится ли она, но автор может попытаться представить, что почувствуют люди, когда её прочитают. Сегодня, публикуя эту статью, я надеюсь узнать, так это или нет.
+309
70.8k 107
Comments 148
Top of the day