15 December 2019

Хабра-детектив: тайна редакторов новостей

HabrData visualizationStatistics in ITSocial networks and communitiesDIY


Вы ведь знаете, что у Хабра есть редакторы? Те, которые люди. Именно благодаря им новостной раздел никогда не пустеет, а у вас всегда есть возможность пошутить про наследие alizar.


На счету редакторов десятки публикаций в неделю на каждого. Иногда пользователи Хабра даже предполагают, что те на самом деле не люди, а просто алгоритмы по поиску и адаптации материалов.


Сегодня мы попробуем узнать, какой же продолжительности их рабочий день, отдыхают ли они вообще и бывает ли у них отпуск. А может, всё-таки они роботы? Как минимум, некоторые. Новая детективная история на Хабре. Будет интересно. Начнём!


Поиск жертв


Определить, кто же из пользователей Хабра является редактором, не составляет никакого труда. Они плодовиты и пишут, пишут, пишут. Некоторые из них пишут обычные посты, другие — новости, третьи — и то, и то. Сегодня мы сконцентрируемся на новостях. На момент моего начального анализа, последняя доступная для просмотра страница новостей №50 содержала публикации начиная с 03.09.2019. На дворе декабрь, а значит поиск публикаций за 3 месяца не составляет никакого труда. Для ровного (на самом деле нет) счёта я взял период с 04.09.2019 до 04.12.2019, чтобы ни один из дней не входил в данные лишь частично. Кроме того, с 4 декабря прошла уже целая неделя и что-то мне подсказывает, что эти новости никто особо читать не будет. А соответственно, не будут редактировать / скрывать их в черновики.


Итак, у нас есть 92 дня, за которые было опубликовано 946 постов в разделе Новости. Статистика авторов выглядит следующим образом:



Рис. 1. Статистика публикаций-новостей


220 публикаций пришлось на maybe_elf, 139AnnieBronson, 129denis-19, 122marks и всего 86alizar. Итого — 696 новостей от 5 авторов. Ни один из них не скрывается и в профиле каждого ясно написано, что работают они на Хабре. Ещё 6 авторов написало больше 10 публикаций за 92 дня, и 19 — больше одной. По одному посту в новостях опубликовало 52 аккаунта.


Список тех, кто опубликовал больше 10 новостей за 92 дня

Поскольку нам интересно узнать, когда же редакторы работают и когда отдыхают, лучше всего подойдут те из них, которые опубликовали как можно больше всего — трое первых. Ведь я надеюсь, что они не отдыхают, а круглосуточная работа выдаст любого.


Предположим, что это нечестно сравнивать тех, кто работает редактором несколько месяцев с теми, кто на Хабре годами. Или просто читать все 7.3 тыс постов marks и 8.8 тыс постов alizar мне не сильно хочется. Так что, maybe_elf, AnnieBronson и denis-19.


Сбор данных


Поскольку вручную перебирать все публикации мне не хотелось чуть больше, чем совсем, я воспользовался автоматизированными методами. С одной стороны, это лишило сбор данных той теплоты и ламповости, которая мне так близка и всегда захватывает сознание. С другой, что-то мне подсказывает, что пока я буду перечитывать или хотя бы перелистывать всё написанное, количество публикаций к прочтению может удвоиться.


Итак. Список публикаций каждого автора, доступный по habr(.)com/en/users/username/posts/ со страницы 1 по страницу 20 записаны. Следующим шагом каждая публикация загружена, а необходимая информация выписана в одну общую таблицу публикаций автора.


Полученная информация
  • id публикации;
  • дата и время;
  • название;
  • рейтинг (всего голосов, плюсов, минусов, итоговый рейтинг);
  • количество добавлений в закладки;
  • количество просмотров;
  • количество комментариев.

В этой истории будет использована лишь часть информации, но весь было бы не слишком рационально загружать посты и не собирать всё, что можно.

Стоит отметить, что начиная с этого раздела и далее, рассматриваются все виды публикаций, не только новости. Это нужно для полноты статистики.


И после пристального вглядывания в монитор можно обнаружить многое...


Результаты


1 место


Начнём с самого активного Хабра-редактора за последние 3 месяца. Зарегистрировавшись 26.09.2019, maybe_elf сразу начал писать, но никогда не писал ни одного комментария. Максимум продуктивности в 6 публикаций за день был достигнут 7 раз и 15 дней не было ни одной публикации. Давайте теперь подробнее.



Рис. 2. Статистика публикаций maybe_elf


Можно заметить, что выходные у редакторов есть. Хотя, видимо, и не каждую неделю. Список выходных можно найти под спойлером. У maybe_elf был отпуск в 8 дней в начале ноября, а также 3 свободных субботы и 4 воскресенья за 80 дней. Почему отпуск, а не больничный, спросите вы. Больничный вряд ли бы закончился в субботу, а в воскресенье сразу за работу.


Список выходных

05.10.2019 (сб);
06.10.2019 (вс);
12.10.2019 (сб);
13.10.2019 (вс);
20.10.2019 (вс);
02.11.2019 — 09.11.2019 (сб — сб);
01.12.2019 (вс);
07.12.2019 (сб).


А что по поводу рабочего времени? Посты публикуются начиная с 07:02 UTC (10:02 по Москве, где находится офис ТМ и Хабра, если я не ошибаюсь) и до 21:59 UTC (00:59). Пик продуктивности — с 10:00 до 10:59, а постов до 8:00 и после 19:00 достаточно мало.


Количество статей по времени публикации (UTC)

5 (07:00 — 07:59);
25 (08:00 — 08:59);
27 (09:00 — 09:59);
33 (10:00 — 10:59);
26 (11:00 — 11:59);
20 (12:00 — 12:59);
17 (13:00 — 13:59);
24 (14:00 — 14:59);
21 (15:00 — 15:59);
15 (16:00 — 16:59);
13 (17:00 — 17:59);
10 (18:00 — 18:59);
7 (19:00 — 19:59);
5 (20:00 — 20:59);
2 (21:00 — 21:59).


Стоит уточнить, что время работы наверняка зависит от дня недели, потому немного подробностей. К примеру, в пятницу нет постов после 17:43 — на то она и пятница. А вот самые поздние посты — в среду и четверг. Подробности под спойлером.


Время активности (UTC) в зависимости от дня недели

08:39 — 18:25 (пн);
07:10 — 19:54 (вт);
07:41 — 21:01 (ср);
07:02 — 21:59 (чт);
08:33 — 17:43 (пт);
07:24 — 17:43 (сб);
08:36 — 18:27 (вс).


Поскольку мы выяснили, что выходные хотя бы у одного из редакторов точно бывают (и даже отпуск?), перейдём к важнейшему вопросу. Он часто интригует читателей Хабра и периодически обсуждается в комментариях к тем постам, которые понравились меньше всего. Количество или качество? Есть ли норма по публикациям у редакторов?


Мой ответ — есть. Почему? Достаточно взглянуть на количество публикаций в неделю. С завидной регулярностью этот показатель упал ниже 20 только в период отдыха, а также в первую неделю работы, которая была 4 дня вместо 7. Среднее количество публикаций в неделю — 23.7, а понедельные подробности ждут вас под спойлером.


Количество публикаций в неделю

22 (09.12.2019 — 14.12.2019);
22 (02.12.2019 — 08.12.2019);
22 (25.11.2019 — 01.12.2019);
27 (18.11.2019 — 24.11.2019);
23 (11.11.2019 — 17.11.2019);
3 (04.11.2019 — 10.11.2019);
24 (28.10.2019 — 03.11.2019);
25 (21.10.2019 — 27.10.2019);
26 (14.10.2019 — 20.10.2019);
26 (07.10.2019 — 13.10.2019);
20 (30.09.2019 — 06.10.2019);
10 (26.09.2019 — 29.09.2019).


2 место


На втором месте с 139 постами за 92 дня — редактор Аня AnnieBronson (имя из информации о пользователе). При начале Хабра-писания 20.06.2019, на её счету уже 255 постов. Максимум в день — 5 штук (достигнут 7 раз), а самый продуктивный день — среда. 66 дней из 178 были без публикаций.



Рис. 3. Статистика публикаций AnnieBronson


Количество публикаций в неделю колеблется от 3 (всего один раз) до 17 (3 таких недели), а среднее количество постов — 9.8 в неделю.


Количество публикаций в неделю

12 (09.12.2019 — 14.12.2019);
4 (02.12.2019 — 08.12.2019);
14 (25.11.2019 — 01.12.2019);
14 (18.11.2019 — 24.11.2019);
6 (11.11.2019 — 17.11.2019);
10 (04.11.2019 — 10.11.2019);
15 (28.10.2019 — 03.11.2019);
8 (21.10.2019 — 27.10.2019);
7 (14.10.2019 — 20.10.2019);
13 (07.10.2019 — 13.10.2019);
17 (30.09.2019 — 06.10.2019);
8 (23.09.2019 — 29.09.2019);
7 (16.09.2019 — 22.09.2019);
13 (09.09.2019 — 15.09.2019);
12 (02.09.2019 — 08.09.2019);
4 (26.08.2019 — 01.09.2019);
8 (19.08.2019 — 25.08.2019);
17 (12.08.2019 — 18.08.2019);
17 (05.08.2019 — 11.08.2019);
5 (29.07.2019 — 04.08.2019);
6 (22.07.2019 — 28.07.2019);
3 (15.07.2019 — 21.07.2019);
8 (08.07.2019 — 14.07.2019);
4 (01.07.2019 — 07.07.2019);
13 (24.06.2019 — 30.06.2019);
10 (20.06.2019 — 23.06.2019).


С рабочим временем интересный момент. Публикации начинаются с 3:00 UTC и заканчиваются в 22:33. Кажется, кто-то слегка перерабатывает, но это не точно.


Количество статей по времени публикации (UTC)

8 (03:00 — 06:59)
7 (07:00 — 07:59);
15 (08:00 — 08:59);
10 (09:00 — 09:59);
24 (10:00 — 10:59);
30 (11:00 — 11:59);
29 (12:00 — 12:59);
30 (13:00 — 13:59);
23 (14:00 — 14:59);
19 (15:00 — 15:59);
20 (16:00 — 16:59);
14 (17:00 — 17:59);
8 (18:00 — 18:59);
9 (19:00 — 19:59);
6 (20:00 — 20:59);
2 (21:00 — 21:59);
1 (22:00 — 22:59).


Какой из дней недели самый долгий? Ответ — пятница. На самом деле, не забывайте, что я игнорирую дату, а смотрю лишь на день недели. Вполне вероятно, что график работы просто сильно менялся. А 27.09.2019 в 03:00 явно происходило что-то интересное.


Время активности (UTC) в зависимости от дня недели

07:16 — 19:26 (пн);
07:29 — 19:37 (вт);
05:11 — 20:17 (ср);
06:00 — 22:33 (чт);
03:00 — 20:12 (пт);
05:20 — 20:31 (сб);
05:00 — 20:11 (вс).


Ещё один интересный факт, комментариев эта редактор также практически никогда не пишет. 5 комментариев за 178 дней на Хабре.


3 место


Заключительное на сегодня 3 место с 129 постами за 92 дня — denis-19. Всего у него 359 публикаций, часть из которых ещё в 2018 году. Когда этот пользователь стал редактором или был им с самого начала? Количество публикаций резко возрастает с 01.08.2019. С этого момента было написано 242 поста, в среднем по 1.8 в день. Предположим, это и была дата вступления полномочий в силу. Итак, статистика.



Рис. 4. Статистика публикаций denis-19


Самым продуктивный день — четверг и достаточно значительное количество публикаций на выходных. А что же с рабочим временем? Самая ранняя публикация — 02:27 UTC, поздняя — 23:25.


Факт, который мог бы остатся незамеченым, но нет. 155 публикаций из 242 (64.5%) публикуются во время, кратное 5 минутам (:00, :05, :10 и т.д.). К примеру, все публикации начиная с 18:00 именно такие. За день такое происходит множество раз. Либо кто-то очень точен (и имеет много свободного времени), либо статьи готовятся как обычно, а из черновиков в публикации их выводит автоматика.


В случае, если публикации делает человек, количество времени, потраченного для соответствия такому шаблону, составляет в среднем 2.5 минуты на статью, то есть около 387.5 минут на 155 публикаций.


Для двух других редакторов такая точность приходится на 54 из 250 постов (21.6%, maybe_elf) и 54 из 255 (21.2%, AnnieBronson), что соответствует статистике. Десятичная система счисления предполагает 20% идеальный шанс встретить число, которое бы заканчивалось на 0 или 5.


В связи с этим, считаю недостаточно интересным изучать время публикаций. Если их совершает не человек, то никакой информации это не предоставит, а если человек — то у него есть суперсилы и выяснить ничего не удастся.


Список самых заметных круглочасовых публикаций

18:00 — 4 шт;
17:50 — 4 шт;
17:30 — 4 шт;
16:00 — 6 шт;
15:10 — 4 шт;
08:40 — 4 шт;
08:20 — 4 шт;
08:00 — 4 шт;
06:40 — 4 шт;
06:00 — 4 шт;
05:50 — 4 шт;
и т.д.


Время активности по дням тоже не выдаёт настоящего человека.


Время активности (UTC) в зависимости от дня недели

03:51 — 23:25 (пн);
04:00 — 18:30 (вт);
04:18 — 18:20 (ср);
02:48 — 23:00 (чт);
04:30 — 17:50 (пт);
02:27 — 18:50 (сб);
04:10 — 16:00 (вс).


Ещё один пункт, отличающий его от двух других редакторов — он иногда пишет комментарии. 360 штук опубликовано.


Вместо заключения


Итак, мы узнали, сколько примерно работают редакторы Хабра (трое из них, самые активные писатели новостей последнее время), что у них бывают выходные и что некоторые из них действительно люди и ходят в отпуск.


И наткнулись на очередную загадку. Ну или хотя бы что-то подозрительное. Кажется, один из троих перечисленных работает в автоматическом режиме, как минимум иногда.


Возможно, это и не так. Но ведь у нас детектив. Случиться может всякое...


Давайте мы об этом подумаем ещё немного...


А на сегодня всё. Спасибо за внимание!


P.S. Если вы нашли опечатки или ошибки в тексте, пожалуйста, сообщите мне. Это можно сделать выделив часть текста и нажав "Ctrl / ⌘ + Enter", если у вас есть Ctrl / ⌘, либо через личные сообщения. Если же оба варианта недоступны, напишите об ошибках в комментариях. Спасибо!


P.P.S. Возможно, вам будут интересны также другие мои исследования Хабра или вы хотите предложить свою тему для следующей публикации, а может даже новый цикл публикаций.


Где найти список и как внести предложение

Всю информацию можно найти в специальном репозитории Хабра-детектива. Там же можно узнать, какие предложения уже были озвучены, а что уже находится в работе.


Кроме того, вы можете упомянуть меня (написав VaskivskyiYe) в комментариях к публикации, которая кажется вам интересной для исследования или анализа. Спасибо Lolohaev за эту идею.

Tags:хабра-детективхабра-теория заговорахабра-анализDIYникто не читает тегиhabrbusters
Hubs: Habr Data visualization Statistics in IT Social networks and communities DIY
+51
7.6k 20
Comments 24