Как стать автором
Обновить

Хабрастатистика: как Хабр пережил самоизоляцию

Время на прочтение5 мин
Количество просмотров5.9K
Всего голосов 59: ↑58 и ↓1+57
Комментарии40

Комментарии 40

А мне карантин помог наконец написать свою первую статью спустя много лет после регистрации! Наверное, не только мне.

Аналогично. Правда, карантин не помогает написать вторую… :/

Не останавливайтесь, получилось здорово!
Спасибо! ^_^ Планы есть.
Моя статья на пятом месте в топ-10 статей по добавлению в закладки :)
Круто. Спасибо. Плюсану когда кармы хватит )

Уже хватает :)

Надо добавить бесконечную прокрутку и рандомизацию статей индивидуально под каждого пользователя. Таким образом пик лайков должен сгладиться и сместиться вправо. В теории.

Получается частные лица — только 1/3 от всех публикаций?

image
Вы просто откройте главную страницу, напротив каждой второй статьи написано «Блог компании ...».

Кстати, как подсказывает гугл, расценки на корпоративные блоги довольно немалые: tmtm.ru/services/corpblog
А если это можно публично спросить — откуда у вас все эти исходные данные?
Просто парсинг, если посмотрите в адресную строку, то увидите что нумерация сквозная и url каждый статьи имеет вид habr.com/post/NNNNN. Дальше python + pandas + matplotlib.
В тексте все уже написано :)
Точно, не увидел сначала:
Такой сбор данных занимает примерно 8 часов, чтобы не держать ПК включенным все это время, код был запущен на роутере с dd-wrt.
Да, как автор, могу сказать что это сложно, чтобы твоя публикация набрала рейтинг:
Ощущение такое, что большинство статей просто не успевают читать, они не набирают даже +10 баллов. Учитывая что гонорар за статью зависит от рейтинга, это довольно грустно — все же, хотелось бы видеть на Хабре больше независимых авторов.

Если верить www.similarweb.com/website/habr.com#overview, то получается авторы внутри этих 27% которые целенаправленно заходят на сайт:


То есть этих людей и так совсем мало, а голосовать могут только те, кто имеют карму > 5.
Да, верно, голосовать за статьи могут только постоянные посетители сайта.

Могу сказать про себя, что в лучшем случае я вечером читаю 5-6 статей на Хабре. А публикуется за день 60 :)
Забавно, что моя статья об анимации в SwiftUI (которая по не понятным мне причинам, вообще не набрала ни одного плюса) на текущий момент имеет 19 закладок при 617 просмотрах. Если бы она попала в статистику (она вышла в июне, и формально попадает в первое полугодие), то по соотношению закладок к просмотрам была бы на первом месте (3 закладки на 100 просмотров, когда первое место сейчас — 2,3 закладки на 100 просмотров)
На всякий случай уточню, что я не претендую на включение в статистику. Прекрасно понимаю, что при малом количестве просмотров часто могут возникать «выбросы» из статистики, навроде моей статьи. Вероятно статьи с менее 10к просмотров в расчет не принимались. Это всего лишь замечание, что и так бывает, а не требование к автору срочно признать мои заслуги.

Уточнение появилось потому, что кто-то после этого комментария зашел, и поставил минус статье с формулировкой «не соответствует тематике Хабра». Ну камон, статья с нестандартными примерами кода о новейшем фреймворке не соответствует тематике? Минусуйте коммент, если считаете его очередным «нытьем», в карму в конце концов можно минус воткнуть, если считаете нужным. Но статья-то тут причем?
Вероятно статьи с менее 10к просмотров в расчет не принимались

Ставлю вам плюс в карму за довольно точное угадывание алгоритма :) Там есть пара эвристических формул (я не стал в тексте все расписывать, это все же не диссертация), ну и views>10000 как раз заложено.
А почему views>10000 это ведь довольно высокий порог?
10000 именно по той причине, которую указал aspid-crazy — чтобы отсеять случайные статистические выбросы. Ну и все же «рейтинг» подразумевает лучшие статьи, поэтому да, порог высокий.

Вообще, здесь есть три основные метрики: голосование (+ и -), число просмотров и число добавления в закладки. Можно делать много интересных выборок, например наиболее спорные статьи с наиболее полярными мнениями (где много и + и -), статьи с наибольшим отношением рейтинга к просмотру и пр. Но если все это выводить, слишком длинно и затянуто будет.
Кстати если интересно, распределение просмотров по статьям выглядит как-то так (правый край обрезан):

Это значит, что большинство статей не набирает и 5000 просмотров?

Примерно посередине: 5783 статьи из 10563 имеют меньше 5000 просмотров. Больше 10000 просмотров имеют 2384 статьи.

Я выше отметил что график обрезан, он еще довольно долго вправо продолжается.
Уточнение появилось потому, что кто-то после этого комментария зашел, и поставил минус статье с формулировкой «не соответствует тематике Хабра».

Не парьтесь, логика простановки минусов здравому смыслу не поддается.

Можно открыть любой ролик на youtube, хоть нобелевского лауреата, хоть победителя Got Talent и даже при 100K плюсов всегда найдется 10-100 минусов. От кого они берутся, неизвестно. Может у какого-то процента посетителей клиническая депрессия и им вообще ничего не нравится, хз :)
Я вот сегодня зарегистрировался на форум Ru Board попытался поставить сообщение и меня тут же забанили и тут я узнал у вас что убит владелец того форума Мусин и думаю пока я еще жив инфаркт позавчера чуть не получил удушье давило это от ядов как в фильме с Квай Шаном Кулак буддиста там один умер от удушья после чая.И думаю за что меня там забанили я вам запись приведу что туда хотел поставить и одно название взял в скобки может за это забанили и заодно изучив мою запись посмотрите фильмы в карантине.Я описываю фильмы в теме (О магии криминале и кинематографе) фильмы описываются в теме прочитав которую вы будете понимать что стоит за фильмами такими как Вспомнить все с Шварц Негером где отключают кислород на марсе в одном отсеке за этим стоит отравление экстрасенсов ядами вызывающими удушье мутантами называют экстрасенсов много чего в моей теме описывается вот ссылка ютуб на нее введя название ее в поиск яндекс вы найдете записи и посмотрите фильмы там по ссылкам какие фильмы еще описываются ну например Телефон 1977 года следующий год 78 год 13 лун.Вот смотрите примеры фильмов темы Уникум какие еще Лунная радуга и Змей и радуга еще фильм Смертельный сон и фильм Трупы детям не игрушка еще фильм Контроль разума 2003 года и фильм Князь тьмы или Особенные мертвецы фильм Путевка в жизнь 1931 года про банду Мустафы кинофильм Собор.Или фильм про блогера Страна бурь и такие фильмы как Огненные глаза 1983 года фильмы китайские еще описываются такие как Великолепный мясник еще 6 героев конгфу и другие.Еще описываются фильмы Ллойда Кауфмана такие как Атомная школа или Мистер токси также фильм с названием Чужие среди нас и кинофильм 1989 года с названием Вторжение на землю прочтя описание к фильмам и просмотрев их вы поймете многое что творят актерская мафия к примеру.
Поздновато же вы узнали, новость за 2016 год была: habr.com/ru/post/397325

Получается, что на основании подобной статистики можно посчитать сколько habr выплатил по программе ППА частным лицам с начала 2020 года?

Можно конечно, правила и список хабов для ППА известны, рейтинг каждой статьи есть на странице, ничего секретного или инсайдерского тут нет. Загрузить HTML страницу и парсингом найти пару строк, задача по программированию уровня 10 класса.

Мне лениво считать чужие деньги, если хотите, попробуйте самостоятельно :)

Просто были бы интересны примерные месячные затраты Хабра как медиа бизнеса на выплаты авторам.

Я не думаю, что конкретные люди были бы рады узнать что кто-то публично выложил данные об их, пусть даже опосредованных, заработках.

Тут как раз ничего секретного, список авторов выложен открыто: habr.com/ru/users Кликаете на любого, и если не лень, можно посчитать сколько статей у автора за год было. Ваши статьи к примеру, тоже ведь не секрет, если на профиль кликнуть.

Для общей прикидки затрат Хабра на авторов, за полгода рейтинг >=30 набрало 1707 статей из 10563 (меньше 25%), рейтинг >=50 набрало 705 статей (меньше 10%). Из них допустим, половина корпоративные блоги, половина непрофильные, остается грубо, 1/4 которые были оплачены.
остается грубо, 1/4 которые были оплачены.

Для участия в ППА у автора должен быть значок «Автор» (10 публикаций с рейтингом от +50 голосов за каждую) либо «Сторожил» (3 года аккаунту и +50 кармы). Так что большая часть этих статей также врядли оплачивалась.
Спасибо за уточнение. Список значков кстати, тоже не секретный, и показывается в профиле автора.
Вот кстати, еще любопытная статья по анализу открытых данных: habr.com/ru/post/475058
Добавлю, будет некоторая погрешность в расчетах, т.к. срок голосования за статьи (вроде месяц) больше 3х-дневного срока принятия решения по ППА, т.е. даже если статья имеет ровно +30 рейтинг, не факт что она была оплачена.

Но в основном, «жизненный цикл статьи», когда она висит на первой странице, увы, 1 день, 2 максимум, так что погрешность не столь большая, может процентов 5.

Это да.

А еще для участия в ППА нужно иметь карму 50+ и вообще захотеть участвовать, при этом статья участвует в ППА только в конкретных хабах (только связанных с IT).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории