Pull to refresh

Comments 31

Интересное исследование! Но, мне кажется, вам надо было сделать еще кое-что, а именно:

— учитывать позицию статьи на главной: если статья вверху, она получает кучу новых просмотров, как только видимость уменьшается, число просмотров может упасть
— учитывать нахождение статьи в блоках вроде «что читают»/«что обсуждают». Если статья туда попадает и у нее интересный заголовок, это дает прирост просмотров

Было бы интересно соотнести позицию на главной, нахождение в блоках с приростом просмотров.

То есть число просмотров на мой взгляд, сильно зависит от видимости статьи (вероятности пользователя наткнуться на неё). Если вы, условно говоря, опубликовали статью, и через 5 минут люди опубликовали еще 20 статей, то ваша статья провалится вниз и никто ее не прочтет.

Что касается соотношения лайков к просмотрам, думаю, тут еще может играть роль, какие пользователи её читают — зарегистрированные с способностью ставить лайки или больше незарегистрированные.
Хорошая идея, можно было добавлять в лог факт наличия статьи в боковом или нижнем блоке, и посмотреть как это влияет на просмотры.

Впрочем, каких-то необъяснимых всплесков на графиках и так не видно (хотя конечно _все_ статьи я не анализировал, меня бы забанили за DDOS-атаку если бы я выкачивал всё каждые 5 минут;).
То есть число просмотров на мой взгляд, сильно зависит от видимости статьи (вероятности пользователя наткнуться на неё). Если вы, условно говоря, опубликовали статью, и через 5 минут люди опубликовали еще 20 статей, то ваша статья провалится вниз и никто ее не прочтет.
Да. И более того, если опубликована «Техническая» статья, а близко по времени «Горячая» статья, то последняя может увести потенциальных читателей — зависит от размера и количиства комментов.
Еще интересные вопросы:

Если статья получит продолжение в другой статье, то сильно ли это повлият на показатели?
При этом: если один автор и если разные.

Даже самый популярный материал, набирающий тысячи просмотров, уйдет „в прошлое“ всего за 3-4 дня.
Для «Горячих» статей это ожидаемо — сенсационность и актуальность могут быстро упасть. А для «Технических» статей это выглядит более странно. ИМХО можно объяснить тем, что большинству материал не сильно актуален, а читают и берут в закладки «на всякий случай — м.б. потом будет нужен».

Интересно, что комменты «Технических» статей обычно совсем прекращаются через несколько дней. На некоторых форумах запрещена «археология», на Хабре такого запрета нет.

Интересно, как влияют споры и холивары в обсуждении на показатели статьи? М.б. один случай, когда комментаторы выскажутся по 1 разу (кто похвалит, кто обругает), и другой случай, когда несколько человек спорят на много экранов.
Какой-то процент переходов из поисковых систем остается, и для старых статей, так что число просмотров слегка будет расти. Но это доли процентов имхо.

Холивары на показатели имхо почти не влияют — голосуют-то только один раз. Но тут есть другой момент, 'горячая' статья с 100к просмотров наберет гораздо больший рейтинг чем узкоспециализированная с 5к просмотров, даже если ее качество (views/likes) ниже, чисто за счет большого числа прочитавших. Что поделать, жизнь неидеальна. Ну и Хабр все же развлекательный ресурс а не научный журнал.
Cпасибо за статью, хороший пример результата работы неспокойной головы и правильных рук.)
Ну и Хабр все же развлекательный ресурс а не научный журнал.

Я бы сказал, развлекательный + научный = образовательный.
ошибка в тексте?
Cоотношение просмотров и лайков… 400:1

можно видеть, что оно заметно выше чем в первом варианте и составляет грубо, 150:1

150:1 > 400:1?
Спасибо.

В тексте нет ошибки, под 150:1 и 400:1 я имел в виду 1 лайк на 150 просмотров, что больше чем 1 лайк на 400 просмотров. Может не очень удачно сформулировал, но идея надеюсь, ясна.
Отвечу вам скорее как бывший автор статей, ну и как наблюдатель, конечно.

Если статья получит продолжение в другой статье, то сильно ли это повлият на показатели?
Прирост есть, но незначительный — того же порядка, как были бы переходы на внешний сайт. Но для определённых «холиварных» материалов может достигать и 2-3 тыс. (Например, в прошлом году была серия про «необразованную молодёжь», там были большие приросты при отсылках. Та же история с любыми «сериальными» статьями). При отсылке к обычной технической статье прирост в рамках нескольких сотен просмотров, а то и меньше.
Интересно, как влияют споры и холивары в обсуждении на показатели статьи?
Количество комментариев — по наблюдению — чаще всего влияет, т.к.: а) все идут посмотреть, да что же там так комментируют; б) справедливо и обратное — если статья интересная или спорная, её часто просматривают, значит, может быть много комментариев. И, как правило, если комментов нет, то и просмотров довольно мало, думаю, если «снять» данные, корреляция будет высокая.
У меня мои статьи просто пассивно получают около 400-500 просмотров ежедневно.
На некоторых форумах запрещена «археология», на Хабре такого запрета нет.
Археология немножко ограничена. Пользователи в статусе Read&Comment не могут комментировать публикации старше 30 дней. Как велика доля таких пользователей не могу сказать.
А вот следующий момент интереснее: число „лайков“ для таких статей растет заметно медленнее, чем число „закладок“. Тут все наоборот по сравнению с предыдущим вариантом — многие находят статью полезной, чтобы сохранить на будущее, но при этом читатель вовсе не обязательно нажмет „лайк“.

Это явление скорее в большей степени обусловлено тем, что пользователи с ограниченными правами (только читать и комментировать) не могут ставить лайки, но могут добавлять в закладки.

Да, тоже вариант, спасибо. Но мне все же кажется, что мотивация тут первична — читатель в принципе, не обязан нажимать «лайк», а вот если статья понравилась и хочется ее сохранить, то в закладки себе человек ее скорее всего, положит.
Закладку можно и не на хабре сделать, а в браузере. Лайк или дизлайк большинство не могут поставить.
Я свои статьи публиковал в пятницу вечером, когда вероятность набрать просмотры минимальна, однако, так имелось время ответить на комменты в выходные. В понедельник в общем списке статью уже было сложно найти. Но, одна статья написанная более года назад стабильно держит около 200 просмотров каждый день. То есть, стабильно в течение года. При этом, в первые дни после публикации она набрала не так уж и много просмотров.

Мне кажется стоило считать не рейтинг, а общий рейтинг — общее количество плюсов и минусов. Ведь тут может быть не "забыли поставить оценку", а "ставили противоположные оценки".
Ну и почему рассмотрено только три статьи, почему так мало?

Рейтинг я и считал как сумму оценок — лайков и дизлайков.
Хотя сейчас посмотрел HTML-исходник еще раз — в нем хранится и количество «плюсов», и количество «минусов» отдельно в параметрах uarr и darr:
<span class="voting_wjt__counter voting_wjt__counter_positive  js-score" title="Общий рейтинг 46: uarr;31 и darr;15">+16</span>

Так что даже интереснее было бы вывести отдельно двумя графиками (для популярных статей было бы интересно сравнить рост лайков и дизлайков), но уже поздно переделывать :)
Для начала определимся с метриками — что мы хотим узнать. Тут все просто, у каждой статьи есть 4 основных параметра, отображаемых на странице — это количество просмотров, лайков, закладок и комментариев. Их мы и будем анализировать.


Тут есть тонкости
1. «лайки» могут ставить далеко не все.
2. Комментируют тоже далеко не все. Даже если человеку есть что сказать — комментирование (и ответы) занимает время, которое лишним не бывает. Тем более, что жизнь у комментария в подавляющем большинстве случая еще короче, чем у статьи.
3. «Закладки» я обычно сохраняю в OneNote — так намного удобнее (рубрики, поиск). Думаю, что не я один (и не обязательно в OneNote)
Кроме того, с учетом того факта, что статья может внезапно исчезнуть — иногда сохраняю и полный текст статьи.

Так что для начала надо бы провести опрос — кто, где и как часто.

Да, разумеется.

Достоверно мы здесь знаем только число просмотров, остальное уже более приблизительно — человек может не захотеть писать комментарий, сохранять закладки где-то в другом месте, и пр.

Насчет комментариев, я обычно не комментирую если вижу что их >50 — высока вероятность, что такую массу уже никто не будет заморачиваться читать.
Подобное можно сделать без seaborn: обычной линией и полупрозрачными fill_between с нужными квантилями, например
А этот seaborn кстати бесплатный? Я давно хотел его попробовать, но до реального использования так и не дошло, matplotlib в целом устраивает (единственный минус, на больших наборах точек он все же тормозит).
Вроде бесплатный. А на какого размера наборах matplotlib подтормаживает. У меня временнЫе данные с минутным разрешением длиной в неделю и рядов в 40 шириной довольно быстро рисует contourf. Вот когда большого размера изображения рисовать приходится, тогда задумывается
Я пробовал выводить несколько тыс точек с лидара, было что-то типа 1fps, или даже меньше, не помню уже.

Pandas хорошо интегрирован с seaborn. Реально удобнее и уже готовыми методами.

Надо на хабре ввести сортировку по likes/views и bookmarks/views за определенный период времени для поиска качественных статей.
Спасибо, попробую. Я пробовал какой-то метод из numpy, но он меняет размер массива и matplotlib уже не рисует когда 2 массива разной длины, влом было разбираться, взял другую реализацию.
Для data wrangling pandas вообще очень хорош: и resample (up- и down-), и rolling mean, и статистика. Кстати, если я правильно понимаю, то весь datetime есть в pd.datetime, ну или многое во всяком случае
Мне когда-то понравилось как обёртки в pandas преображают оси, на которых отложено время, как здесь
image
Но работать с графиками из самого pandas не всегда удобно, поэтому в несколько строк кода можно сделать подобное и в matplotlib:
import matplotlib.dates as dates
import matplotlib.pyplot as plt

axis.set_minor_locator(dates.DayLocator())
axis.set_minor_formatter(dates.DateFormatter('%d'))
axis.set_major_locator(dates.MonthLocator())
axis.set_major_formatter(dates.DateFormatter('%b\n%Y'))

axis — нужная ось
А как распарсить html если страница через js дорисовывается?

Что стало источником для адресов статей? Перебор всех id от 1 и до пока хватит терпения?

Хочу сам найти все лучшие статьи по количеству добавлений в закладки, вот только задачка где url брать.

Sign up to leave a comment.

Articles