Pull to refresh

Comments 61

Неожиданным оказалась то, что самые плюсуемые статьи — созданные в 4 утра по Москве. Хотя, при дальнейшем размышлении, кажется что это вполне логично — опубликованное глубокой ночью (время московское) прочитывается в начале рабочего дня жителями России, начиная с Владивостока и далее по территории страны, по мере наступления рабочего дня в соответствии с часовым поясом. При этом ещё много часов подряд публикация остаётся на первых страницах — большинство авторов (которые находятся в пределах часовых поясов европейской части России) ещё спят. И даже когда в самой Москве начинается рабочий день, статья ещё в числе самых верхних на странице.

Но тогда непонятно обрушение на следующем, 5-м часу. Разница с 4-мя часами утра, по идее, должна быть не такой резкой.

Я же надеюсь, что если статьи с Хабры собирались несколькими пауками, то их IP были из одного часового пояса?
Статьи собирались только с моего отдельного локального компьютера, так что время одно.
У меня есть подозрение, что это происходит именно потому, что новых написанных статей в 4 утра очень мало. Т.е. внимание читающих распределяется неким образом между новыми статьями, и количество новых статей в это время падает сильнее, чем количество читающих.
UFO just landed and posted this here
Меня в этой информационной свалке заинтересовали только графики, иллюстрирующие когда лучше размещать публикацию, чтобы получить больше плюсов. Но выводы из них весьма подозрительные…
Солидарен с вопросов. Не увидел практически ничего реального полезного, кроме математики ради математики.
Объём этой статьи составляет 21500 символов (код поста – 60 тысяч) – ну, математика, не подведи исследователей! :)
p.s. Очень круто, спасибо!
Вероятность набрать при это более 40 «лайков» равна около 0.28, что не плохо. Пост это количество на данный момент уже набрал)
Ещё кажется очень подозрительным высокая плюсуемость субботне-воскресных публикаций. На самом деле, это наихудшие дни в плане рейтинга — маленькая посещаемость из-за чего мало оценок.
Уже много раз это обсуждалось.
В выходные плюсуют больше, потому что конкуренции меньше.
Картина становится яснее, если убрать главный источник ссылок — сам Хабрахабр.

Повторяется дважды, второй раз в облаках с языками.
Да не только это, весь блок с графиками оптимального времени публикации задвоен (впрочем, это легко можно не заметить :)).
В нем просто две группы графиков — одна коллекция по рейтингу, другая по числу просмотров. Визуально, да, они похожи.
Да, во второй раз там должно быть что-то вроде «Посмотрим на самые популярные языки программирования вставок кода в хабе “Алгоритмы”:»
Да, действительно, вкрался повтор фразы, поправил. Спасибо!
Постройте, пожалуйста, график среднего рейтинга поста в зависимости от дня недели и времени одновременно. Т.е. в начале графика понедельник с 0 до 23, затем вторник с 0 до 23 и в конце воскресенье с 0 до 23. Всего 24 * 7 точек. Спасибо.
Вот результат:



Код для копирования
data=Normal[habrDataset[All,{"PublicationDayOfWeek","PublicationHour","PageViews"}][GroupBy[Key["PublicationDayOfWeek"]],KeySort[Dataset[#][GroupBy[Key["PublicationHour"]],N@Mean[Cases[#,_Integer]]&,"PageViews"]]&,{"PublicationHour","PageViews"}]];

colors=ColorData[109,"ColorList"];index=1;

plots=ListLinePlot[#,PlotRange->All,PlotStyle->{AbsoluteThickness[3],colors[[index++]]}]&/@data;

Legended[Show[Values@plots,PlotRange->All,ImageSize->700],LineLegend[colors[[1;;Length[plots]]],Keys[plots]]]
Спасибо! Очень интересны пики в 4 и 6 часов.
Моя гипотеза в том, что 4, 5, 6 часов по Москве — самое неудобное время для авторов статей, то есть до 3..4 часов ночи люди ещё могут посидеть, дописать и выложить статью, но как только время доходит до 5 часов, человек ложится спать и оставляет статью на потом.
Из-за этого в этом промежутке очень мало данных для полноценного анализа. Может быть идеальным временем публикации будет 5 часов в субботу, воскресенье или понедельник, но мы просто не имеем достаточно хороших статей, чтобы подтвердить эту гипотезу.
Ого, потрясающе фундаментальная работа! Судя по данным, технологии Wolfram наконец-то набирают популярность! Прекрасное исследование, огромное спасибо!
UFO just landed and posted this here
Было сложно но я доскролил до сюда, чтобы написать этот комментарий.
Кто такой David Virtser и почему на его сайт так много ссылок?
Когда-то давно он сделал хайлайтер кода для Хабра, который автоматом добавляет ссылку на его личный сайт. Но, к сожалению, сам хайлайтер уже давно не работает.
А почему у вас получилось, что рейтинг постов не бывает отрицательным? Не ошибка ли это извлечения рейтинга? (Имейте в виду, Хабр вместо минуса перед числом использует тире (ndash).)
Таких постов не так много. Рейтинг -1 у 669 постов, -2 у 113, -3 у 89 и -4 у 85. Меньше нет. В базе они есть.
Вы, похоже, ходили по страницам вида http://habrahabr.ru/hub/{hubname}/page{N}/, а надо было по http://habrahabr.ru/hub/{hubname}/all/page{N}/.
Первое — это «Интересное. Записи, получившие положительную оценку (рейтинг ≥-4) пользователей», а второе — «Всё подряд. Все записи хаба (в хронологическом порядке)» (см. справку).
Что-ж, в будущем можно будет написать апдейт с учетом не только «интересных» хабов, но и с очень плохим рейтингом. Благо доля их также не очень велика.
Но, вообще, вы правы. Из-за этого символа, который на первый взгляд и внутри Wolfram Language отображается как минус, я не заметил эту неточность. Сейчас поправлю все что относится к этому. Благо изменения будут всюду лишь в сотых, а на графиках их вообще заметить будет невозможно.
Благодарю за замеченную неточность. Поправил результаты. Отличия, как и думал, получились крайне малые.
А есть ли у вас статистика по переводам (и помнится был формат топик-ссылка в прошлом)? Интересно сколько контента создано только для хабра
На данный момент нет, но вот теперь, добавил. В целом, даже не знаю, почему мне не пришла в голову мысль вставить это сразу)



Код для копирования
extractData["TranslationQ"][data_]:=If[
FreeQ[data,XMLElement["span",{"class"->"flag flag_translation"},{"перевод"}]],"Original","Translation"]


Результат вычислений таков:

Благодарю! Ждем статьи о гиктаймсе :)
Что интересно, сделать клон этой статьи для GeekTimes и Мегамозга не сложно, нужно просто сделать другую базу и поставить на счет. Все произойдет в почти автоматическом режиме.
Офигенно интересно! Спасибо.

Насчёт анализа вероятностей, а лотерею просчитать можешь? ;)
UFO just landed and posted this here
Статистика «только уникальные статьи (относящиеся только к одному хабу)»



Немного удивлен порядком. Ведь можно говорить как о тренде и популярности? JS неожиданно ниже.
С одной стороны да, с другой ясно, что Javascript очень связан с другими хабами, куда, почти автоматом, также добавляют пост при публикации. Так что да, «монохабных» постов в нем получается меньше.

Вот с какими хабами тесно связан хаб Javascript



Код для копирования
habs=
Association@KeyValueMap[#1<>" ("<>ToString[#2]<>")"->#2&,KeySelect[Drop[Normal[Reverse@Sort[Counts[Flatten[habrDataset[Select[And[MemberQ[#Habs,"JavaScript"]]&],"Habs"]]]]],1],Not[StringMatchQ[#,"Блог"~~__]]&]];

Quiet[WordCloud[habs,ImageSize->800,MaxItems->All]]
ух ты ) Красиво. Вы молодец
UFO just landed and posted this here
Чаще всего «лепят» хаб «Веб разработка», как видно из облака слов выше. В 4 с лишним раза чаще, чем «HTML».
UFO just landed and posted this here
Великолепно, фундаментальная работа!
Грандиозная работа, большое спасибо за неё!
Несколько графиков немного сбивают с толку: «Количество %object_name%, публикуемых в %hab_name% за год» — почему-то у всех завален правый край.
Я конечно понимаю, что 2015 год ещё не закончился и значение за этот год меньше, но ведь можно было или экстраполировать по данным за первые 4 месяца на весь год, или просто урезать график по ширине до первых 4 месяцев 2015 года.
Согласен, но это скорее дело вкуса. Я думаю, что все читатели поняли, что в 2015 году меньше только по причине того, что прошло еще только 4 месяца. Экстраполяция потребовала бы довольно много дополнительных объяснений, построения доп. моделей, выяснения их состоятельности и пр.
UFO just landed and posted this here
Кстати, лучше тогда делать гистограмму, а не график, если тут линии между точками не несут особого смысла.
У меня есть предположение, что случайная величина — отношение числа голосов (не рейтинга!) за статью к числу ее просмотров подчинена распределению Пуассона. Могли бы Вы привести этот график (ось абсцисс — число голосов, ось ординат — отношение)?
Спасибо! Кажется гипотеза правдоподобна.
PS: Вы как настоящий трудящийся, в день трудящихся не поленились потрудиться!
Эпичный пост, однозначно плюс! Всегда было интересно, как делают облачка и фигуры из слов, а тут еще и математически :)
Вы маньяк в хорошем смысле этого слова.
Классная статья!
К сожалению, познакомился с Mathematica лишь недавно, но сразу на курсе лекций был поражён тем, что умеет данный программный пакет, если знать, как с ним обращаться. Хотел про него для Хабра написать, но моих знаний определённо не хватит даже на 1 процентик от данной статьи)))

И ещё раз спасибо!
А можете сравнить частоту слов: яв~~ и джав~~?
Благодарю. Давно об этом мечтал.
Поделитесь, если возможно, почему?
Спасибо большое. Огромная полезная работа. Шикарный пост, в избранном.
Напросился только печальный вывод: хабр говорит про OpenSource, но бОльшей части хабра плевать на OpenSource (уникальные посты этой темы в… внизу). Поправьте меня, если я не прав.
Класс. Громадное исследование, спасибо… Представил прямо инструмент для хабры (типа «чего хочет хабра»), который в процессе работы над публикацией позволяет глянуть перспективы этой публикации.
Спасибо, я очень рад, что вам понравился пост!
Sign up to leave a comment.