Pull to refresh

Comments 67

Круто, из трёх моих любимых хабов — Gamedev, управление проектами и Growth Hacking, третий лежит полностью в первых двух.
varagian, сделайте, пожалуйста, чтобы форма выбора хабов для диаграммы не сбрасывалась при обновлении страницы — неудобно менять один хаб в наборе.
Хорошо, только выложу изменения ночью — сейчас боюсь трогать приложение, оно и так тяжело дышит.
Большая часть хабов сильно пересекается — большинство пользователей подписано на большинство хабов. Здесь значимее было бы поискать обратную корреляцию.
Как вы строите диаграммы Венна, если у вас ТРИ хаба? Как получаются такие красивые и удобные окружности? Каким алгоритмом вы находите третюю точку (центр третьего круга)?

Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…
Если кратко, то
pypi.python.org/pypi/matplotlib-venn

Если подробнее, то что-то интересное тут видел:
www.brynmawr.edu/math/people/anmyers/PAPERS/Venn.pdf

Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…

Это очень маленький сервер пытается обслужить сразу кучу* пользователей и поэтому на ладан дышит

*больше двух
Ох, вызовете вы проблему оракула. Ваши прогнозы начнут оказывать влияние на время публикации статей, что вызовет положительную обратную связь. Предсказания работают, пока никому неизвестны. Инструмент прекрасен, да.
UFO just landed and posted this here
По моим наблюдениям пики чтения хабра — рабочее время с 10-14, примерно. Сужу по своим статьям и интенсивности вопросов к ним.
Ну конечно, самое время отвлечься от нудной работы. А после обеда, окончательно проснувшись можно и поработать.
Пришел, чашка чая, хабр. Все правильно.
UFO just landed and posted this here
Этот аргумент предполагает наличие подобного знания у всех участников сообщества, а мои статьи по анализу данных набирают в среднем 10к просмотров, и это ооочень маленький сегмент аудитории Хабра.
Спасибо, аналитика и правда всегда интересна.
А можно будет реализовать аналитику по статьям — которые выложены давно?
Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.
Видимо надо развернуть серверную часть у себя.
А можно будет реализовать аналитику по статьям — которые выложены давно?

Монитор опрашивает хабр каждые N минут, отсюда и данные для визуализации. По старым статьям, таких данных, к сожалению, нет. Хм, интересно, а нет ли у администрации?

Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.

Это исключительно техническое ограничение, бюджет инфраструктуры — 0р0к, поэтому используется бесплатная DB as a Service, у неё ограничение на размер базы в 512МБ. Из-за этого очень осторожно использую место, теоретически можно попробовать увеличить время хранения и посмотреть хватит ли на всё. Поэкспериментирую на неделе.
Нельзя удалять данные о просмотрах, им же цены нет. Сколько денег нужно, куда?
Кстати вот и идея для монетизации: хранение истории по своим статьям, пользователям, пока оплачена подписка.
Подозреваю, что там будет мелочь, которая не будет стоить заморок с реализацией подписки.
Думал над чем-то подобным, в духе: премиум-аккаунты с хранением всей информации и дополнительными фичами, но тогда моя персональная ответственность перед пользователями невероятно возрастет.

Сейчас, если уронить сервер на часик другой, то никакой трагедии не произойдет (у меня всё-таки вообще нет опыта веб-разработки), а если у меня будут пользователи, которые платят деньги за работу сервиса, то придется работать уже совсем на другом уровне и нести перед ними ответственность за корректную работу приложения.
UFO just landed and posted this here
Надо будет над этим подумать, но всё же лучше дождаться официального API. Если сейчас Хабр изменит вёрстку, то всё полетит, приложение встанет и данные за период переписывания и отладки приложения пропадут.
Если просто нужны данные по прошлым статьям (например, просмотры за неделю по индексированным статьям), то могу их периодически скидывать себе на жесткий диск — это не проблема, проблема их постоянно держать в базе данных и постоянно обновлять. Если количество статей в пуле растет — значит растет время на одно обновление, растет время запроса интерфейса, растет память в БД — в общем, мой карточный домик плохо масштабируется.

У меня есть идея получше — администрация мне уже выдаст токен API (рано или поздно) и я выпущу standalone монитор с авторизацией, каждый сможет себе столько закачать информации сколько захочет, по любому количеству статей (ну в пределах допустимых ресурсов).

Ещё опция, если у кого-нибудь есть лишний сервер с базой данных, то можно мне создать пользователя и сборщик данных через этого пользователя будет скидывать данные.
Да виртуальный сервер не проблема сделать, какие требования?
Круто. Не планируете увеличить время мониторинга просмотров статей скажем, до недели?
Ответил в комментарии выше.
Может быть вместо статических матплотлибовских картинок прикрутить интерактивные графики, например на Plotly? Удобство просмотра статистики значительно повысится! :)
Со мной уже связались ребята, занимающиеся визуализацией данных для веба, посмотрим, что из этого выйдет — буду держать в курсе!
они куда-то пропали, а спустя год с небольшим Heroku (август-сентябрь 2015) ввел новые правила и по сути остановил проект. Есть план переписать его в этот раз учтя все косяки, которые были в прошлом by-design. Вопрос только, когда я всё это сделаю.
Скажите, пожалуйста, а почему именно Heroku выбран в качестве хостинга? Я сколько раз ни приглядывался к нему, да удобно, куча автоматизированных вещей и прочих плюшек, но уж больно дорого выходит по сравнению с облаком того же амазона.
У меня всё вышло бесплатно, по крайней мере пока приложение успешно (более-менее) справляется.
Спасибо, очень любопытно. Вы не пробовали строить график количества посетителей на Хабре и количества постов в ленте? С точки зрения общественной пользы лучше всего публиковать пост в момент когда у него меньше конкурентов за первую страницу. Можно даже простой индикатор сделать, типа светофора — стоит публиковать или лучше подождать.
Как узнать количество посетителей?
Через API (договориться с хозяевами) либо суммировать просмотры по постам за час. Для сравнительной оценки пойдет
Да, по сути, не нужна информация о количестве человек, подойдет ее производная, главное чтобы они были связаны линейно.

Но логика в первом комментарии, на мой взгляд, ложна — в выходные с интересным постом нет труда попасть в лучшее, но просмотров это принесет 10к, вместо 30-50 в будни.
Когда много постов, думаю, распределение по просмотрам будет гиперболой (и этот вопрос автору поста можно проверить), т.е. после третьей страницы никто читать не будет. Так что это лотерея — повезет — прочитают много, не повезет — не прочитают совсем.
Наблюдаю за статьями через монитор уже пару недель и создается впечатление, что реально читают только «лучшее за сутки» и более-менее читают «новое», для большинства статей характерна вот такая ступенька после 24х часов (статья Открытый Терминальный Клиент ОТК-110 — просто новости)

и дальше почти горизонтальная линия (кроме отдельных долго-играющих статей)
Мои статьи понемногу читают. Даже продолжают комментировать и спрашивать.
Добро пожаловать в категорию долго-играющих статей, такие статьи есть, но их по предварительным данным и моим субъективным ощущениям (за шесть с небольшим лет) немного.

У меня такая статья только одна и она собственно и сподвигла меня сделать систему анализа статей. До сих пор встречаю ссылки на неё в сети и радуюсь.
У меня почти вся серия из 5 статей про коррекцию зрения оказалась удачной. Видимо, тема актуальна. Мне только пост про хлебушек жалко. Администрация закрыла
Согласен, сам как-то пробегался по ним перед операцией жены.
Рад, что понравилось.
Быстро протухают новостные статьи. Кроме особо острых. А дольше всего живут инструкции и что-то полезное. Проверьте корреляцию между добавлением в избранное и сроком жизни статьи.
Когда-то уже писал про инструкции на Хабре, хотя и немного в другом ключе
Портрет хабра-tutorial
habrahabr.ru/company/dmlabs/blog/218607/

Для корреляции между добавлением в избранное и сроком жизни нужно действительно проводить longitudinal study и собирать качественный датасет.
Не дают API, сказали «как только, так сразу» (в общих чертах).
Мой рейтинг как-то странно выглядит.

Интервалы какие-то неравномерные. Где 2011-й год? И вообще он у меня ниже 150 уже давно не был. Или это рейтинг минус половина кармы? Или я чего-то не понимаю?
Это рейтинг статей, по оси Х приведены даты публикации статей.
А прикрутите select2 на выпадающие списки, а то очень в них искать не удобно. Спасибо, как раз слежу за своей статьей.
Хотя opensource, может сам поробую.
Гляну, только формы сейчас реализованы через python библиотеку WTForms, поэтому это может быть нетривиально без переписывания части интерфейса.
1) Рейтинг пользователя пока неюзабелен, надо делать что-то типа хабрапульса — карма, рейтинг и наложенные на них события:
image
Но это не сильно важно, никакой особой ценности, кроме как посмотреть на свой график, оно не несет.
Кстати, у Urvin есть данные о статистике постов тех людей, кто зарегистрировался на пульсе:
Хаброграмма поста «Металлообработка — 2014, или повесть о настоящих роботах»
Только с одним минусом, сводящим статистику на нет — количество просмотров не нормализуется, вкупе с авто-масшатабом, это приводит к тому, что плюсы/минусы, избранные и комментарии просто не видны на фоне 50к просмотров. Я, правда, просил его выгрузить данные по мне, но что-то не срослось. Может, надо получше попросить :)
Вот рейтинги постов — это очень важная информация.
2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)
3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.

4) Еще бы было интересно сделать обертку для ссылок, чтобы видеть в той же панели количество кликов по отдельным ссылкам. Т.е. ссылка вида http://habr-analytics.com/7583?link=http://test.com/ которая бы при клике записывала в бд время клика и перенаправляла бы пользователя куда надо. И смотреть количество кликов там же, в мониторе постов, с наложением на остальные метрики.
5)наложить на график монитора поста вертикальные метки — вход в «захабренные», в «отхабренные», вход в «лучшие за сутки», «первое место в лучшем за сутки», «выход из лучшего за сутки», «окончания голосования за статью»
4) Звучит интересно, это нужно для сбора какой-то дополнительной информации аля google analytics?
5) Над этим и сам думал, но решил подождать отклика на базовую версию — вдруг это вообще было никому не нужно.
4) Звучит интересно, это нужно для сбора какой-то дополнительной информации аля google analytics?

Посмотреть конверсию просмотров в клики, это интересно и для обзоров и для новостей всяких-разных.
1) Вот рейтинги постов — это очень важная информация.

Так они же и реализованы по оси Х — даты публикации постов


или я не правильно понял эту часть комментария?

2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)

В принципе выглядит реализуемо, единственное, мне тут предлагают вообще визуализацию переделать, поэтому я пока подожду с добавлением сложной логики.

3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.

Вот тут я чуть-чуть поленился и перенес часть кода из standalone приложений, и на хабы компаний уже не хватило сил. Эту часть надо бы переписать под Heroku и добавить хабы компаний.
В идеале это бы нужно сделать по схеме приложений в соц. сетях (это мой wishful thinking), и теоретически на Хабре есть приложения. Их конечно пока нельзя создавать — но когда-нибудь всё будет :-)
Изменение показателей статьи показано в часах от начала. На самом деле намного логичнее — в абсолютных часах. Т.е. по реальному времени. Посещаемость статьи связана не с дельтой от начала публикации, а со временем дня. Будет синусоида с максимумами на 1-2 часа дня и 8-9 вечера.
Возможно, стоит пересчитать в реальном времени, это не сложно.

А само утверждение как-то проверялось или это интуиция? Если проверялось, то нельзя ли посмотреть/выложить данные? Думаю, не мне одному будет интересен такой датасет.
Еще одной полезной метрикой было бы близость к получению бейджей и что еще надо сделать чтобы получить очередной бейдж =)
А нельзя ли отсортировать хабы по алфавиту. Невозможно найти что либо.
Красота. Сразу нашел. До этого два раза пробегал всю таблицу, но так и не обнаружил интресующего меня хаба.
Хотел посмотреть всякие няшные графики, но у видел лишь:
Application Offline for Maintenance
Хабр поменял версту и структуру, еще не довел руки переделать Хабра-аналитику.
Sign up to leave a comment.

Articles