Comments 33
UFO landed and left these words here
Краулеры и обработка — Perl. База — MySQL. Запускалось все на стареньком домашнем компьютере PIV 3Ghz, 3GB RAM.

Пересечения для ТОП-10 (матрица) на готовой базе считаются где-то около минуты. Основное время на извлечение списков из базы. Но так как индексы висят в памяти (где-то 750 метров) это время тоже незначительно.
скандалы, интриги, расследования!
табр — торт!
не думали запустить это как SaaS?
А зачем? Вы думаете найдется много гиков кому интересна такая статистика? :) Максимум что можно сделать (и я это, может быть сделаю) — рекомендательный сервис «кого еще зафрендить».
Ну я не профессионал маркетинга, уверен быть не могу, но думаю интерес возможен.

Если сделать для простых пользователей чтобы они могли смотреть инфу по себе и своим друзьям и могли публиковать в ЖЖ, то так можно бесплатно пиариться.

А маркетологи возможно захотят делать какие-то срезы по ключевым словам например. Скажем я хочу узнать кто топовый блоггеры по тебе BMW и какая у них аудитория — за это и деньги могут заплатить.

Думайте о том какие проблемы вы можете решить. Мне кажется тут есть куда копать.
Вы представляете какие ресурсы нужны чтобы выделить «топового блоггера по теме BMW»? :)
Я, честно говоря, не совсем. Наверное это скорее задача для Яндекса.

И всё такие если серьёзно подойти то что-то полезное я думаю можно сделать. Вопрос конечно окупаемости как всегда.
Рекомендательный сервис «кого еще зафрендить» — это очень интересная и правильная мысль.
В свое время один жежист делал нечто подобное, правда, не в рекламных целях:
muzyka-sfer.livejournal.com/514.html
muzyka-sfer.livejournal.com/1093.html
muzyka-sfer.livejournal.com/1350.html
А можно на ваших данных сделать что-то подобное? Ну, то есть, что-то вроде карты графа в ЖЖ, определить, есть ли большие изолированные кластеры, степень связности, и т.п?
Я видел эти исследования и не ставил себе задачи повторить их. Но можно попробовать проанализировать граф в этом ключе. Боюсь только что размерность задачи сильно вырастает.
великолепная статья.
Было прекрасно если бы появился веб-сервис, который мог бы делать такую статистическую обработку для произвольных журналов.
Такие сервисы есть, но делать обработку в режиме онлайн — очень ресурсоемко. Поддерживать актуальную базу блогов — тоже та еще задачка (кстати, даже Яндекс.Блоги не очень хорошо с ней справляются на мой взгляд).
Браво. А если немного расширить труд — так можно и маркетологам продавать.
Ну, тем, которые разумные.
Расширить до ТОП-50 — не проблема (ну кроме построения карт — это весьма долгий процесс), где только разумных маркетологов взять :)))
Исследование трудоемкое и сложное, но для себя лично никакой полезной информации не нашел.
Вы, несомненно, потратили силы и время на написание этого комментария, но для себя лично я в нём никакой полезной информации не нашел.

Это я к чему — если не интересно, ну так и зачем комментировать?
А можно узнать о количественном соотношении кластеров?
Чтобы оценить, например, соотношение аполитичных и активных блогеров.

Спасибо за тему! Очень интересно.
Успехов.
В тексте есть указание количества читателей, которые сгруппированы в тот или иной кластер. Или вы про что?
Собрал из текста:

0. кластер Алексея Навального: 33 тыс.
1. кластер политически активных: 16,5 тыс.
2. аполитичный кластер: почти 19 тыс.
4. творческая интеллигенция: 54,5 тыс.
6. без ярко выраженных пристрастий: 8 тыс.

Хотелось бы узнать вашу качественную характеристику и количественную оценку кластеров 3 и 5 ))

И прав ли я, интерпретируя разбиение, что кластер 0 как бы входит в кластер 1, то есть число политически активных примерно 40 тыс.?
Ну и чтобы вычислить процент от общей аудитории надо делить на 168 тыс. или сколько?

Спасибо.
Кластеры 0 и 1 можно объединить «по смыслу», но они в принципе независимые.
Кластер 3 (аудитория zyalt, drugoi и немного tema, sergeydolya) — 15,5 тыс.
Кластер 5 (sergeydolya, drugoi, tema, tebe_interesno и др.) — почти 22 тыс.
Качественно оценить их затрудняюсь :)

Но еще раз напоминаю — тут сильно все зависит от разбивки на кластеры. Сделать их число не 7 а 9 — и уже картинка будет другой.
Наверно, СУПу стоит задуматься и взять под свой контроль продажу рекламы в блогах. Тогда проблему обработки статистики возьмут на себя их спецы и их сервера.
Да у них методы какие-то… как у одной знаменитой партии. Вроде, «мы стараемся», а результат не доставляет…
А статистика-то нужная, её бы в онлайн рассчитывать — так ведь железо нужно.
Я участвовал в этом «исследовании». Могу много интересного о нём рассказать.
Разумеется человек. Ну или бот — я не делал фильтрацию :)

Спасибо за ссылку — обязательно почитаю.
Only those users with full accounts are able to leave comments. Log in, please.