Comments 18
Я к твиттеру отношусь прохладно, но расписанная методика анализа весьма интересна. Для себя выделил несколько интересных моментов. Таких как использование алгоритма PageRank для поиска влиятельных лиц.
Крутой взгляд.
Я стараюсь анализировать твитер более субьективно.
Тогда получаю отдачу в виде потока, реализующего мои желания в отличие от анализа на основе статистики, который пахнет «сухостью» и «неочеловеченостью».
Кстати.
Если набор инструментария, описанного здесь кто-то соберет в онлайн софтинку, заплачу 50000р сразу за доступ к ней!
Все же получаемая информация носит больше развлекательный характер. Навряд ли она того стоит :)
Если найдутся желающие — пожалуйста, пользуйтесь кодом.
Нет нет.

Она не особо развлекаловка!

Есть здесь тема.

Естественно, что в контексте твитера есть много субьективности, посему и получается, что используя инструментарий для статистики — получаем не совсем то.
Но в контексте статистики часто получаем совсем не те, что есть субьективно, а это помогает взглянуть на анализ совсем с другой стороны.

Извините за сложные слова. 8)
Все же и вы меня не совсем так поняли.

Поясню на примере. Если человек ставит целью считать PageRank страниц в Интернете — это развлечение. Если потом это число используется чтобы более авторитетные страницы всплывали в поиске — это польза.

Или еще. Если человек категоризирует страницы по ключевым словам — это развлечение. Если потом на основе этих ключевых слов на этих страницах продается реклама — это польза.

Если в твиттере строятся рейтинги, выделяются группы и т.п. — это развлечение. Если на основе этого что-то еще происходит — это может быть пользой.

У меня есть мысли о том что может быть пользой для этих упражнений, но они пока зреют.
попробую отзеркализироваться…

построение рейтингов в твитере на основе того, что написано здесь — идеальная программа для анализа заинтересованности внутри сообществ.
Соответственно к тем, кто в топе применяются партнерские отношения и предложения, тем кто внизу — мотивационные.

— Организация баркемпов, акций
— Анализ сегмента для прощупывания почвы в сфере рекламы и PR
— Нахождение опытных учасников в теме, которая интересует с професиональной стороны или со стороны развлекаловки… ю
— …
Огромное спасибо.

Если не секрет, насколько большие сообщества вы исследовали?
Возмножно ли с помощью данных библиотек обрабатывать граф, ну допустив русскоговорящего сообщества Твиттера (около 100 тыс. акаунтов)? Какие требования к памяти?

Запускали на GAE?
Другие сообщества не смотрел, т.е. не больше 250 узлов.

Код на C++ для расчета кластеризации, который выложила бельгийская группа, использовался в их статье arxiv.org/abs/0803.0476 Там они проанализировали бельгийского оператора сотовой связи (2.6 миллиона узлов). И веб-граф с 118 миллиона узлами.

О требованиях к памяти не задумывался, но, скорее всего они пропорциональны сумме числа узлов и ребер, т.к. модулярность оптимизируется более-менее локально.

В этих упражнениях мною двигало любопытство, а чтобы браться за большие графы должно быть видение какой-то выгоды, пока его особенно нет.

На GAE не запускал. Все-таки не вижу это как единое веб-приложение, а как набор скриптов для анализа. Еще и много сторонних библиотек.
Не получится так просто взять и запустить на GAE. Алгоритмы обработки графов предполагают что все данные уже находятся в оперативной памяти и не думают как их эффективно вытягивать и сохранять в datastore. Я в своей системе рекомендаций строю граф твиттерян и выполняю по нему поиск. Количество узлов около 20 000. Но использую специальный алгоритм, оптимизированный под хранилище AppEngine.
>Другая корпорация недавно воплотила максимально упрощенный вариант этой схемы, продавая свои новые телефоны влиятельным узлам социального графа за $0, а остальным за $530.

>Другая корпорация
Google?
>продавая свои новые телефоны
Nexus One?
>влиятельным узлам социального графа за $0
Тим О'Рейлли? (например)
>а остальным за $530
=((((((
В моей потоке промелькало упоминание Fred Wilson :)

Все же не расстраивайтесь так. Это бизнес. Любопытный пример маркетинга.
Спасибо большое, очень люблю эту тему, в своё время тоже зачитывался Сегараном :)
:) О! А я о том, как визуализировать соцсети графами защищал диплом бакалавра свой. Правда я не кодил, а разрабатывал концепт визуализации большого-большого графа. Но воспоминания об этом всем остались исключительно теплые.
Спасибо, отличная статья! Вообще открытый социальный граф — это то что мне очень нравится в твиттере. Он абсолютно доступен через Twitter API. Есть еще хоть одна популярная соц. сеть, которая позволяет скопировать часть графа на свой сервер и работать с ним?
identi.ca/ — аналог твиттера, полностью открытый и распределенный, пока массами не принимаем.

В декабре некоторые новостные сервисы шумели о том что wordpress.com а потом tumblr.com реализовали Twitter API. То есть Twitter API постепенно становится стандартом. Не знаю до какой степени социальный граф можно привязать в этих двух сервисах.

Facebook, в принципе, дает доступ к графу через API. Тут проблема в том что можно по настоящему считать проявлением социального графа. В заметке я выделял тех, кто общается и упоминает, а не фоловит. В Facebook тоже имеет смысл выделять тех, кто отмечен на одной фотографии, пишет на стену… Только такие вещи часто закрыты пользователями.

ЖЖ тоже дает некий граф, но из него все надо делать руками (не через API), хотя может быть я просто не знаю о его существовании.

Вот еще один интересный проект от Google (API объединяющий многие социальные сети)
code.google.com/apis/socialgraph/

Facebook, насколько я понял их terms, запрещает сохранять информацию порльзователей, в том числе список их друзей, на своем сервере более чем 24 часа.
Only those users with full accounts are able to leave comments. Log in, please.