Как стать автором
Обновить

Комментарии 30

Есть twirating.com
Но у них цифры как минимум на порядок ниже
В twirating всего 88 городов присутствует же)
У вас на карте я могу различить три оттенка, а в легенде их четыре. Сколько не вглядываюсь так и не могу понять где четвертый. Та маленькая точка, да?
Питер, полагаю.

Если речь о самом темном оттенке (наибольшее кол-во пользователей), то да — две маленькие точки — это Москва и Питер. Если я не угадала, какой оттенок вы не можете найти, расшифруйте, пожалуйста ;)
Да самый темный. А в каком из этих двух городов 20.6%?
ВКонтакте за май+июнь в Санкт-Петербурге. Авторы за май и июнь так же подсчитываются только уникальные. Если пользователи написал одно сообщение в мае и одно в июне, то он считается как один автор.
Просветите, как осуществлялась «привязка» пользователей к региону? Особенно интересует Twitter. А то в способе учета только про активность.
Географическое положение авторов определяется автоматически. Как именно это происходит мы не можем раскрывать, по вполне понятным причинам.
Честно говоря, причины мне абсолютно непонятны. Я же не спрашиваю пошаговый алгоритм. Меня просто интересует, какие поля user-object используются? Определяемый самим пользователем location (указанный далеко не у всех), time_zone (выдающий иногда «космические» результаты), может быть вообще из твитов гео-термины извлекаются (было бы круто)?
Могу только сказать, что это не «определяемый самим пользователем location» и не time_zone :)
У нас используется собственный алгоритм геолокации, основанный на сложном много-параметрическом анализе как профиля автора, так и его сообщений и окружения
Список доступных для сбора/анализа полей профиля пользователя доступен по ссылке в предыдущем моем комментарии. Если это не time_zone и не location, то даже боюсь предположить, что именно вы используете. Name? Profile_image_url? Followers_count? Просто названия полей. Без тонкостей. По поводу анализа сообщений — известно же, что напрямую геотегированы порядка 1% всех сообщений. Остальные опять оценены «собственным алгоритмом геолокации»?
Тогда дайте accuracy&precision оценки вашего алгоритма. Пока самый лучший из известных мне алгоритмов способен «предсказать» локацию пользователя в 79% случаев с точностью в 100 миль. Это для мира. Если сосредоточиться только на России, оценки неизбежно ухудшатся.
Но даже с такими оценками говорить о превосходстве над данными социологических служб надо аккуратнее.
Мы не говорим о превосходстве над классической социологией)) Мы говорим о разности подходов и методов. В частности, классические опросы, например, не позволяют проводить исследования на столь широкой выборке. Это означает, очень упрощенно конечно, примерно следующее: опросили 1000 москвичей, из них 500 пользуются ВКонтактом, вывод — 50% москвичей пользуются ВКонтактом. Мы же фиксируем только тех, кто действительно пользуется. То есть наши данные — это голые факты, они не нуждаются в тиражировании и т.п.
Поэтому мы и говорим, что наши данные носят не декларативный характер.
Второй момент — счетчики заходов и т.п. — нам не интересны посетители, которые заходят послушать музыку и посмотреть кино. Такие данные актуальны, например, для рекламодателей, и они считаются многими, в том числе и с гео. Нам же интересны активные пользователи — авторы публичных сообщений, так как именно они формируют общественное мнение, создают мемы и так далее. Поэтому мы собираем, считаем и геолоцируем, и анализируем именно их — активных авторов и их публичные сообщения.
Как мы это делаем — это наши технологии, разработанные нами алгоритмы, которые просто нельзя разглашать.
Думаю, что большинство читателей хабра осознают разницу между соцопросами, счетчиками и вашим подходом по оценке аудитории. Все они имеют свои плюсы и минусы, каждый показывает что-то свое, но глобально вроде бы все «об одном».
Прелесть вашего подхода — в объемах данных, основной недостаток — необходимость оценивания параметров (в данном случае — живости и геолокации).
Я хочу понимать степень достоверности ваших оценок. Фальсифицируемость — основной критерий научности. Соответственно, информация о доле «нетегируемых» вами пользователей только улучшила бы мнение о вас и вашем подходе. Вы же по какой-то неведомой причине в ответ на просьбу указать точность пишите о «разработанных алгоритмах, которые нельзя разглашать».
То же самое с ботами. Популярность проблемы отсева ботов сложно переоценить. И опять все упирается к оценкам: насколько хорош ваш алгоритм в сравнении с другими? Не могут быть секретными такие оценки.
Как я писала выше, мы анализируем не только данные профиля автора, но и его посты, твиты, комментарии и т.п. То есть, мы учитываем гео-данные из профиля автора, обновляем их при поступлении каждого нового сообщения. Учитываем гео-метки к сообщениям автора. Учитываем гео-информацию внутри сообщений. Делаем связку профиля автора с его профилями в других соцсетях, и учитываем гео-данные там. Прогоняем это все через наши гео-словари, чтобы привести данные из разных форматов указания гео к единому виду и сделать связку город-регион-страна. В итоге нам удалось поднять процент гео-определения автора с точностью до региона России: для Твиттера — до 45%, для ВК до 75%. Данные о количестве авторов в регионах России нормированы на коэффициент, рассчитанный для каждого региона индивидуально.
Спасибо! Как раз то, что и было интересно. К сожалению, не могу проголосовать.
Если еще не надоел со своими вопросами (на самом деле, интересно): почему используете свои словари, а не доступные свободно GeoNames или еще что-то? В свободных все так плохо?
Не за что) Свои словари — потому что в их точности мы уверены на 100%, про другие не могу ничего сказать по поводу точности, к сожалению
Позволю себе дополнить ответы CvetKomm: естественно за основу изначально были взяты открытые геобазы. Но пришлось их очень сильно перерабатывать и дополнять вариантами написаний городов, стран, регионов и т.п.

Поскольку множественные случаи одинаковых названий городов (Москва в России и Москва в США), то реализованы не только простые весовые параметры, но и лингвистические параметры — например, язык сообщений. Есть еще множество нюансов, но, в целом, думаю понятно :-)
Ага. Спасибо еще раз! В основном — понятно, нюансы — должны остаться в секрете.: о)
И еще один вопрос возник. Я правильно понимаю, что вот этот твиттер-пользователь вошел в число 451 039 активных пользователей-москвичей? В июне он твитил. Причем много. А сколько еще таких активных в Москве и других регионах?
Disclaimer: аккаунт для примера выбран совершенно случайным образом по спам-тегу #RT.
Спамеры исключаются из анализа, «пересчет ботов» лишен смысла)
По вашей карте я делаю вывод, что 15-20% населения Земли Франца-Иосифа регулярно сидит вконтакте. Примерно ты же ситуация на Ляховских островах в Восточно-Сибирском море.
в принципе, если там живет, допустим 100 человек, из которых 20 пишут что-нибудь в твиттер, то получатся те же 20%. Я так понимаю, если бы провели соответствующее исследование по странам мира, оказалось бы, что и в Гренландии все население очень любит твиттер
Земли Франца-Иосифа и Ляховские острова относятся к Архангельской области. Процент активности в ней — 10,4% за май+июнь ВКонтакте. То есть мы в данном случае говорим не о городах и районах, а о субъектах федерации, и геолоцируем авторов именно на этом уровне.
При чем, важно так же то, что мы определяем не тех, кто «сидит», а тех, кто проявляет публичную активность)
те, кто проявляют публичную активность, в указанной стране все чаще именно сидят )
Круто Вы с Архангельской областью — если бы не продали, Вы бы и Аляску к ней приписали? :))) А если серьезно — это ненаселенные области, там некому сидеть вконтакте, кроме чаек. В данном случае, ваша картограмма вводит читателя в заблуждение.
Это не мы, это официальные данные по составу субъектов РФ )))
Официальные данные по субъектам относят Ляховские острова Новосибирского архипелага к Якутии.
упс, не туда посмотрела. Вы правы, конечно, по поводу Ляховских островов. На карте и в таблице все так, ошиблась в предыдущем ответе, прошу прощения за дезинформацию )
Зарегистрируйтесь на Хабре, чтобы оставить комментарий