Pull to refresh

Comments 237

Анна (Аня, Анюта, Анютка, Анечка, Anna, Настюша)… Нстюша?? O_o
Alex и Алекс тоже скорее к Алексеям, чем к Александрам относится.
Извечный вопрос интернета: «Алекс» — Алексей или Александр? :)
Для кого извечный, а для кого и давно решённый.
Меня зовут Александр или Саша. К этому и я и все окружающие давно привыкли. Есть пара друзей Алексеев, которых все называют Алекс или Лёша, и к этому окружающие давно привыкли.

Ну и с новыми людьми, Александра я никогда не назову Алексом а Алексея Сашей например. Для меня это и есть решение.
Ну в принципе я так же.
но бывает когда подписываешься в письме «Алекс». (Меня Алексей зовут)

а в ответ: «Хорошо, Саш… „)
Ну тут да, всех в своих взглядах не убедишь. Есть пара человек, которые постоянно в переписке меня Алексом называют, каждый раз аккуратно поправляю, к сожалению безрезультатно.
Но всё же назвать Александра Алексом это не тоже самое что названить Алексея Сашей, согласитесь)
Соглашусь, жаль что это мало что изменит и наши имена будут продолжать путать.
Да, согласен. главное чтобы те с кем чаще общаешься быстрей привыкали)
Я сам Алексей, но никогда себя Алексом не назову, только Alexey. По мне так Alex — Александр.
А вот что больше раздражает, что на картах и т.д. пишут Aleksey!
На картах, обычно, в анкете спрашивают, как писать.
В Банке Москвы в анкете был такой пункт. В СберБанке — сами пишут, как хотят. Еще в 3-4 тоже сами писали…

А вот какие проблемы были у парня на почте, чтобы получить посылку, когда я в его заказе указал Alexander Alexashin… теперь всегда только Aleksander Aleksashin. А то бабульки всякие бывают на почте…
подумаешь… мои Ilia или Ilya бабульки, в большинстве случаев, читают как «Юлия». решается простым «nigga please» выражением лица и/или отсылкой к стандартам транслитерации.
У меня две сберовские карты, там тоже прикольная система — на одной карте фамилия сформирована по одному правилу транслитерации, а на другой — по другому!
Разница в выдаче — 6 месяцев.
Даа, это бывает тоже. реально бесит. помню в союзбанке заказывал. написал в анкете alexey. карта пришла — aleksey.
да, потому что нет в русском языке буквы x, а k и s есть.
А я вот не соглашусь. Потому как акромя русского языка есть ещё например, английский, где Alex — сокращение от Alexander.
Alexey тоже сокращается в Alex, или Aleksey -> Aleks.
Алекс больше к Александрам :) я пример :)
Опровергаю. Алекс больше к Алексеям. Я пример :))
Ну и я, чо уж тут. С фидо срач ещё идёт. ;)
Ну если в международном смысле рассматривать, Alex — сокращенное от Alexander. Хотя я использую Alexander, чтоб не перепутали.
А почему по нику Александр? :)
Алекс — НЕ Александр… откуда такое повелось? :)
Вот, википедия вещает: Алекс — сокращённый вариант имени Александр и, иногда, Алексей. Такое сокращение наиболее распространено в Северной Америке и Европе.
Немцы, к примеру, Аелксами называют Александров. Наверно, ввиду того, что Алексеев у них меньше =)
А я вот не могу понять, почему некоторые считают Алекса Алексеем? Алекс — это для буржуев, чтобы не писать Aleksandr или Alexand. А с учетом того, что в английском варианте никаких Алексеев нет, то сразу становится понятным, кто такой Алекс.
Ну вот я например, когда в другой стране, говорю, что я Алекс, т.к. это удобнее для иностранного произношения.
А я Александр. Даже ники немного схожи :)
Александры выиграют битву за «Алексов» потому, что Александров по статистике больше в два раза, соответственно можно вывести корреляцию что из трёх Алексов два будут Александрами. Нам, Алексеям, остается только партизанить в этой войне :-)
Александров и Алексеев естественно примерно поровну, а то, что у автора статьи получалась такая разница как раз и говорит о том, что он отнёс большую часть Alexов и Алексов не к тому имени.
По статистике имен в России, Александры все равно выигрывают у нас (Алексеев) в полтора-два раза :(
Ксюша и Оксана вроде как одно и то же.
Вики говорит, что нет.
А Ксения тогда, по вашему, кто?
Оксана это украинская разговорная форма имени Ксения.
UFO just landed and posted this here
Ну, раз автор объединил украинские написания имён, то и Ксюшу с Оксаной можно было бы.
Да, только вот для паспортных столов Оксана и Ксения разные имена.
UFO just landed and posted this here
Сашка, Саня, Александр Родионович Бородач)
а меня больше порадовали фамилии. Большая часть фамилий — производная от того кто твой отец:
Иван — (чей сын?) Иванов
Алексей — Алексеев
Поп — Попов
и тд.

Вечело смотреть на фамилию Козлов в этом списке. Наверное старинных женщин тоже часто бросали…
Орлов, Соколов, Баранов, Бобров, Коршунов… прямо индейские традиции…
> Большая часть фамилий — производная от того кто твой отец

Недавно читал в одной статье про коллективизацию, что многих крестьян записывали в паспорт подобным методом.
в исландской традиции, да и вообще скандинавской ещё интереснее — там сразу указывается сын ты или дочь, например, отец Андерс, ты будешь Андерссон, если сын или Андерсдоттир если дочь :)
Т.е. Бьорк Гудмундсдоттир — это как, Гудмундова дочь?
именно
у исландцев фамилий в нашем понимании нет, они «обновляются» с каждым поколением
Зато может быть Нюша или Нюра =)
Нюша — это, простите, кто? Розовая свинья из Смешариков?
UFO just landed and posted this here
Какая тут может быть монетизация? Да, на домашнем компьютере лежат все ответы сервера в JSON, каждый профиль содержит id, имя, фамилию, ник, пол, дату рождения, город, страну, таймзону, ссылки на текущую аватарку, телефоны, университет, факультет и рейтинг. Собственно, почти вся информация есть в посте.
Базу продать, деньги — пропить.
Всё равно базу можно с пользой использовать: эдакий «кэш запроса к API». Т.е. если надо получить социальные данные пользователя своего сайта, который авторизовался через Вконтакте, то можно сначала получить их из этой базы, а потом уже для надёжности «прочекать» дополнительным запросом к API.
Хм, а разве стандартные запросы к АПИ без авторизации пользователя позволяют всегда доставать данные по телефону и нек. другим полям?

+ еще настройки приватности ни как не учитываются.

статистика по наличию телефона явно не верна, сейчас почти всех принудительно заставляют привязывать аккаунты к номеру. А то что вы не можете инфу получить эту, это уже другой вопрос
Само собой, что под «не указан» попадают ещё и случаи, когда поле скрыто от всех пользователей.
Браво
Это настолько масштабно, что даже сразу в голове не укладыватеся)
А откуда пики на первых числах месяца?
Думаю, по тем же причинам, что и на первом января: люди не хотят указывать реальное число.
На мой взгляд помимо этой таблицы нужно было сделать еще одну, приведенную, где количество родившихся первого числа примерно уравнять с другими числами. Получим неправильную статистику по первым числам, но зато более детально увидим реальное распределение, ибо сейчас гистограмма плоская из-за пика 1 января.
Наверное, при регистрации фейков, чтобы не париться укзывают первое число
Обратите внимание на рождённых в конце февраля :)
Ну это и логично. 29 февраля не каждый год бывает, так что таких должно быть в 4 раза меньше. А если учесть, что родители могли попросить не указывать 29 февраля в качестве даты рождения, то таких будет еще меньше.
Ну да, верно. А ещё, раньше ВК можно было задать 30/31 февраля.
> А если учесть, что родители могли попросить не указывать 29 февраля в качестве даты рождения
зачем?!!!
чтобы у ребенка не был ДР раз в четыре года, очевидно)
особенно первого апреля
UFO just landed and posted this here
UFO just landed and posted this here
Еще возраст можно определять по по году окончания школы
Это однозначно :)

— Тебе сколько лет?
— 20!!!
— А в каком классе?
— 9!
Ник: katty-love
Имя: Катя
Фамилия: <скрыто>
Год рождения: <скрыто>
e-mail: pupkina1989@mail.ru
Я скрытые поля восстанавливаю через поиск.
Выставляю известную мне информацию в фильтр, чтобы однофамильцев и т.п. было как можно меньше.
Когда колво выходит разумным, я добавляю другие параметры, включая возраст. Методом половинного деления возраст определяется быстро.
Аналогично семейное положение достается…
В массах пропарсить будет сложновато, но в единичных случаях ручками легко можно много чего выкопать :)
Многие из тех, кто скрывают возраст, не скрывают год выпуска из школы/вуза, так что определить возраст не проблема.
Примерно определить. В школу можно пойти в 6 или 7 лет. А ещё можно проскочить через 4-й класс.
Итого ошибка — 2 года.
Да, конечно. Но это не такая уж и большая ошибка ;)
Я в шестом не был, например. Из пятого в седьмой.
А мой друг при этом еще и в 5 лет в школу пошел… Так что ему только исплнилось 18, и он уже на третьем курсе
у меня такая же ситуация, в 4.5 пошел в школу и сейчас закончил третьий курс)
UFO just landed and posted this here
Познавательно. Спасибо за гайд.
Удивил пиковый возраст. Я думал, что Вконтакте «старше». А выходит, что большинство пользователей 1985-1989 г.р.

ps Распространенное мнение, что Вконтакте сугубо питерская социальная сеть не нашло подтверждения.
А я думал, что вконтакте младше. Людей 20-25 лет «школотой» как-то не назовёшь.
«Школота» не характеризуется лишь возрастом. Скорее — типом мышления.
Пренебрежительное обозначение социальной группы не характеризуется лишь свойствами, определяющими принадлежность к этой социальной группе. Скорее — исключительно негативными свойствами, обычно ей присущими по мнению автора высказывания.

Сколько раз я слышал этот аргумент от людей, называющих евреев жидами и гомосексуалов пидарасами! Используйте какое-нибудь другое слово, если хотите быть правильно понятыми приличными людьми.
UFO just landed and posted this here
Это «распространённое мнение» распространено сугубо среди питерских?
UFO just landed and posted this here
Думаю, что точность данных соизмерима с нашей переписью населения.
На самом деле, неплохо было бы оценить погрешность всех «измерений». Думаю, это вполне реально сделать. Просто числа типа 196474 меня как физика немножко выводят из себя (:
Действительно интересная статистическая информация.
Филиал вуза считался за отдельный вуз или входил в его множество?
Считались уникальные названия ВУЗов.
Не понял. Выходит, вы только головное отделение ЮУрГУ учли?
Скорее всего, так и есть.
«А или Бэ?» — «Да» Вы не отвечаете на мой ответ.
Мне неизвестно, как ЮУрГУ числится в базе ВКонтакте: всё под одним названием, или каждый филиал отдельно. Если всё вместе, то филиалы учтены, в обратном случае нет.
Скорее всего под разным, потому как вуз в их базе может быть расположен только в одном городе. Таким образом у них описано несколько вузов, из-за чего статистика по ЮУрГУ сразу кажется неправдоподобной.
А можно такое же сравнение пользователей Одноклассников и ФБ? В одноклассниках, наверное, средний возраст 40+ и провинция доминирует, а в ФБ только жители «продвинутых гАродов».
Самое время продать данные в Роскомстат или аналогичную контору :)
Так, собственно, деньги надо делать на актуальности информации.
Интересно, что ВКонтакте не отреагировал на 40 запросов к API в секунду в течение 18 дней с одного IP.
Неудивительно. Особенно яростные пользователи вконтакте умудряются делать более 50 без всяких API.
Надо сделать приложение «Измерь свой RPS!»
Больше всего удивило, что Андреи популярнее Алексеев и Дмитриев, а также относительная непопулярность Маш и Миш.
В разные годы разная популярность имен. Возраст распределен неравномерно, поэтому здесь может быть искажение за счет тех, кто родился 20-25 лет назад.
Блин, я тот самый Андрей, рождённый 20-25 лет назад.
Искажаю статистику. Дорого.
Запарсить весь контакт — это круто. Интересно было посмотреть на распределение возрастов и статистику по именам-фамилиям.

Но большая часть приведенной статистики, на мой взгляд — абсолютно бесполезна. Например наличие того или иного параметра в анкете, какие из этой информации можно делать выводы? Я бы их вообще убрал и разгрузил статью.

Интересно было бы посмотреть на более глубокий анализ, например, взаимосвязь возраста (или пола) и:
— количества друзей
— активности
— количества фотографий
— интересов.

Конечно, если эти данные тоже запарсены.
Понимаю, тогда вопросов нет.
Весьма интересные средние показатели!
Весьма интересный средненький коммент!
Между средним и средненьким весьма глубокая и, не побоюсь этого слова, статистическая разница.
Давно хотелось бы проверить «правило 6 рукопожатий», тем более, что сейчас у большинства активных пользователей открыты списки друзей.
Ну или хотя бы скрипт, который по введёному id возвращал бы количество (в идеале — список) его знакомых 1..6 уровня.
Да, ищет неплохо, но хотелось бы полный список, а не до конкретного человека.
Обалдеть как тесен мир вконтакт.
UFO just landed and posted this here
У меня более 200 друзей вконтакте и каждого я знаю лично.
Там же не только близкие друзья, атм еще и друзья по школе, детским лагерям, университетам, службе и прочее.
UFO just landed and posted this here
Канал самопродвижения, особенно для «яфотографов».
На мой взгляд, число в районе 200-300 — ещё вполне реально (особенное, если человек более-менее активный или, например, просто приходилось переезжать в другой город).

Сейчас проверял vkontakte.ru/fchain, исключая из поиска людей с количеством друзей более 400 — цепочки всё равно находятся.
Вот так и девальвировалось понятие «друг».
Возможно, я — олдфаг или просто асоциальная личность, но друзей, в моем понимании этого слова, у меня двое.
Слово олдфаг выдает не-олдфага :)
Понятие относительное. Для многих, здесь присутствующих, я могу показаться зеленым юнцом, а некоторым — оказаться папой.
Точно так же, как относительно понятие «друг» :)
Лично для меня, понятие «друг» однозначно.
Нельзя быть немножко другом кому-то. Можно либо им являться, либо не являться. В русском языке полно слов с близким значением: приятель, знакомый, товарищ…
Возможно, моё представление ошибочно…
в социальных сетях можешь заменить это слово на френда)
Круги в этом смысле намного более точное определение.

Потому как в жизни у меня друзей по одной руке можно пересчитать.
Там фигурируют friends? Эмоционально нейтральнее.
Там вы сами вольны распределять пользователей по Кругам: Друзья, Семья, Знакомые. Записи или видеоконференции можно ограничивать конкретным кругом.
Хитрость ещё в том, что в G+ более легкомысленное добавление «друзей». Во вконтакте надо принять предложение, а в G+ надо всего лишь перетащить пользователя в соответствующий круг.
Но заменов Vk этот сервис пока что вряд ли является. Сыроват )
Если честно, меня не интересуют социальные сети, как таковые — общения мне хватает и так: личного, телефонного. Мне ни разу в жизни не понадобилось уведомлять сразу весь узкий круг людей, с которыми я постоянно общаюсь, о каком-либо событии. Таким образом, я не вижу смысла держать аккаунт в любой соц-сети, независимо от используемой терминологии. Да, Вконтакте я зарегистрирован, с минимальным необходимым набором данных — вдруг кого-то из тех людей, связь с которыми я потерял, захотят меня найти (может быть, я буду даже рад этому), но последний раз я заходил пару месяцев назад — уведомления приходят на почту, а общаюсь я в реале.
Пару дней назад была здесь статья, в комментариях к которой разгорелось обсуждение поведения и мотивов различных типов людей — «иррационалов» и «рационалов». Так вот я — «рационал», похоже.
Ну, друзья в социальной сети — совсем не то же самое, что и друзья в жизни. С эти, думаю, никто спорить не будет.
Оно не девальвировалось — это просто ВКонтакт перевёл friend как «друг». Есть и другой вариант перевода — «знакомый», «коллега». Мне кажется, что создатели фейсбука не имели ввиду дружбу в нашем понимании этого слова.
UFO just landed and posted this here
я думаю что нет смысла с друзьями общаться через социальные сети. Друзьями в прямом смысле этого слова )
Так я живьем и общаюсь. Соц-сетью вообще не пользуюсь.
Это второе наше с Вами совпадение. Первое было выше, насчёт перескакивания через 6-й класс. Тут уж и в профиль не гляди, ровесник.
Глянул, все таки, в профиль. Разница ровно в полгода, даже день совпадает.
Не вижу ничего некорректного в цифре 1000 или 2000.
У меня в районе 350 и постоянно растёт, среди них не видел лично человек 5 только наверное. Знаю людей с кол-ом друзей более 1000, и они всех видели лично и могут имя каждого вспомнить.
Все-таки число активных социальных связей не превышает 200 :) Число Данбара.
По-моему мнению очень сомнительно применять тут число Данбара.

В любом случае число Данбара это единовременный срез. А список друзей ВК — множество людей с которыми когда-либо персекался (и при необходимости можно пересечься еще).
Вот о том и речь, что это не активные социальные связи, в список личных контактов.
Pacman!
Простите, не удержался.
А такой вопросик. Когда пользователь говорит что данные нужно скрывать от всех кроме друзей — эти данные все-равно через API доступны?
Нет, через API отдаётся только то, что видно всем. А если делать запросы от имени какого-то пользователя, то покажется то, что доступно ему.
В роддоме Октябрьского района Екатеринбурга в 1993-ем году, всего один, насколько я знаю.
образцовый комментарий =) спасибо, что держите нас в курсе даже по прошествии более двух лет после обсуждения этой темы
Ох, буквально вчера кого-то некропостером называл.
Иванов Иван Иванович отменяется. Всем срочно менять имена на Иванов Александр Александрович или Иванова Екатерина Александровна.
Круто, серьёзный подход!

Когда открыли списки друзей, у меня появились подобные идеи, но больше с уклоном в анализ социального графа. Я даже начал писать тулзу (скриншот:
), но погода сейчас не очень способствует кодингу, так что двигается медленно. Вместо API использую вызов к vk.com/al_friends.php?act=load_friends_silent&al=1&gid=0&id={1} — возвращает список друзей по id в json.

Первая цель — проверка «теории рукопожатий», а дальше тоже думал какую-нибудь статистику интересную собрать.
Здорово! Надеюсь увидеть на хабре ваш топик, когда доделаете!
Недавно спарсил социальный граф хабрахабра, тоже была идея сделать что-то подобное, с поиском возможных друзей и т.п.
UFO just landed and posted this here
Как дипломатические связи в Civilization =)
Интересный запрос — он показывает не только список друзей, но их доступность онлайн.
Да, этот запрос выполняется, когда заходишь на страницу друзей (своих или чужих) и скроллишь вниз — он подгружает весь список. Фиддлером выловил. Чтобы получить друзей через API — нужна авторизация, как-то там муторно всё. А здесь я просто использую WebClient, которому подсовываю единственный cookie со своим remixsid, и дело в шляпе.
Неодижанно, что распределение дней рождения примерно равномерное по году. Я думал, что больше всего летом, дальше весна-осень, и меньше всего зимой.
Спасибо за информацию!
А вот сколько я видела гламурных девочек из урюпинска, которые ставят себе ВУЗ МГУ…
> Ожидаемо, что лидирует 1 января, а также наблюдаются скачки 1 числа каждого месяца.
Я об этом писал примерно год назад:
albom85.livejournal.com/22118.html
Замечательно, ждем срез по религиям и интересам )
«Иванов, Кузнецов, Смирнов» пришли на смену классическим «Иванов, Петров, Сидоров».
Интересно, если, например, сделать так: выложить всю отпарсенную информацию на другой хост, прикрутить продвинутый поиск, сортировку и т.п. и повесить кучу рекламы. Будет ли тогда Дуров и компания предпринимать какие-то меры для обнаружения и наказания создателя такого сайта?
пипец просто, всякий берёт и через API получает всю инфу.
понятно, что социальные сети созданы не для приватности, но не в таком же виде…
одно дело доступ для правохранительных служб, а другое доступ простым смертным…
я правильно понял… через веб-браузер шиш тебе заход на страницу, а через API можно?
Нет, неправильно поняли. С помощью API можно получить только ту информацию, которая и так доступна пользователям в браузере.
По моим личным наблюдениям очень значительная часть школьников указывают МГУ как ВУЗ. Видимо «так круче».

Кажется отсюда такой высокий процент МГУ'шников =)
Не круче, а «я мечтаю туда поступить». Как правило, указывают предположительный год окончания ВУЗА, так что отсеять таких легко.
Ну, МГУ (им М.В. Ломоносова!) достаточно большой ВУЗ. Я как-то что-то про 40 000 студентов слышал, так что вполне-вполне возможно.

Но я не отрицпю и вашу версию =)
Закончил в прошлом году СПбАФТУ. Глянул в поиск и с удивлением обнаружил, что вместе со мной выпустились 156 человек, тогда как на всего на потоке училось меньше 50 студентов :-/
Может быть были еще заочники / вечерники? + потоки специалистов все еще выпускаются вместе с потоками бакалавров.
Точно нет. У нас очень специфический ВУЗ. Обучение проводится только по магистерской программе, заочников и вечерников нет вовсе. Весь выпуск я знаю лично. Даже если бы и были заочники, то не в 3 же раза больше обычных студентов.
В общем, это не секрет, что очень много людей указывают в профиле ложную информацию о ВУЗах, лишь бы название было поумней. Кто-то не хочет указывать своё единственное убогое ПТУ, кому-то стыдно, что никакого института не осилил, кто-то спамер и т.д. Так что приведённая здесь статистика по ВУЗам не говорит абсолютно ни о чём.
Да уж что, может скопировать всю базу? сколько потребуется ресурсов?
Если не выкачивать фото-видео-аудио-аватарки — не так и много. Не думаю, что 130 миллионов записей займет больше полусотни тер.
Гораздо меньше, раз в 10, если хранить данные в MySQL.
Да, пожалуй… там же один текст сплошной получится.
подобный пост уже не первый)
может объеденим усилия и замутим всю эту красоту в виде приложения?
могу предложить жирный канал для сбора статистики!
А что за приложение вам видится? Какие функции? Я выше писал, что делаю нечто такое потихоньку. Интересно было бы услышать идеи.

Вообще тут две задачи — выкачать данные и проанализировать их. Надо, наверное, отдельную тулзу, которая выкачает максимальное количество информации (включая списки друзей). Коллективным усилием можно будет весь каталог за небольшое время стянуть, если каждый на себя по несколько тысяч возьмёт. Вопрос — как хранить? В какой-либо бд? Или лучше в csv, для универсальности?

И отдельный тул для анализа статистики, связей социального графа, и др.
Серега ТочныеРепликиШвейцарскийЧасовПокупамСрочно!!!? :)
так а сколько в итоге живых пользователей в абсолютных числах?
Чуть больше 28 миллионов.
имхо, зря типичную катю иванову в мгу записал, там ведь всего 2% учатся (в том числе и в мечтах)
Илья, а какую БД вы использовали? Это же было desktop приложение, как я понял.
Никакой БД, всё в текстовых файлах.
Спасибо автору за столь интересное исследование.
А можно попросить сегмент базы, только пользователей из Украины?
Хорошо, ночью выложу.
вроде не писали.
насчёт расстояния между пользователями, кстати, есть такое приложение:

Цепочка друзей — теория шести рукопожатий
vkontakte.ru/app2153400
Да, на месте вконтакта я бы закрыл это )))) уж больно много можно вычислить.
Не администрация Вконтакта вкладывает личные данные пользователей. Это дело рук самих пользователей, а автор топика использовал доступную всем информацию, только собрал её и систематизировал.
альтернативная перепись населения =) автор молодец!
черт возьми, а я ведь действительно родилась 1 января и в МГУ училась )
посредственность! :)

кстати, было бы забавно реальную Катю Иванову 1988 года рождения из МГУ найти

P.S. а, нет, нашла, не забавно ))))
У меня родственница — Катя Иванова, закончила МГУ, но родилась в 197… (каком-то) году :) В контакте ее нет.
Всероссийская перепись хомячков 2011
Блин. В каждом графике увидел себя… У меня паранойя :)
Воооон тот пиксель, да? )
У кого год не указан, у тех все равно его узнать довольно просто. Надо всего лишь сделать поиск по указанным в профиле данным (имя, фамилия, город, ВУЗ) и указать в параметрах поиска интервал, когда предположительно человек родился. А дальше — игра в «угадай число». Ставим разные интервалы и через несколько попыток узнаем-таки год рождения.
Сильно врет статистика фамилий.
в исследовании: Григорьев 36 063 0,13% (м и ж объединены)
вводим в поиск вконтакте: «григорьева» 61 879, «григорьев» 54 765, итого явно больше.
Статистика только по активным пользователям же. Какой вам смысл от анализа профилей фейков и спамеров?
«Поскольку статистика по всем учётным записям, включая забросивших профиль два года назад и спамеров, мало кого интересует, было решено получить список всех активных пользователей.»

Эммм, а спамеры не могут быть активными? ) Многие практически всегда онлайн )
Со спамерами ВКонтакте довольно успешно борется, у меня уже порядка года не было спама. Поэтому многие из них как раз оффлайн.
Видимо в статитстике по вузам есть ошибка/опечатка. Если МГУ с 120 тысячами составляет 2,4 процента, то 50 тысяч МГУ вряд ли могут быть 0,18%.
Спасибо за внимательность, поправил. Видимо, изначально процент МГУшников считался от тех, кто указал университет, а процент остальных — от всех активных пользователей.
А сколько реальных людей (за вычетом ботов, спамеров, анкет проституток и прочей фигни, которые тоже появляются онлайн и могли быть посчитаны)?
У меня не было такого количества свободного времени, чтобы вручную смотреть и фильтровать все профили :)
Думаю, что резкое преобладание Ивановых связано также с фэйковыми аккаунтами или нежеланием указывать реальную фамилию.
Иванов, Петров в первой пятерке. Надеялся увидеть Сидорова тоже, но нет.

Кстати, орфопроверка Chrome не признает фамилию «Петров», но не ругается на «Петрова» :)
О да, контакт очень вкусен в плане статистики и социальных графов. Сам интересовался в своё время, но писал обычный PHP-парсер, потом graphviz'ом рисовал. Вопрос в том, что делать с получившейся картинкой. Ещё в то время, когда друзья закрыты были, аккаунт с 250-ю друзьями образовывал множество друзей друзей мощностью в 30000 человек, из которых примерно треть имели минимум двух общих. Могу уверить на личном опыте, что визуально оценивать графы с количеством людей более трёх тысяч — ой как затруднительно. Но, тем не менее, забавно находить цепочки друзей, о которых, естественно, даже не догадывался.

Мне лично очень интерено, какие численные данные можно получить из математического анализа графа. Ну, кроме числа шесть, конечно.

Если кому интересно, могу показать, как выглядят такие графы. Вот небольших размеров, ну и побольше (этот без аватарок, инет галим).
image
Что-то не то с распределением по странам. Взять к примеру Казахстан: как я ни считал, таблица с диаграммой не бъется.
Торрент с базой в виде таблицы, поля разделены табуляциями, размер — 25ГБ
А пожать нормально можно? 7zip например.
Я посмотрю, что можно сделать (сейчас у меня нетбук и узкий аплоад).
Обновил пост, забирайте.
* А что за поля в этом csv файле? Некоторые поля это похоже просто id и догадаться сложно без имен столбцов.
* Есть ли у вас словари для столбцов с id?
Поля в том же порядке, что и запрашивались с сервера (uid, first_name, last_name, nickname, sex, bdate, city, country, timezone, photo, photo_medium, photo_big, photo_rec, contacts, home_phone, mobile_phone, education, university, university_name, faculty, faculty_name, graduation, rate, counters).
Есть словари для городов и стран. Обновил топик.
Про активных — у ФБ есть отличный показатель — MAU — month active users — посчитать бы его для VK было бы очень сравнительно :).
Какой простор для социо-демографического исследования
Будем чем загрузить SPSS :)
А что вы, собственно, на этих данных можете там посчитать? Они же все номинальные. Разве что «Сколько Наташ живёт в Краснодаре?».

Лично я здесь кроме сопряжения городов/полов с вузами/факультетами ничего интересного не вижу.
>17 дней 21 июня — 7 июля
>Как видим, прирост активных пользователей стал достаточно мал, чтобы ими можно было пренебречь.
Вполне возможно, что вы попали в локальный экстремум. Это лето, многих там нет. К тому же летом многие игнорируют интернет, отпуска и всё такое.

Но в любом случае лучше статистику месяца 3 собирать, чтобы делать окончательные выводы о количестве активных пользователей.
На мой взгляд, эти данные интересны в первую очередь с точки зрения того, какой процент различных атрибутов пользователи держат в открытом доступе. Судя по вашим данным, информации не так уж и много.
Sign up to leave a comment.

Articles