Как стать автором
Обновить

Комментарии 115

Как то не очень весело смотреть на график возраста Вконтакте. Получается, что больше всего там 11-15 лет, и это один из самых больших социальных ресурсов с порно***фией. Какое то зло…
Интернет вообще полон этого «зла». Пора уже привыкнуть, что в современном информационном мире бесполезно ограждать детей от информации. Лучше заниматься их воспитанием и образованием.
Ограждать проще же. Наша дума плохого не посоветует.
Я и не спорю.
Сам занимаюсь таким воспитанием. Если ребенок поймет почему это плохо, он не будет делать.
Если его ограждать, интерес иногда только усиливается.

Я не призываю убирать детей с контакта, я говорю о том что бы убрать порно с контакта. Или что, если мы воспитываем детей, то в порядке вещей выкладывать в соц. сети всякое «зло»?
Для начала в порядке вещей определиться плохо ли это. По российским законам плохо вроде как только незаконное порно выкладывать.
По нашим законам последних лет (с подачи Мизулиной, разумеется) выкладывание в интернет любого порно — тяжкое преступление, от 2 до 6 лет тюрьмы.
Эротика законна, но решать что это — порно или эротика — будут «эксперты», и результат тут известен.
Не любое выкладывание, а незаконное. Другое дело, что действует принцип «что не разрешено, то запрещено» и пока нет закона о порнографии любое порно незаконно.
Хотел вас поправить, указав где на самом деле порно, но потом посмотрел на возраст в профиле и решил, что не надо. Да, да, вКонтакте все порно — вКонтакте :)
график возраста Вконтакте. Получается, что больше всего там 11-15 лет

ВК максимальный год рождения в настройках — 1999. Отсюда куча людей с возрастом 14 лет. На самом деле этот пик на 14 — это суммарная масса тех, кому 14 и меньше. Мой племянник, например, был зарегистрирован ВК уже в 9 лет. И его одноклассники тоже.
Мне кажется, это печально.
То что зареганы — не печально. Печально, что они сидят там круглые сутки. Приходится их гнать в кружки и на секции, а дома пинать, чтоб уроки делали, вместо того, чтобы «налайкивать» друг другу в профилях. Но это уже, как выше заметили, от родителей зависит.
Для социальной сети это офигенная статистика — через 3-4 года можно будет открыть задвижку монетизации пошире :)
НЛО прилетело и опубликовало эту надпись здесь
Существуют исследования, в которых показано, что всякие сексуальные отклоненцы вырастают не из тех, кто в этом возрасте интересуется порнухой, а как раз наоборот, из тех, кто не интересуется.
Так что это скорее норма. Вот если никаких других интересов нет — тогда печально.
Порнография вовсе не зло. Исключительно полезная вещь. И именно из-за этого против нее выступают разные другие представители зла типа религиозных и политических деятелей. Надо им как-то заставить людей страдать.
Чтоб межнациональную рознь не возбуждать. На самом деле просто не догадался. Но именно для этого данные выложены в открытый доступ, и каждый может посчитать зависимость количества владельцев айфонов от религии.
Какой объем выборки удалось получилась по фейсбуку и одноклассникам?
ФБ — около 5 млн, ОК — около 10.
Очень неплохо!
А если не секрет можно рассказать:
1. Сколько потоков? Какие ресурсы были задействованы?
2. Как долго все работало?
3. Сколько аккаунтов использовалось и как боролись с блокировками?
Интересует фейсбук в первую очередь.

PS Позже посмотрю данные может еще вопросы возникнут :)
В двух словах, сбор ФБ — это боль, кровь, кишки и печаль, несколько месяцев сбора и несколько сотен неторопливых потоков. То, как оно работало под капотом, на публику выносить не хочу, ибо это все можно будет использовать не только во имя добра и луны.
Я с этой болью, кишками и печалью живу каждый день, так что хорошо вас понимаю :))))
Если чего, переедет к нам в Киев. Думаю работенка в КПИ ему найдется :)
Так и напрашивается продолжение: «Пройдёмте».
А каков процент политических взглядов «фошыст» во ВКонтакте? :)
Согласен, это была тупейшая шутка
Это очень печально, что политическая обстановка в стране не волнует 60-70% людей. Получается, что наш президент, наше правительство и все остальные люди просто напросто нелегитимны. Хотя это уже много лет подтверждается очень низкой явкой на выборах.
все остальные люди просто напросто нелегитимны

Слава роботам

Если серьезно, то, учитывая мнение юзеров того же ВКонтакте, больше всего люди верят в какое-нибудь «Сообщество Коловрата» или в «Возрождение СССР».
P.S. Вероятнее всего, «пофигистом» учитывают тех, кто просто не указал свою идеологию?
Нет, это «индифферентные» политические взгляды. График построен только по тем, кто хоть что-нибудь указал.
Многие пишут Умеренные взгляды, чтобы не раскрывать свои истинные политические взгляды- вера в Макаронного Монстра, например.

Многие „умеренные“ и прочие нейтральные формулировки — лишь способ не рассориться с френдами на темы, которые в других условиях не доводилось обсуждать :)
вера в Макаронного Монстра — это религиозные взгляды.
Которые вполне официально можно указать в своём профиле ВК, что делает эту социальную сеть макароноугодной.
Интересно было бы ознакомиться с политической программой макаронного монстра… И его планами на следующие президентские выборы.
А какие планы на следующие выборы у Гаутамы Будды, Иисуса Христа и Магомета?
Субъективно, но, считаю, что на самом деле «индифферентный» взгляд на политику не всегда означает равнодушие. Например, я не отношу себя к какой-то определённой стороне, но тем не менее, мне не всё равно. Т.е. мне близки разные мнения (не все) разных направлений, и в этом случае я бы указал «индифферентные», т.к. выбор одного из имеющегося было бы большой неправдой, нежели данный вариант.

А вообще, посмотрите ещё раз на график возрастов: мне печально за ребёнка, которого волнует политика — так ведь детство пройдёт и его не вернёшь.
мне печально за ребёнка, которого волнует политика — так ведь детство пройдёт и его не вернёшь
Ну меня допустим в детстве политика больше волновала нежели сейчас. Возможно, потому что телевизор в 90е чуть менее чем полностью был полон политики и захватывающего мордобития в стенах гос.Думы. Сейчас политики нет, одно название осталось.
Т.е. вы считаете, что это нормально, когда 10летний ребёнок «занимается» политикой? о_0
У нас с вами действительно разные взгляды на детей.
Что значит «занимается»? Речь шла об «интересуется». Не вижу в этом ничего плохого. Может вырастет активный член общества а не еще один потребитель.
Да, тут вы правы.
Но согласитесь, что в этом возрасте ребёнок, скорее всего, ещё не определился со своей политической точкой зрения?
Что ему в таком случае указывать в профиле?
Не знаю, я всегда был определившимся, сколько себя помню. Взгляды менялись, конечно, но из многообразия политических направлений всегда находил что-то подходящее, пусть и не очень распространенное (например такое)
ребёнок, скорее всего, ещё не определился
Скорее всего да. Или определился на весьма короткое время.
Что ему в таком случае указывать в профиле
Разве это имеет какое-то значение?
Разве это имеет какое-то значение?


В данном случае да, т.к. это влияет на статистику — речь-то о ней всё ещё идёт.
Равнодушие к политике большого числа людей скорее как раз означает легитимность властей — эти люди не против действующей власти.
В нашем случае — нет. Власть все 20 лет компрометировала выборы, как институт… Теперь никто не верит в выборность, а раз нельзя выбрать — зачем париться…
Вроде речь не ополитической активности, а о политических взглядах была.
Так этим 60% плевать на выборы. Своим «пофигом» они одобряют безвыборную систему власти.
И нивелируют крики о нелегитимности власти :) Ведь нелегитимна та власть, против которой против большинство, а не за которую меньшинство.
Не понял, как из графика «доля мужчин в зав-ти от года рождения» следует, что «В Одноклассниках большая часть аудитории — женщины».
Или там график пропущен?
Вы не поверите, но если среди родившихся в 1980 году доля мужчин составляет 30%, то доля женщин — ровно 70%. Это как если бы график перевернули вверх ногами.
Обратите внимание, что график для ОК (синий) по большей части находится ниже отметки 0.5. Это значит, что доля мужчин соответствующих возрастов меньше чем 50% от общего числа пользователей, а доля женщин, соответственно, выше 50%, т.е. женщин больше.
Красный, разумеется, прошу прощения.
А не хотите ли сделать полезное для молодых родителей, и попробовать собрать статистику по именам до текущего года? Я не представляю откуда брать такую информацию, но очень сильно пострадал от её отсутствия: хотел сына назвать редким именем, а оно оказалось самым популярным в том году. Потом хотел дочку назвать ещё боле редким, чтоб уж наверняка. Облом — каждая вторая в песочнице с таким же…
Меня посещала эта идея. Но до текущего года не выйдет — такая информация есть только в ЗАГСе, а они ее не очень охотно предоставляют.
Может по женским форумам?
Хотите, я вам приведу с ходу 50 женских и околоженских форумов, где эта тема может обсуждаться? Как их анализировать? А вы третьего ждете? :)
В обычных сми часто публикуют итоги популярных имён за год. По каким-то городам есть и регулярно обновляемые рейтинги имён. Вот, например, Екатеринбург.
По некоторым городам действительно есть. И, я смотрю, Екатеринбург по именам сильно отличается от Москвы. Так что нужна статистика и с привязкой к региону. Видимо, без содействия со стороны государства будет сложно что либо сделать.
Смех-смехом, но сегодня нечасто встретишь людей с именем-отчеством Акакий Акакиевич.
(тонкий намек на места, откуда можно почерпнуть вполне себе редкие, и, иногда, красивые имена)
Смех-смехом, но к красивому имени ещё и фамилия с отчеством нужны подходящие, и тут литература — не советчик.
к сожалению, дети до года не очень любят регистрироваться в соц.сетях
А вы не идете с мейнстримом — называйте популярными именами: Маша, Саша, Паша, Даша, Наташа, Вова, Коля, Дима, Лёша, Андрей, Воробей… А все остальные пусть называют Матвеями и Милонами.
Тема для исследований хороша, но «зависимость пола от процента мужчин в друзьях» — это просто шедеврально :) То есть если у меня увеличивается количество мужчин в друзьях, то я меняю пол
Да, скорее всего наоборот, «зависимость процента мужчин в друзьях от пола». Статью и график поправил.
Титанически :)
Пожалуй кое-что узнал о себе нового, из такого косвенного анализа.
Ничего не пойму. По поиску вконтакте в моем городе девушек 26 лет около 3800 человек. А по вашей базе всего 80.
Как было написано в статье, эта база — случайная выборка, по Вконтакте там примерно 1% от всех пользователей. Плюс многие скрывают свой возраст и город.
Как же так?! Почему среди женских имен нет самого популярного — Мария?
А тут был бы полезен график распределения пользователей по регионам. Вот, скажем, в Москве Марии встречаются нечасто, а соцсетями пользуются многие.
Идеи витают в воздухе) Как раз собираемся обнародовать наши данные о возрасте активных авторов в соцсетях.
Мы пошли по прямому пути и взяли только открыто указанные в профиле даты рождения. Но для нашей сферы точность — принципиальна.
Опосредованное определение возраста пользователя (например, по возрасту друзей), мне кажется, чревато адскими искажениями результата: например, в результате такого определения возраста, судя по вашему исследованию, около 40% 10-11-летних пользователей состоят в браке ))
«Плывут» и другие результаты, которые привязаны к возрасту: резкое падение всех популярных имен к 2006 году, связано, вероятно и с тем, что пользователей с таким годом рождения сильно меньше?
То есть мы понимаем, что даже открытая дата рождения — далеко не гарантия истинности, а известна ли погрешность при использовании вашего метода?
Абсолютная точность бывает только в паспорте. Про популярные имена вы невнимательно читали статью, но сразу кинулись критиковать: на тех графиках указана доля людей с этим именем среди всех, кто родился в этот год. Т.е. В 1960 родилось 100 Александров на 1000 человек, а в 2006 только 5 на 100, т.е. доля упала с 0.1 до 0.05.
Про восстановление возраста на основании возраста друзей: для всех графиков, в которых фигурирует возраст, такой подход не использовался. Возраст восстанавливался только на основе даты окончания школы/ВУЗа.
А за окончание школы/ВУЗа какой возраст принимался?
Я не критикую, я любопытствую) А «Александры» — только уникальные учитывались?
Где-то год назад пытался изучить вопрос реконструкции возраста по косвенным признакам во ВКонтакте. Сравнивал прогнозный возраст и указанный пользователем. На случайных пользователях (где были боты, всяческие коллективные и заброшенные аккаунты): прогноз по местам обучения (школы + вузы) — в 90% ошибка не превышала ±3 года. Если делать прогноз исходя из возраста друзей — то «попадание» ±3 года было в 71% случаев. Распределение ошибок было ближе к нормальному (без смещений). Т.к. при обработке возраст часто группируется в 4-5 категорий — мне такой результат показался достаточным. И кстати — «выбросы» в 10 лет и больше чаще всего были там, где указанный пользователем возраст был явно «ненастоящим». В принципе, можно попробовать сделать классификатор качества прогноза — это могло бы еще повысить точность. Так что не все так плохо :)
НЛО прилетело и опубликовало эту надпись здесь
Я так понимаю там где есть API — использовалось оно, где API нет — парсинг.
Именно так все и было, обыкновенный парсинг через XPath/CSS-selectors
Если вы обладатель мужского пола, а в друзьях у вас одни дамы, то у меня для вас плохие новости.

Вот этот пункт заинтриговал. Можно поподробнее?
Вы как-то странно обошли вниманием довольно странные факты по вашим данным:
1. Семейное положение «начинается» с 11 лет.
2. Довольно странное резкое уменьшение мужчин с весом 116 и 122 кг по отношению к женщинам.
3. Странный всплеск лайков у мужчин за 55.
4. Количество молодых коммунистов больше, чем тех же «в возрасте».

Как думаете, с чем связаны такие заскоки?
Легкий налет треша по краям графика часто связан с шумом. Публика до 13, после 50 и тяжелее 100кг довольно скудно представлена в соцсетях, так что у них может быть большой разброс по разным параметрам.
С коммунистами элементарно — для среднего поколения эта идеология ассоциируется с реальным поздним СССР, при котором они выросли, для младшего — с ретро-ностальгией.
Возможно вы правы, но я как-то слабо себе представляю 11-14-летнего подростка увлекающегося ретро. Хотя, скорее всего, я просто мало знаю подростков в этом возрасте (:
Лет до 16 я был коммунистом потому что коммунизм — это мир Полудня у Стругацких. И вообще, подросткам свойственно идеализировать то, что им нравится.
Эх, побольше бы подростков таких как вы были — читающих не только стены вк и блоги, но и книги. Но это уже совсем другая история.

Кстати, в вк же можно указать книги, которые нравятся/читал? Наверное, может получиться собрать статистику по тому, что читают в данной соц.сети и примерно сколько читают. Интересно посмотреть, что получится.
Да, в вк есть раздел «любимые книги» в профиле, но через API его не получить.
Печально
Я не помню, соврал я вам три года назад или нет, но в текущей версии вк апи любимые книги прекрасно получаются через метод users.get с указанием поля books
НЛО прилетело и опубликовало эту надпись здесь
Сорцы паукана, или данных, которые он извлечет? :-)
Как раз сегодня заинтересовался в исследовательских целях собрать статистику об одной группе в ВК, что-то вроде того, что выше в статье…
Ваять что-то свое не успеваю, полез искать, может что готовое есть — а тут и статья как раз…
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
А сколько реально заняло времени на парсинг?
2-3 месяца, в зависимости от соцсети.
А как, если «самый последний год рождения, который возможно выбрать в профиле — 1999», на графике «Доля мужчин в зависимости от года рождения» зависимость для Вконтакте построена до 2004?
До принятия закона о возрастных маркировках, там можно было хоть 2013 выбрать. Теперь — только 1999.
Некоторые родители регают своих новорожденных. А кто-то даже домашних питомцев.
При расчете популярности имен нужно удалять с общего количества тех, кто вместо имени написал ерунду какую-то. Поэтому у старшего поколения доли более заметны.
Про имена: я подозреваю, что вы не учитывали варианты (Владимир, Вова, Вован, ~=Super-Vovan=~ и т. д.), и уменьшение долей объясняется тем, что люди постарше указывают в профиле соцсети чаще всего полное имя (Владимир Владимирович Путин), а молодежь — короткое.
Спасибо, хорошая мысль!!! Эти сильные спады графиков имён меня тоже сильно удивили — тенденция к нестандарным именам, действительно, есть, но чтобы настолько сильно…
Исследование, которое может стать началом других. Многогранное. Спасибо, было интересно.
Комментарий для захабривания, с целью использования в интернет-спорах:
Прискорбно, но любовь к алкоголю и курению только усиливается с возрастом.

Прекрасно что у молодых больше здравомыслия и они реже курят и пьют.
Интерпретации, такие интерпретации.
По моим собственным наблюдениям студентов 2000 и 2010 года поступления — таки да. Последние пьют гораздо меньше, реже, часто вообще не пьют. С другой стороны, на стороне первых активная социализация — походы, байдарки, автостоп и куча еще чего, куда они ломились толпой. Поколение 2010 так все больше в соц.сетях.
Да, я тоже подумал по графику — молодёж не пьёт и не курит. В принципе, может так оно и есть — теперь чаще наркотики в моде… Кстати, там нет данных по употреблению?
Все побежали заполнять, ага :)
Очень крутая статья, первый раз вижу настолько читабельный анализ соц сетей…
Хотя кстати при создании например таргетированной рекламы в том же контакте можно извлечь примерно те же цифры без пауков и гораздо быстрее… Не считая конечно матных слов/постов =)
В целом супер! Особенно полезно для тех кто создает игры/приложения для соц сетей. Спасибо автор! Взял на заметку.
Кстати было бы интересно увидеть график зависимости возраст/количество друзей/активность/процент ботов
Раздел про имена может быть применим следующим образом: теперь в личных обращениях роботов к человекам, вместо «Уважаемый(ая)...» можно будет написать «Здравствуйте, вероятнее всего, Елена...».
Профили анонимизированы, нет имени, фамилии, даты рождения


А если именно распределения дней рождений хочется проанализировать, как быть?
Именно дней, а не года.

На какие дни года приходится больше всего дней рождений и совсем круто разбивка по возрастам.

Такой анализ имеет прямой коммерческий интерес для определённых компаний «розницы».
Это исследование делалось не с целью удовлетворить чей-то коммерческий интерес, а just-for-fun.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории