Pull to refresh

Comments 49

Существуют три вида лжи: ложь, наглая ложь и статистика.

Классная статья, единственное что стоит предостеречь от выводов о чём-то кроме контингента сайтов знакомств на основе этой статистики. Здесь сразу два байаса:

  • посетители сайта знакомств не являются репрезентативной выборкой популяции

  • посетители сайта знакомств пишут о себе то что выгодно им, а не обязательно правду Интересно было бы поанализировать насколько значительно влияние (2), но у меня нет ни малейшего представления откуда для этого взять данные

Здравствуйте, спасибо за ваш комментарий! Согласна, обобщать выборку не стоит, но даже субъективно мне кажутся логичными полученные средние значения и результаты анализа описаний :)

они логичны, но нерепрезентативны. напишу в комменте.

Неплохо было бы проверить саму выборку на адекватность. А конкретно - количество фейков. Их обычно как раз таки 90% от общей массы, если сайт хоть сколько то популярный.

В них могут оказаться искусственно сгенерированные анкеты. Или анкеты ночных бабочек. Можно попробовать построить распределение возраста, и сравнить его на схожесть с демографической таблицей росстата.

Добавлю ещё, что пустое поле "о себе" - явный указатель на фейковость.

Плюс у «Мамбы» давно уже специфическая репутация, по-моему. Непонятно, зачем ей пользоваться при наличии «Тиндера» (пока) и «Баду» (даром что его веб‑версия больше не доступна в РФ). Другие сайты знакомств и перечислять неловко, там в основном кринж. (А симпатичный Bumble и англоязычный OkCupid, увы, не для России.)

Наверное, сколько людей, столько и мнений - мои знакомые, женаты, вместе 4 года, встретились на мамбе)

Каким образом этот рофл стал научным?

Если люди пишут в анкете что они чето хотят, это не значит что они реально этого хотят. Особенно это касается женщин. Это эмпирический факт, с которым сталкивался каждый, кто топчет эту планету дольше 15 лет. Ну вы же знаете, люди п... говорят неправду.

Т.е статья - классический анализ мусора. Garbade in - garbadge out. Делать на мусорных данных тесты типа хи-квадарта, это вообще хихи-квардарт.

Про произвольные выкидывания кусков выборки даже как-то неприлично упоминать.

Самое научное тут написание парсилки.

А почему произвольное выкидывание-то? Отсечь выбросы по значимому параметру - вполне нормально. 18- - логично, 45+ - тут не помешал бы точный процентиль, но если автор сказал, что мало - значит мало

Соответственно, “мужские” данные сократила также до ~140К. 

Я про это. Какие именно анкеты выкинуты, по каким критериям, непонятно.

Средний рост - 172 

С этого еще кекнул, автор не знает про половой диморфизм. Средняя женщина значительно ниже среднего мужчины. Еще бы средний размер сисек или члена посчитала.

Скажите спасибо, что пол не усреднили.

Среднее без разбивки по полу? Ну да, грустно. Это лучше поправить

Несколько лет назад анализировал по росту мамбу (прежде всего тогда интересовало - различается ли рост людей разных поколений). Насколько я помню у мужчин максимум был в районе 175, а у женщин - 165. Но там в данных такая "пила Чурова" была... каждые 5 см - пик.

Лол, тянет на научное подтверждение того, что карланам не дают, и им приходится сидеть на мамбе.

Еще бы средний размер сисек или члена посчитала.

Рост есть у всех, в отличие от сисек и члена.

В среднем по больнице у каждого есть одна нормальная сиська, одна атавистичная и половина члена./s

не знаю, читаете-ли вы какие-нибудь научные журналы. Там научного тоже не ахти сколько. Уйма докторских написано на всевозможной галиматье, так что - статья здесь с не совсем правдоподобными данными - тоже не есть большое зло. К данным и выводам из этой статьи - не могу оценить. Но подход для анализа, постановка гипотезы и анализ - сделано неплохо. Иногда учиться анализу можно и на пвсевдо-данных :)

Ну хабр же не научный журнал. Никто не заставляет по 3 статьи в год сюда писать, чтобы не потерять в зарплате. Можно просто не писать.

Ну хабр же не научный журнал.

но ведь и статья не научная, если берём за факт - пвсеевдо-данные, которые использовались. Но с вами согласен - вопросы остаются.

статья здесь с не совсем правдоподобными данными

Статья пытается анализировать реальность на основании лжи которую пишут люди. Это мусор by design.

читаете-ли вы какие-нибудь научные журналы. Там научного не ахти сколько

Британские ученые ближе к науке, чем то, что вы называете научными журналами. Зачем такую херню читать, мне непонятно.

Проанализировано то, на основе чего посетитель сайта знакомств принимает решение "попробовать познакомиться или нет". Называть эту инфу мусором как-то очень... радикально, что ли)

Проанализировано то, на основе чего посетитель сайта знакомств принимает решение "попробовать познакомиться или нет"

Не вижу в статье анализа фотографий

Ну так и у меня в комментарии нет указания, что проанализировано "всё" ;)

Ну так и в статье никто не пытается анализировать, какой процент юзеров действительно учитывает эту инфу при "попробовать познакомиться или нет".

Например, в том же тиндере описание почти никто не читает, потому что там фотка во весь экран, а до описания еще доскроллить надо.

Наверное, поэтому люди и не заполняют графу "О себе", хотя мне лично это интересно больше всего в профиле.

здравствуйте, спасибо за ваш комментарий! К сожалению, не умею работать с библиотеками для компьютерного зрения((

здравствуйте, спасибо за ваш комментарий! Это, на самом деле, интересная мысль - "на основе чего принимает решение" - я больше размышляла о том, как люди презентуют себя и свои желания, ваша идея интерпретации очень классная.

Ну почитайте тогда научную литературу про ту же перепись населения. Там тоже заполняется со слов опрашиваемого и можно наговорить любой дичи.

И че? Если на какойто херне написано что она научная, она от этого становится научной? И не важно, перепись населения или анализ сайтов знакомств.

Можно наговорить чуши != есть очевидный умысел врать. В данной статье автор анализирует очевидную ложь, под видом правды. Это не то что ненаучно, это просто смешно.

Жду анализ статистики количества половых партнеров, длины члена и размера сисек, со слов опрашиваемых.

спасибо за ваш комментарий! Подскажите, я немного не поняла, почему вы называете собранные данные "не совсем правдоподобными"? Это данные пользователей, которые они о себе указали, достаточные для создания портрета пользователя, в чем и была цель анализа :)

Когда проводят интервью, на основе которых будет проведён анализ, то в вопрснике специально вставляются проверочные вопросы, где максимально насколько можно проверяется истинность утверждений. Если этого нет, то правильность выводов под вопросом.

Например. Я работаю в маркетинге телекоммуникационного провайдера. У этого провайдера много лет назад была куплена мною симка, которой уже 20 лет моя жена пользуется. Но в базе данных моё имя и мой пол. И каждую неделю кому-нибудь из моего отдела приходит в голову идея, соединить usage данные с данными из базы, чтобы узнать, как себя 'ведут' мужчины и женщины. Сколько разговаривают, сколько времени онлайн, сколько гигабайт скачивают итд. И соединяют то, что не соединяется...

Так-же и у вас - данные введены на портале, который никак не может тендировать на истинность данных. Потому что для того, чтобы понравится или легче найти то, что в нормальной жизни нелегко, то приврать - самое простое, что можно сделать...

Хороший разбор, спасибо автору. Было бы здорово, если бы была ссылка на код парсилки и построения графиков.

Если автор так заморачивается стат-тестами, то ожидалось больше визуализаций распределений. Да, я увидел в тексте, что всё "почти" нормально. Но это генеральные совокупности, а вот все параметры, связанные с заполняемостью анкеты - не уверен.

здравствуйте, спасибо за комментарий! Ссылка на парсер и ноутбук в начале статьи.

Автор немного использует терминов, не очевидных для тех, кто не был на этом сайте знакомств. Например, диапазон возраста - это относительно выбранного целевого или своего? Этот диапазон обязательно симметричный и 18-летние в затруднительном положении?

здравствуйте, очень рациональное замечание, имелся в виду диапазон возраста партнера, т.е., например, если вам 31, то вы можете поставить, что ищите партнера в возрасте от 27 до 31 - диапазон будет тогда 4.

Сайты знакомств такие:


  • эээ брат, бесплатно не пообщаешься брат, оформи премиум, брат
  • ээээ лэээ брат, премиум это чтоб ты хотя бы писать мог, брат, фильтры поиска, симпатии, избранные — это суперпремиум купить надо, брат
  • видишь ли, брат, месяц суперпремиума стоит как три месяца суперпремиума, брат, бери сразу полгода, брат, в натуре выгодно, брат
  • тц-тц-тц. Эх, брат, за поднятие анкеты в поиске, брат, надо отдельно платить, брат, и за размещение в промо ленте тоже, брат, даже если ты суперпремиум брат, брат

где-то на этом моменте средний пользователь осознает уровень конверсии вложенных баб в настоящих баб и сваливает с сайтов знакомств. Пять оставшихся месяцев оплаченного суперпремиума тикают в одиночестве

Но ведь неправда ваша) Количество моих знакомых, которые успешно познакомились через тиндер со своими теперь уже жёнами или мужьями не вложив ни копейки впечатляет) Но это тиндер, возможно другие сервисы и правда не столь адекватны в плане монетизации.

Как раз упоминание тиндера и выдает вашу неправду, поскольку это донатное поделие позволяет бесплатно общаться только при мэтчах, насколько мне известно. И как и любая картиночного типа приложуха со свайпами она полна в основном наштукатуренными муклами с очень сложными хлебальниками, пишущими разного рода стоп- ключевые слова "щедрого", "приятные встречи", "обеспеченного", "отношений не ищу" и т.д.
Единственный способ познакомиться на сайте знакомств — искать по новорегам, которые ещё не успели потерять веру в человечество от "десяти метров х***в и ведра яиц" (с) башорг, присланных в личку, девушек с хоть каким-то проблеском интеллекта в глазах и в случае их ответа сразу же переводить общение в мессенджеры.
Ну и вообще, на сайте со статичными картинками и незаполненными графами о себе пытаться понять и узнать человека — бред, как машину наудачу на Авито брать без осмотра.

Чисто философская дискуссия: ведь вы можете быть тем самым человеком, который будет искать единственную(ого) на сайте. Т.е. тем самым хорошим человеком. А те, кто ищут "щедрого", "приятных встреч" - ну пусть ищут))

здравствуйте, правда? Я просто последний раз там была 2.5 лет назад, вроде такого не было, бесплатно можно было общаться.

Я просто последний раз там была 2.5 лет назад

Это значит – получилось или нет? :))

бесплатно можно было общаться.

Их очень много разных, но подтипа два: лютый бесплатный трэш или дойка заградительными для совсем уж неадекватного быдла ценами.

По картинке "количество людей из городов" - либо данные уже устарели, либо полторы тысячи казахов из выборки ещё не знают что Нур-Султан обратно переименовали :)

ахаха, забавно, данные парсились в октябре 2022, вроде тогда еще был Нур-Султан

Никогда не доверяйте опросам. Никогда не относите опросы к статистике. Только фиксация очевидных фактов, таких как регистрация браков и разводов, может быть статистикой. В опросах всегда можно соврать или они зависят от настроения, но также важно понимать, что в опросах всегда участвует очень мало людей (обычно это 2-4 тыс чел), и никогда нельзя экстраполировать такую псевдостастистику на порядки большее количество людей. Все что показывает опрос это мнение опрашиваемых и не более, к тому же достоверно неизвестно насколько правдиво это мнение и как вы его интерпретировали.

младше 18 (ага, были и несовершеннолетние на сайте: родители, будьте бдительны)
Забавно, автор (видимо и часть коментаторов) ещё и законы страны в этой области не знает.
Sign up to leave a comment.

Articles