Pull to refresh

Comments 48

Большая проблема (хотя для создания красивой картинки это хорошо) статистических выкладок без представления исходных данных, что они не отражают реальную ситуацию. Особенно это ощущается, если на основе одних процентов начинают оценивать работу или какие-то характеристики. Например, следователь Вася имеет раскрываемость целых 50%, а Петя только 20%. Вроде бы Петя работает хуже, но ситуация меняется, если узнать, что у Васи в разработке было 2 дела, а у Пети 20.
Поэтому исходные данные перед представлением в % — должны быть отнормированы на количество дел (как в Вашем примере)
Плюс к этому любые выводы основанные на процентах, даже если приведены исходные данные, должны дополняться ответами на три вопроса: что, как и почему именно так считаем?
на ресурсе, подобном Хабру, ожидаешь примеров вроде: программист Вася делает 20 ошибок на 100 строк, или монтажник Петя запаивает криво 5 микросхем из 20… А у Вас, внезапно, следователь… Товарищ майор, перелогинтесь, Вы раскрыты )))
У товарища майора друг участковый, который недавно под коньячок жаловался на подобную интерпретацию статистики у руководства.
Особенно это ощущается, если на основе одних процентов начинают оценивать работу или какие-то характеристики

Я думаю, особенно это ощущается, если на основе одних процентов могут посадить на пожизненное…

Мне даже любопытно, эксперта, который засадил и так убитую горем мать в тюрьму как-тол наказали?
Скорее всего её посадили не из-за статистики, а из-за этого
Приговор был отменён после того, как выяснилось, что патологоанатом выдал неверное заключение

А статистика применялась, в ключе, что вероятность ошибки в заключении на порядки меньше чем вероятность правдивости её слов, а следовательно нужно верить документу.
Анализ ДНК — это тоже статистика. Тем не менее вовсю используют.
Дизраэли имел в виду как раз манипуляции статистикой, которую люди ложно интерпретируют(собственно об этом и пост).

Между тем как сама статистика как отрасль знаний имеет высочайшую ценность, которая с годами становится только больше.

Математика вообще величайшее достижение человека.
сама по себе статистика важна и нужна, но то как и для чего ей пользуются люди к сожалению говорит не в пользу людей.
… наркоманом, равна 0,01 (базовое значение). Если выбранный человек – наркоман, то существует 100% вероятность того, что у него будут свежие отметки от иголок на руке (элемент чувствительности). Однако, есть вероятность в 0,19% ...

Разобраться становится труднее, когда непроцентные вероятности перемежаются с процентными. Сходу вообще непонятно, что тут происходит.

UPD: Прочитав дальше понял, что первая вероятность в %, но просто знак % пропущен.
ИМХО, по поводу первого примера проблема не в том, что кто-то «не желает меняться», а в том, что статистические выкладки для больших выборок напрямую используют как основное доказательство в суде по конкретному делу. Не «этот метод позволяет с такой-то точностью установить факт, который доказывает что...», а «маловероятно, что это произошло само, поэтому вы по-любому виноваты».
Это как в анекдоте, «вероятность выйти на улицу и встретить динозавра — 50%»?

Сложнее всего то, что мы все привыкли к стереотипам вида «человек шатается — значит пьяный» (хотя может просто терять сознание от приступа болезни), а привыкли как раз от того, что чаще встречали именно пьяных, чем больных. Кто как, конечно, но в суде такие выкладки звучат особенно глупо, когда свидетель говорит одно (на основании своего жизненного опыта), а судья — другое (на основании уже своего опыта).
реплика про суд напомнила
старый неприличный анекдот
В селе украли корову, вечером сели за стол отец и три сына, хряпнули по стакану самогонки.
Отец: Раз корову украл — значит пидорас!
Старший: раз пидорас — значит маленький!
Средний: раз пидорас и маленький — значит из соседней Ивановки!
Младший: Раз пидорас, маленький и из Ивановки — значит Васька!
Пошли, отмудохали Ваську, тот месяц в реанимации пролежал, заява, следствие, суд.
Отец с сыновьями сидят на скамье подсудимых.
Судья — почему Ваську побили?
Они: Так он корову нашу украл!
Судья — почему это именно он?
Они:(повторяют свою логическую цепочку).
Судья — не понял?!
Они опять повторяют.
Судья: Ну хорошо, вот вам коробочка, что вы можете про нее сказать?
Отец: Коробочка квадратная.
Старший: раз коробочка квадратная — в ней что-то круглое.
Средний: Раз квадратная, а в ней круглое, значит оно оранжевого цвета.
Младший: Раз квадратная, в ней круглое и оранжевое — значит там апельсин!
Судья открывает коробочку, достает из нее апельсин и говорит: Васька, не еби мозги!
Отдай людям корову!
Лично сталкивался с таким. Я так понимаю это был злобный ротавирус. Особенность — симптоматика развивается очень быстро. Мне стало плохеть на работе, я решил поехать домой. Дошел до метро — 7 минут, проехал три станции, еще 9 минут. На выходе я уже чуть ли падал — держался за стенки, меня тошнило, и т.п… Окружающие шипели — типа «Фу, он же пьяный!». Увы. )))
Надо заметить, что при ошибочности диагностики поведенческий-то паттерн должен был оказаться верным: что от пьяного, что от завирусованного логично держаться подальше :)
Вебер с коллегами удивились, обнаружив, что даже получив задачи в формате естественной частоты, половина участников не использовала более простой метод их решения. Они переводили проблему в более сложный формат с процентами и со всеми дополнительными шагами, поскольку такой подход был им знакомее.
Это какие-то странные исследователи раз их это удивило. Это же фундаментальный математический метод — привести к уже известному. Потому что «более простой» метод более прост только когда он тебе уже известен и известна его надежность. Если этого нет, то такой метод нужно, во-первых, придумать, во-вторых, доказать что он даст правильный результат. Что в случае когда известен «более сложный» метод будет равносильно вычислить ответ сложным методом, потом простым, а потом таки убедиться что это не совпадение и его можно применять для других задач. Офигенно просто, да.
Эксперт, свидетель обвинения, Рой Мидоу, утверждал, что шансы на то, что этот синдром заберёт жизни двух младенцев из богатой семьи, составляли 1 к 73 млн

Какой кошмар… Эксперт убедил, что вероятность равна популяции Британии т.е. такой человек чисто статистически обязан существовать и дальше пошел бред про какие-то ставки и лошади.
Любопытное наблюдение :) Но тут справедливости ради надо сказать, что в Британии нету 73 миллионов людей, чьи семьи богаты и имеют двух младенцев. Тем более нет 73 миллионов семей с двумя младенцами. Т.е. в вероятности «1 к 73 млн» речь идет всё же не обо всем населении, а о конкретном (и куда менее многочисленном) срезе.
Ну тут 2 независимых случайных события, нельзя перемножать вероятность быть богатым и иметь какие-то отклонения (имхо, надо проверить)
Я не уверен в том, насколько события независимы. Можно предположить, что есть как минимум корелляция между семейным благосостоянием и состоянием здоровья. Не знаю, насколько там есть причинно-следственная связь, это тяжелее установить и я не берусь делать предположения на сей счет. Плюс к этому, наверное, было бы глупо включать в подсчет вышеозначенной вероятности бездетные семьи. В принципе, без дополнительной информации вообще тяжело определить, как он подсчитал вероятность и какую именно выборку для этого использовал.
Можно точно сказать, что на таких маленьких выборках (до 1000 человек похоже) теория вероятности, а точнее мат. статистика вообще не работает.
Можно рассмотреть пример лотереи наоборот, 1 из 100 млн человек выигрывает лотерею, но всегда можно найти некоторые х-ки черный, бездетный, возраст 35, чтобы сузить выборку до 100 человек и с уверенностью сказать, что вероятность, что из этой группы выиграет человек равна 100 на 100 млн — почти 0, значит, лотерея подтасована и т.п.
Опять же справедливости ради, такая статистика делается не в один момент времени, а на основании данных за продолжительное время. То есть, если просуммировать население допустим 10 поколений, то в среднем соотношение больных и здоровых будет 1 к 73 млн.
Тут как с выпадением зеро на рулетке. Вероятность выпадения 4 зеро подряд равна 1 к 100500 млн., но на протяжении времени такую ситуацию можно получить.
Но тут справедливости ради надо сказать, что в Британии нету 73 миллионов людей, чьи семьи богаты и имеют двух младенцев

Ах, ну так можно еще дополнительно условий накидывать и загонять вероятность в неимоверные проценты. Ну, к примеру.

— шансы на то, что этот синдром заберёт жизни двух младенцев из богатой семьи, в которой жену звать Салли, составляют 1 к 1 млрд

— А шансы того, что этот синдром заберёт жизни двух младенцев из богатой семьи, в которой жену звать Салли, а фамилия — Кларк, составляет 1 к 500 млрд

Шансы маленькие, а семья такая в Британии одна. Значит, она точно виновна. К примеру в Германии (довольно богатой стране) такому синдрому подвержены 8 из 10000 детей. То есть вероятность ребенка умереть от этой болезни — 1/1250. Это довольно мало! Допустим, есть 1250 семей в которых есть два ребенка и один из них умер от этой болезни. Это значит, что приблизительно в одной из этих семей и второй ребенок умрет от этой болезне. Хочу отметить, что в год в ВБ роздает 800 тысяч детей в 22 миллионах семей. А двое детей в семье — это самое распространенное количество

Использование фактора про богатые семьи — просто чтобы задрать статистику. Про это причину есть огромное количество догадок и «богатство» — лишь одна из многих. Он мог добавлять любые другие факторы:
— матери от 30 до 40
— во время беременности мать болела / была здорова
— вскармливание было искусственным / грудным
— мать курящая / некурящая

Каждый этот фактор понижает вероятность и заставляет принять решение о том, чтобы посадить невиновного человека пожизненно
Сажать человека на основании подобной статистики — это, конечно, жесть. Про это я ничего не говорил и считаю это конкретным идиотизмом. Я лишь заметил, что при подсчете той самой вероятности вряд ли учитывалось все население. Факторов, конечно, можно много накидать — спору нет. Я ограничился лишь теми, которые были упомянуты в процитированной фразе: «шансы на то, что этот синдром заберёт жизни двух младенцев из богатой семьи». Если бы речь шла о шансах «на то, что этот синдром заберет жизни двух рандомальных младенцев» — тогда да, берем население и перемножаем вероятности. Но зачем-то было упомянуто благосостояние семьи и то, что событие произошло в одной семье. Так что я не пытался придумывать новые сущности, а сконцентрировался на том, что именно было написано.
Необходимо учитывать, что причина синдрома внезапной смерти младенцев неизвестна. Не исключено, что в той семье было что-то, что приводило к повышению вероятности таких событий.
При подсчёте нужно рассматривать 2 случая:

1. Допустим, у неё были близняшки. Тогда вероятность болезни обоих может повыситься раз так в 1000, к примеру, до 1 к 73 тыс. Сравниваем это с вероятностью, что она хотела убить детей — допустим, 1 к 500 тыс. В итоге вероятность, что виновна — 13%.

2. Другой вариант — родила двух детей с интервалом 9 месяцев. Пусть вероятность болезни повышается только до 1 к 730 тыс (в 100 раз), а вероятность, что она родила двух детей и хотела их убить становится 1 к 3 млн (в 6 раз ниже, чем в предыдущем случае). Тогда вероятность, что она виновна — 20%.

В обоих случаях не хватает для обвинения. Нужно пытаться находить другие доказательства. А вообще я не знаю, каков процент матерей в Германии, которые хотят убить своего догодовалого ребёнка. Но даже если в 10 раз выше, не хватит для обвинения (выйдут шансы виновности 59% и 71%).
Статистическое обвинение вещь плохая, но мне кажется там должна быть вероятность не меньше 99.9999%. Вещь плохая, потому что у людей в целом плохо с теорией вероятностью и появляются вот такие прокуроры и такие случаи.
Погуглите — отпечатки пальцев и даже тест ДНК не дают шесть девяток вероятности. Люди врут, в том числе оговаривают себя. В итоге всё правосудие стоит на очень, очень шатких основаниях.
Отпечатки пальцев и ДНК хотя бы не говорят напрямую «этот человек виноват», они говорят «это человек трогал вот эту вещь». То есть там там именно ВИНУ доказывать всё-таки надо. А на основе статистики выносить прямое решение о виновности — это то же самое, что заменять суд подкидыванием монетки.
Тест ДНК может быть косвенной уликой, грубо говоря, вероятность может быть больше 6 девяток, если мы говорим о людях проживающих в этом городе или которые могли находится в этом месте.
То есть в этом случае, вероятность того, что это не «этот человек» умножается друг на друга с каждой уликой. С другой стороны, там чаще всего проблемы, что человек не отрицает, что он возможно трогал эту вещь или находился в данном месте.
Для теста ДНК не производится полное секвенирование генома (его сильно позже придумали, да и это дорого), а анализируется примерно 20 точек. Даже если убрать однояйцевых близнецов с полностью одинаковым ДНК, у многих братьев/сестёр, в т.ч. двоюродных, эти конкретные 20 точек могут совпадать или почти совпадать.

На самом деле обвинение на основе статистики это не очень хорошая практика.

А задача про рак точно дана правильно? Раскапывая отсутствие корня начал гуглить задачу. Оказалось, что 1% — это в классической формулировке вероятность болезни, а не ее диагностики. При постановке, что именно вероятность получить положительный результат равна 1%
вероятность того, что у 40-летней женщины найдут рак груди (1%)

, задача не имеет решения.

Хотя, может быть просто именно я неправильно понял постановку.
Скорее переводчик неправильно перевел.
Так и сколько там в ней ответ должен быть-то?
Судя по всему если инвертировать диагнозы, то можно получить вероятность 99% )))
Если же имеется в виду вероятность болезни, то она нам мало чем поможет, тк имхо неизвестно отношение девушек с диагнозом и без диагноза.
Ps en.m.wikipedia.org/wiki/Receiver_operating_characteristic — тут много полезных формул по статистике(по оценке тренировки нейросетей, но отлично поможет разобраться с этими задачками).
Порядка 7,6%.
В задаче интересен факт, что положительный результат теста повышает вероятность наличия болезни всего на 6,6%, с 1% до 7,6%. Т.е. статистически небольшие числа, думаю, их неплохо бы озвучивать в мед.учреждении при получении результата, чтоб люди не считали это приговором.
При этом точность метода более-менее удобоваримая — всего 9,6% ложноположительных и 20% ложноотрицательных.
Хорошая иллюстрация тому, что статистическое управление процессами для большинства разновидность «китайской грамоты»
Теорема Байеса очень популярна.
Но пример из судебной практики не убедил, бред какой-то.
Выносится судебное решение о виновности по процентам вероятности.
А где рамки 1%, 50% или сколько должно быть?
Причем, оценивается вероятность одного события без связи с другим, несвязанные события.

Фраза «Недавние исследования показали, что показатели решения статистических задач увеличиваются с 4% до 24%, когда задачи представлены в формате естественной частоты» улыбнула

Долго думал что мне не нравится в заголовке —
Понять статистику нам мешает наше нежелание меняться
.
И понял, нам мешает нежелание учиться. К сожалению, большинство людей плохо понимает теорию вероятностей, не говоря уже о теории математической статистики. Даже проявление Центральной Предельной Теоремы для большинства людей будет открытием, к сожалению.
Приговор на основе статистики, со смертельным исходом, называется Естественный отбор.
А вот его противники могут кого-нибудь назначить виновным.
Задачи с наркоманами не совсем корректны. В обоих случаях входящие данные разного типа, но ответ требуется в одном, вероятностном. Если в реальности так и было, то меня не удивляет что все студенты решали вероятностями, я бы тоже так решал.
Мне непонятно другое:
есть вероятность в 0,19%, что у случайно выбранного человека будут свежие отметки от иголок на руке, но он не будет наркоманом (вероятность ложного положительного срабатывания). Какова же вероятность того, что случайно выбранный человек со свежими отметками от иголок на руке будет героиновым наркоманом?

В обеих случаях ответ будет 5%.
— Почему?

Вот человек со следами от иголок. 0.19% не наркоман. 100% — 0.19% наркоман.
Тут ошибка в моей логике или в формулировке вопроса?
У вас из 100 000 человек 0.19% имеют следы иголоко, но не наркоманы. Это 190 человек. И из 100 000 человек только 10 человек — наркоманы. Это значит, что если вы встретили человека со следами — он один из этих 200-т. 10 к 200, что он — наркоман и 190 к 200, что он — не наркоман.
Sign up to leave a comment.

Articles