dim2r Jan 23 2019 at 10:11

Можно ли считать статистику при малом количестве данных?

6 min

14K

Entertaining tasksMathematics*Statistics in ITPopular science

Recovery Mode

+26

Comments 49

Ygrek Jan 23 2019 at 12:03

В универе когда учился и подрабатывал на полставки один хороший профессор попросил сделать электронную версию ценной ему книги. Вот сейчас поискал в сети и нашел название. Книга называлась: Гаскаров, Шаповалов «Малая выборка». Показалась мне очень интересной, но в студенческие годы времени на неё не нашел.

dim2r Jan 24 2019 at 10:57

Да было бы интересно заглянуть в текст.

lynxrus Jan 23 2019 at 18:56

В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений.

Колдунство какое-то которое заставляет тупо заучивать числа не понимая сути. Проблема ведь не в том что по 29 измерениям дисперсию считать нельзя, а по 30 уже можно. Проблема в статистической значимости гипотез которые можно построить по таким измерениям.
В целом статья совсем слабая — даже для школьников. Я когда решил учить эконометрику остановился на курсе Б.Б. Демешева из НИУ ВШЭ (он есть на онлайн площадках). Вот там мат. аппарат даётся очень хорошо — вся мат. статистика по полочкам раскладывается. И программирования в R там хватает с головой.

dim2r Jan 23 2019 at 19:45

У меня не было цели осветить всю мат статистику. Просто напомнил, что есть метод, который дает считать статистику с одного примера. И дает обратный ход мысли — от заданных данных к вероятности причин.

Panfilov Jan 24 2019 at 08:44

Просто напомнил, что есть метод, который дает считать статистику с одного примера.

Извините, но нет, нет такого метода.
Это как сказать, что вероятность встретить динозавра = 50%.

dim2r Jan 24 2019 at 09:33

Если известны априорные вероятности, то можно считать апостериорные по одному случаю. В таких вопросах, как причина возникновения вселенной — неизвестны априорные. А вот в вопросах вынимания шариков — априорные известны и можно проводить оптимизацию параметров модели.

Panfilov Jan 24 2019 at 09:58

Вы пишите «Если». До этого писали «есть метод… с одного примера». Почувствуйте разницу. И теорема Байеса — это не «серебряная» пуля.
Если мы априори знаем, что динозавры вымерли, то как построить фактическую выборку, пусть даже с одним измерением?
Одним измерением можно более-менее опровергнуть гипотезу, но не подтвердить. Что вы вкладывает в слова «считать статистику» — для меня загадка.

P.s. Изменено, когда заметил, что отвечаю автору.

Panfilov Jan 24 2019 at 10:12

Прошу прощения, не сразу заметил, что вы и есть автор, посыпаю голову пеплом.
Мой посыл прост, теорема Байеса не дает нам дополнительных преимуществ или какого либо улучшения. Это просто инструмент, как молоток или отвертка. В статистике выбор модели и однородность выборки имеют куда более весомое значение. Границы применимости одного измерения или n-измерений как раз напрямую и зависят от выбранной модели.

dim2r Jan 24 2019 at 10:34

Да, все зависит от того, насколько модель покрывает реальные случаи. А в случае с динозаврами, — как это узнать, покрывает ли она или нет? Нужны дополнительные данные.

Но у Байеса есть один плюс — масштабируемость. Вы можете построить несколько моделей и связать их. Они будут уточнять друг друга из разных источников.

В принципе модель — это модель, а не реальность. По аналогии: карта — это не местность. Нельзя сделать карту идентичную местности. Местность изменяется со временем и содержит мелкие детали. И так же нельзя сделать точную модель, на которую можно положиться во всех случаях. Можно только попытаться сделать что-то, что будет полезно для определенных случаев.

Ryppka Jan 23 2019 at 20:13

На длинах получающихся серий при смене лечения с тестируемого на контрольное и обратно, основано много адаптивных дизайнов контролируемых клинических испытаний, там, где важно сократить число испытуемых вообще и размер группы, получающей худший вариант. Деталей не помню, но этот подход был изобретен в Штатах во время второй мировой и долгое время засекречен, так как позволял сильно уменьшить расход боеприпасов при контрольных отстрелах.

mas Jan 23 2019 at 21:54

Раз уж тут статистический уголок ;) спрошу: где-то есть теория и практика измерений несколькими приборами? Я не смог найти. Т.е. не как описано выше (у нас есть N измерений постоянной величины одним и тем же прибором), а у нас есть M измерений меняющейся величины разными приборами (в отдельные моменты времени). Каждый прибор, конечно, имеет свои систематические и случайные ошибки, и поэтому кажется, что этот случай не сводится к повторным измерениям одним прибором. Интересует истинное значение измеряемой величины (хаха, ок, мат.ожидание или другая оценка) и сигма и другие характеристики. Самое простое, конечно, это среднее, но может есть что-то получше? Или, скажем, если погрешность 20 приборов 1%, и ещё пяти — 0.2%, то как подсчитать оценку величины и какова погрешность измерений 25 приборами?

dim2r Jan 23 2019 at 23:14

Где-то была задачка про больного, которого проверяют на приборе и обнаруживают редкую болезнь. Прибор может иногда врать и болезнь довольно редкая. Надо было посчитать вероятность реальной болезни. Получались забавные числа, — что не надо паниковать, а надо заново проверяться. Там был расчет пр Байесу с повторной проверкой на том же приборе и на другом приборе.

knagaev Jan 31 2019 at 12:51

Вот здесь Eliezer S. Yudkowsky > Rationality > An Intuitive Explanation of Bayes' Theorem очень хорошо, понятно и доступно — в соответствии с названием.

dim2r Feb 1 2019 at 12:25

хорошо разложено,

но в таких задачках иногда не учитывают случай, когда прибор работал с ошибкой, но тем не менее выдал правильный результат. Если это учесть, то будет еще одна ветка в байесовском графе и финальные числа немного изменятся

knagaev Feb 1 2019 at 13:35

Извините, немного не понял.
Рассматривается четыре типа исходов:
cancer & positive
cancer & negative
healthy & positive
healthy & negative
Какой из них этот случай?

dim2r Feb 27 2019 at 09:55

должен быть еще один уровень разбивки
false positive
true positive
false negative
true negative

вопрос разбирается например тут
en.wikipedia.org/wiki/Precision_and_recall

knagaev Feb 27 2019 at 10:04

Так это оно и есть.
Мы ищем случай заболевания.
Перевожу в вашу систему координат.

cancer & positive == true positive
cancer & negative == true negative
healthy & positive == false positive
healthy & negative == false negative

Ryppka Feb 27 2019 at 20:50

cancer & positive == true positive
cancer & negative == true negative <=======
healthy & positive == false positive
healthy & negative == false negative <======

Ничего не напутали?!

knagaev Feb 27 2019 at 20:53

Ничего.
Если человек болен, значит ответ true.
В чём сомнения?

Ryppka Feb 27 2019 at 23:30

Уверены, что больной с отрицательным результатом — это истинно негативный, а здоровый с отрицательным — ложно негативный? Мне всегда казалось наоборот…

knagaev Feb 28 2019 at 14:07

Смотря какого результата ожидаете :)
Обычно за истину берётся то, что определяется.
Если определяете болезнь, то и истинным исходом будет наличие заболевания.

Ryppka Feb 28 2019 at 14:45

Слушайте, зачем Вы вносите какие-то удивительные вещи в четырехклеточные таблицы?

наличие болезни и положительные тест — true positive
наличие болезни и отрицательный тест — false negative
отсутствие болезни и положительный тест — false positive
отсутствие болезни и отрицательный тест — true negative

Далее из этих четырех долей получают чувствительность, специфичность и все-все-все остальное.
У вас название пунктов 2 и 4 перепутаны. Зачем спорить?

knagaev Feb 28 2019 at 15:05

У меня перепутаны? :)
Смотрите что пишете:

1. наличие болезни и положительные тест — true positive
2. наличие болезни и отрицательный тест — false negative

То есть, и в первом и во втором случаях болезнь есть, но в первом она маркируется как true, а во втором как false.
Комментарии излишни.

Ryppka Feb 28 2019 at 22:06

en.wikipedia.org/wiki/Sensitivity_and_specificity
Не выдумывайте собственные смыслы для общеупотребительных терминов.

knagaev Feb 28 2019 at 22:11

Я понял о чём речь.
Вы правы, тут с точностью до маркировки.
В маркировке en.wikipedia.org/wiki/Sensitivity_and_specificity да, у меня неправильно.

Ryppka Feb 28 2019 at 22:19

Это не маркировка, а устоявшаяся терминология. Которую Вы использовали неверно. That's simple.

knagaev Feb 28 2019 at 22:22

Я рад, что вы знаете английский.
Ещё раз — я писал в системе координат болезнь есть/нет -> true|false, оценка -> positive|negative.
Посмотрите здесь
Могу попросить прощения, что случайно ввёл в заблуждение, если хотите.

dim2r Feb 28 2019 at 13:58

Я как-то пересчитывал на такой вариант. Получались небольшие различия в числах.

cancer & true positive
cancer & false positive

cancer & true negative
cancer & false negative

healthy & true positive
healthy & false positive

healthy & true negative
healthy & false negative

Это на самом деле известная проблема измерений. Когда результат устраивает, то приборы не проверяются на работоспособность.

knagaev Feb 28 2019 at 14:36

Извините, но тут путаница.
Вы же сами мне приводили ссылку про Precision and recall.
Это основополагающие вещи для определения качества оценки.
Давайте для простоты перейдём на русский язык.

Мы работает с гипотезой с двумя исходами (рак/здоровый).
В случае определения заболевания пациенты находятся в двух группах: имеющие заболевание (рак) и не имеющие (здоровый).
Это реальные объективные данные, которые нам не известны.

С помощью прибора пытаемся определить кто больной, а кто нет.
Прибор выдаёт свои да/нет, и может ошибаться.
Тогда получается четыре исхода:
1. человек болен, и прибор говорит, что он болен (рак & да)
2. человек болен, но прибор ошибается и говорит, что он здоров (рак & нет)
3. человек здоров, но прибор ошибается и говорит, что он болен (здоров & нет)
4. человек здоров, и прибор говорит, что он здоров (здоров & нет)

Всё, больше исходов нет.
Из них 1 и 4 — это правильные ответы, а 2 и 3 — ошибки.
2 исход называется ошибкой первого рода (гипотеза правильная, а оценка ошибочна)
3 исход — ошибкой второго рода (гипотеза неправильная, на самом деле человек здоров, а прибор перебдел).

Стоимости ошибок первого и второго рода, как правило, разные, поэтому и приборы настраиваются соответственно.
Для турникета в метро будет дороже ошибка первого рода, и её надо минимизировать, а у системы предупреждения о ракетном нападении — дороже ошибка второго рода.

dim2r Feb 28 2019 at 15:31

Можно и так, только не учитывается, что нерабочий прибор может показать правильный результат. Я делал пересчет с учетом этого случая и числа различались процентов на 5%. Но я думаю, что можно найти параметры, когда будет более заметное расхождение.

Есть тенденция считать, что если прибор дает результаты, которые логичны и вписываются в теорию, то значит прибор правильно работал. А если результат не вписывается в теорию, то прибор проверяется и эксперименты повторяются.

Но иногда совпадение с теорией — это просто совпадение. Правильнее проверять в обоих случаях.

knagaev Feb 28 2019 at 15:42

Можно и так, только не учитывается, что нерабочий прибор может показать правильный результат.

Что это значит?
Вы понимаете, что «прибором» можно считать и подбрасывание монетки?
И на этом основаны некоторые статистические проверки.
Когда сравнивается ответ настоящего прибора и «прибора»-монетки.
Например, позволяет избежать эффекта Бонферрони.
Вот выдержка из «Mining of Massive Datasets», прочтите, это интересно.

Но всё таки как? Как вы делали пересчёт?

dim2r Feb 28 2019 at 20:23

Чуть позже выкладки воспроизведу.…

Возникла мысль про Бонферрони. Я про это тоже думал только с другой стороны. Есть строгое доказательство, что в любом довольно большом массиве случайных целых чисел можно найти арифметическую последовательность. На этот счет есть теория Рамсея и теорема Семереди. К сожалению в объяснены они в википедии слишком мудрено. Принцип такой, что в любом большом хаосе можно найти немного порядка.

oracle_and_delphi Jan 24 2019 at 07:31

Финальная картинка, где белка даёт пять — позитивчик! :)

dim2r Jan 24 2019 at 09:34

она просит еще «данных» :)

Panfilov Jan 24 2019 at 08:40

Прошу прощения за критику, но статья капитанская, а формулы вставлены для научноподобности.

Можно подвести итоги выкладок. При малом количестве данных надо иметь модель, параметры которой мы будем оптимизировать. Модель описывает набор предположений о реальном состоянии дел и мы выбираем наиболее подходящее предположение. Модель должна покрывать возможные варианты, которые мы встретим. При малом количестве данных модель будет выдавать большую дисперсию для выходных параметров, но по мере увеличения количества данных дисперсия будет уменьшаться и прогноз будет более однозначным.

Этот пассаж, который вынесен в итог всей статьи является чуть ли не первопричиной статистики как науки.
Основная задача статистики — проверка гипотез, в частности, на соответствие теоретической модели. Чем больше мы знаем априори об исследуемой модели, тем меньше нам нужно фактических данных, чтобы подтвердить или опровергнуть гипотезу.
Это просто «медицинский» факт.

Проблема широкого применения статистических методов (например в медицине) в том, что модель подгоняют под статистические измерения, которые весьма ограничены и есть проблемы с однородностью выборок, в то время как модель должна быть выбрана заранее исходя из фундаментальных предположений, и должна быть подтверждена или опровергнута с какой-то вероятностью статистическими данными.

dim2r Jan 24 2019 at 10:04

А я не спорю. Нужно знать априорные, чтобы считать апостериорные. Плюс есть ход мысли от фиксированных данных к вероятности причин, а не стандартный ход от фиксированной модели к вероятным данным.

dbalabanov Jan 24 2019 at 10:51

исправьте «поразомну».

dim2r Jan 24 2019 at 11:45

исправил. это словарь решил «поразмять»

S_A Jan 24 2019 at 12:06

Статья понравилась, но есть некоторые придирки. Статистика — это функция от выборки. Когда данных мало для изучения поведения статистики (интервалов например), пользуются бутстрапом. Это все "обычная" статистика.

Байесовская действительно о большем уровне уверенности в гипотезе (или её опровержение) при получении новых свидетельств (данных). Многие называют это дело верой скорее, если так, то я верю. Потому что (спасибо за аналогию) изучая местность, мы обновляем карту.

Xaliuss Jan 24 2019 at 12:38

Если у нас есть возможность получать больше данных, то проблемы со статистиками можно решать массой способов. Но если максимальный объём выборки мал (меньше 30), то ваш метод в принципе не может улучшить статистическую значимость — среднее и дисперсия в первую очередь нужны для проверки статистических гипотез, по ним одним решения не принять.

Поэтому в статистике при малых выборках используют критерии, не использующие среднее и дисперсию, которые завязаны на приближении нормальным распределением. Примерами могут служить ранговая корреляция, критерий Манна-Уитни, точный тест Фишера и другие.

dim2r Jan 24 2019 at 13:31

Моделей много. Можно даже собрать супермодель, которая всех объединяет. Приписать каждой модели коэффициент её участия и оптимизировать эти коэффициенты точно так же, как я в статье оптимизирую theta

Xaliuss Jan 24 2019 at 14:43

Собирать супермодель это некорректный подход, при получении большого числа вторичных характеристик растёт вероятность ошибок первого рода.

Нельзя в статистике просто брать и что-то считать. Цель исследования должна быть поставлена заранее, и выбран метод, который лучше всего подходит для задачи. Пробовать различные подходы — путь к ошибкам.

dim2r Jan 24 2019 at 14:54

Не спорю, моделестроение — это тонкий процесс. Кто-то боится 5 свободных параметров включить. А кто-то и 200 миллионов включает. Например, глубокие нейронные сети содержат очень много параметров и каким-то образом выдают правильный результат несмотря на то, что эти параметры плавают.

Xaliuss Jan 24 2019 at 15:49

Так количество возможных параметров очень сильно зависит от исходных данных и их объёма. В рамках исходной задачи (малый объём выборки) предпочтительней являются модели не использующие среднее/дисперсию.

dim2r Jan 24 2019 at 16:03

Большая выборка включена в априорные распределения, которые подаются на вход Байеса. Но мы можем еще и выбирать между несколькими распределениями, делая их более или менее вероятными. Достаточно получить один белый шар, чтобы заключить, что белые шары имеются в большой выборке.

emwave Jan 28 2019 at 23:35

Нас учили, ч то при заданных условиях надо измерять на менее трех раз, а натягивание кривой на данные обязательно сопровождается доверительным интервалом и вероятностью соответствия. Приведенный пример про шары — полностью случайный процесс. Физики обычно имеют «правдоподобную математическую модель и зависимость», а измерение проводится для сравнения с «теоретической» зависимостью. Точность измерений определяется сравнением конкурирующих математических моделей явления.
А вообще, вопрос интересный, но думаю, на него есть четкий ответ (хотя я его не знаю)!

dim2r Jan 29 2019 at 12:04

Методов много, и даже можно свои придумывать. В данном случае на входе подаются так называемые априорные распределения. То это доопытные, но в тоже время хорошо проверенные функции. Насколько они удачно покрывают возможные экспериментальные процессы, настолько можно получать достоверные приближения. Плюс физики стремятся изолировать явления, чтобы они были простыми и хорошо описывались. В физике важна повторяемость и проверяемость. В конечном счете мерилом удачности модели является сам человек и насколько они считает полезными те или иные знания.

tri_ton Feb 10 2019 at 21:47

В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский.

Технические методички не читал (читал медицинские), но рискну предположить, что это числа из контекста сравнения выборок тестом Стьюдента и дисперсионным анализом, для корректного использования которых нужна относительная нормальность распределения внутри каждой выборки. Если в наличии только несколько измерений на выборку и нет априорного знания, что распределение должно быть нормальным, проверка нормальности имеет мало смысла. Отсюда и грубое правило, что для использования параметрических тестов нужно где-то 20-30 измерений на выборку, чтобы сначала иметь возможность проверить соответствие гауссиане. Иначе — непараметрические тесты в помощь.

Рассмотрим уже заезженную модель с ведром, в которое насыпали много черных и белых шаров и тщательно перемешали.

В постановке экспериментов в физике и технике ничего не понимаю, зато понимаю в биологии и медицине. И с точки зрения этих областей, данный пример звучит абсолютно искусственно и ну вообще никак не помогает. Практическая задача в простейшем случае звучит примерно так: есть две выборки по три измерения, и надо оценить, есть ли какая-то разница между группам? Кстати, применение байесовского подхода в таком примере более-менее разжёвано здесь.

dim2r Feb 13 2019 at 12:42

Без априорных знаний, наверное считать невозможно. Но откуда они берутся? — довольно тонкий вопрос. Идеальные модели берутся из математики, которая оперирует предельными приближениями, которых в природе не существует, так как в природе всегда конечное число событий. А когда вы исследуете что-то абсолютно новое, когда мало данных? — все зависит от везения — насколько вы угадали априорную модель, стоящую за процессом. Потом, со временем модель получает больше или меньше подтверждений благодаря большому количеству данных. В описанном подходе модель еще имеет свободный параметр, то есть описана сразу непрерывная пачка моделей. И получаемые данные уточняют свободный параметр. Вот насколько удачно эта пачка моделей покрывает реальный процесс и зависит её качество.

Show the best of all time