Pull to refresh

Comments 49

В универе когда учился и подрабатывал на полставки один хороший профессор попросил сделать электронную версию ценной ему книги. Вот сейчас поискал в сети и нашел название. Книга называлась: Гаскаров, Шаповалов «Малая выборка». Показалась мне очень интересной, но в студенческие годы времени на неё не нашел.
Да было бы интересно заглянуть в текст.
В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений.
Колдунство какое-то которое заставляет тупо заучивать числа не понимая сути. Проблема ведь не в том что по 29 измерениям дисперсию считать нельзя, а по 30 уже можно. Проблема в статистической значимости гипотез которые можно построить по таким измерениям.
В целом статья совсем слабая — даже для школьников. Я когда решил учить эконометрику остановился на курсе Б.Б. Демешева из НИУ ВШЭ (он есть на онлайн площадках). Вот там мат. аппарат даётся очень хорошо — вся мат. статистика по полочкам раскладывается. И программирования в R там хватает с головой.
У меня не было цели осветить всю мат статистику. Просто напомнил, что есть метод, который дает считать статистику с одного примера. И дает обратный ход мысли — от заданных данных к вероятности причин.
Просто напомнил, что есть метод, который дает считать статистику с одного примера.


Извините, но нет, нет такого метода.
Это как сказать, что вероятность встретить динозавра = 50%.
Если известны априорные вероятности, то можно считать апостериорные по одному случаю. В таких вопросах, как причина возникновения вселенной — неизвестны априорные. А вот в вопросах вынимания шариков — априорные известны и можно проводить оптимизацию параметров модели.
Вы пишите «Если». До этого писали «есть метод… с одного примера». Почувствуйте разницу. И теорема Байеса — это не «серебряная» пуля.
Если мы априори знаем, что динозавры вымерли, то как построить фактическую выборку, пусть даже с одним измерением?
Одним измерением можно более-менее опровергнуть гипотезу, но не подтвердить. Что вы вкладывает в слова «считать статистику» — для меня загадка.

P.s. Изменено, когда заметил, что отвечаю автору.
Прошу прощения, не сразу заметил, что вы и есть автор, посыпаю голову пеплом.
Мой посыл прост, теорема Байеса не дает нам дополнительных преимуществ или какого либо улучшения. Это просто инструмент, как молоток или отвертка. В статистике выбор модели и однородность выборки имеют куда более весомое значение. Границы применимости одного измерения или n-измерений как раз напрямую и зависят от выбранной модели.
Да, все зависит от того, насколько модель покрывает реальные случаи. А в случае с динозаврами, — как это узнать, покрывает ли она или нет? Нужны дополнительные данные.

Но у Байеса есть один плюс — масштабируемость. Вы можете построить несколько моделей и связать их. Они будут уточнять друг друга из разных источников.

В принципе модель — это модель, а не реальность. По аналогии: карта — это не местность. Нельзя сделать карту идентичную местности. Местность изменяется со временем и содержит мелкие детали. И так же нельзя сделать точную модель, на которую можно положиться во всех случаях. Можно только попытаться сделать что-то, что будет полезно для определенных случаев.

На длинах получающихся серий при смене лечения с тестируемого на контрольное и обратно, основано много адаптивных дизайнов контролируемых клинических испытаний, там, где важно сократить число испытуемых вообще и размер группы, получающей худший вариант. Деталей не помню, но этот подход был изобретен в Штатах во время второй мировой и долгое время засекречен, так как позволял сильно уменьшить расход боеприпасов при контрольных отстрелах.
Раз уж тут статистический уголок ;) спрошу: где-то есть теория и практика измерений несколькими приборами? Я не смог найти. Т.е. не как описано выше (у нас есть N измерений постоянной величины одним и тем же прибором), а у нас есть M измерений меняющейся величины разными приборами (в отдельные моменты времени). Каждый прибор, конечно, имеет свои систематические и случайные ошибки, и поэтому кажется, что этот случай не сводится к повторным измерениям одним прибором. Интересует истинное значение измеряемой величины (хаха, ок, мат.ожидание или другая оценка) и сигма и другие характеристики. Самое простое, конечно, это среднее, но может есть что-то получше? Или, скажем, если погрешность 20 приборов 1%, и ещё пяти — 0.2%, то как подсчитать оценку величины и какова погрешность измерений 25 приборами?
Где-то была задачка про больного, которого проверяют на приборе и обнаруживают редкую болезнь. Прибор может иногда врать и болезнь довольно редкая. Надо было посчитать вероятность реальной болезни. Получались забавные числа, — что не надо паниковать, а надо заново проверяться. Там был расчет пр Байесу с повторной проверкой на том же приборе и на другом приборе.
хорошо разложено,

но в таких задачках иногда не учитывают случай, когда прибор работал с ошибкой, но тем не менее выдал правильный результат. Если это учесть, то будет еще одна ветка в байесовском графе и финальные числа немного изменятся
Извините, немного не понял.
Рассматривается четыре типа исходов:
cancer & positive
cancer & negative
healthy & positive
healthy & negative
Какой из них этот случай?
Так это оно и есть.
Мы ищем случай заболевания.
Перевожу в вашу систему координат.

cancer & positive == true positive
cancer & negative == true negative
healthy & positive == false positive
healthy & negative == false negative
cancer & positive == true positive
cancer & negative == true negative <=======
healthy & positive == false positive
healthy & negative == false negative <======

Ничего не напутали?!
Ничего.
Если человек болен, значит ответ true.
В чём сомнения?
Уверены, что больной с отрицательным результатом — это истинно негативный, а здоровый с отрицательным — ложно негативный? Мне всегда казалось наоборот…
Смотря какого результата ожидаете :)
Обычно за истину берётся то, что определяется.
Если определяете болезнь, то и истинным исходом будет наличие заболевания.
Слушайте, зачем Вы вносите какие-то удивительные вещи в четырехклеточные таблицы?
  1. наличие болезни и положительные тест — true positive
  2. наличие болезни и отрицательный тест — false negative
  3. отсутствие болезни и положительный тест — false positive
  4. отсутствие болезни и отрицательный тест — true negative

Далее из этих четырех долей получают чувствительность, специфичность и все-все-все остальное.
У вас название пунктов 2 и 4 перепутаны. Зачем спорить?
У меня перепутаны? :)
Смотрите что пишете:
1. наличие болезни и положительные тест — true positive
2. наличие болезни и отрицательный тест — false negative

То есть, и в первом и во втором случаях болезнь есть, но в первом она маркируется как true, а во втором как false.
Комментарии излишни.
Это не маркировка, а устоявшаяся терминология. Которую Вы использовали неверно. That's simple.
Я рад, что вы знаете английский.
Ещё раз — я писал в системе координат болезнь есть/нет -> true|false, оценка -> positive|negative.
Посмотрите здесь
Могу попросить прощения, что случайно ввёл в заблуждение, если хотите.
Я как-то пересчитывал на такой вариант. Получались небольшие различия в числах.

cancer & true positive
cancer & false positive

cancer & true negative
cancer & false negative

healthy & true positive
healthy & false positive

healthy & true negative
healthy & false negative


Это на самом деле известная проблема измерений. Когда результат устраивает, то приборы не проверяются на работоспособность.
Извините, но тут путаница.
Вы же сами мне приводили ссылку про Precision and recall.
Это основополагающие вещи для определения качества оценки.
Давайте для простоты перейдём на русский язык.

Мы работает с гипотезой с двумя исходами (рак/здоровый).
В случае определения заболевания пациенты находятся в двух группах: имеющие заболевание (рак) и не имеющие (здоровый).
Это реальные объективные данные, которые нам не известны.

С помощью прибора пытаемся определить кто больной, а кто нет.
Прибор выдаёт свои да/нет, и может ошибаться.
Тогда получается четыре исхода:
1. человек болен, и прибор говорит, что он болен (рак & да)
2. человек болен, но прибор ошибается и говорит, что он здоров (рак & нет)
3. человек здоров, но прибор ошибается и говорит, что он болен (здоров & нет)
4. человек здоров, и прибор говорит, что он здоров (здоров & нет)

Всё, больше исходов нет.
Из них 1 и 4 — это правильные ответы, а 2 и 3 — ошибки.
2 исход называется ошибкой первого рода (гипотеза правильная, а оценка ошибочна)
3 исход — ошибкой второго рода (гипотеза неправильная, на самом деле человек здоров, а прибор перебдел).

Стоимости ошибок первого и второго рода, как правило, разные, поэтому и приборы настраиваются соответственно.
Для турникета в метро будет дороже ошибка первого рода, и её надо минимизировать, а у системы предупреждения о ракетном нападении — дороже ошибка второго рода.
Можно и так, только не учитывается, что нерабочий прибор может показать правильный результат. Я делал пересчет с учетом этого случая и числа различались процентов на 5%. Но я думаю, что можно найти параметры, когда будет более заметное расхождение.

Есть тенденция считать, что если прибор дает результаты, которые логичны и вписываются в теорию, то значит прибор правильно работал. А если результат не вписывается в теорию, то прибор проверяется и эксперименты повторяются.

Но иногда совпадение с теорией — это просто совпадение. Правильнее проверять в обоих случаях.
Можно и так, только не учитывается, что нерабочий прибор может показать правильный результат.

Что это значит?
Вы понимаете, что «прибором» можно считать и подбрасывание монетки?
И на этом основаны некоторые статистические проверки.
Когда сравнивается ответ настоящего прибора и «прибора»-монетки.
Например, позволяет избежать эффекта Бонферрони.
Вот выдержка из «Mining of Massive Datasets», прочтите, это интересно.

Но всё таки как? Как вы делали пересчёт?
Чуть позже выкладки воспроизведу.…

Возникла мысль про Бонферрони. Я про это тоже думал только с другой стороны. Есть строгое доказательство, что в любом довольно большом массиве случайных целых чисел можно найти арифметическую последовательность. На этот счет есть теория Рамсея и теорема Семереди. К сожалению в объяснены они в википедии слишком мудрено. Принцип такой, что в любом большом хаосе можно найти немного порядка.
Финальная картинка, где белка даёт пять — позитивчик! :)
она просит еще «данных» :)
Прошу прощения за критику, но статья капитанская, а формулы вставлены для научноподобности.

Можно подвести итоги выкладок. При малом количестве данных надо иметь модель, параметры которой мы будем оптимизировать. Модель описывает набор предположений о реальном состоянии дел и мы выбираем наиболее подходящее предположение. Модель должна покрывать возможные варианты, которые мы встретим. При малом количестве данных модель будет выдавать большую дисперсию для выходных параметров, но по мере увеличения количества данных дисперсия будет уменьшаться и прогноз будет более однозначным.


Этот пассаж, который вынесен в итог всей статьи является чуть ли не первопричиной статистики как науки.
Основная задача статистики — проверка гипотез, в частности, на соответствие теоретической модели. Чем больше мы знаем априори об исследуемой модели, тем меньше нам нужно фактических данных, чтобы подтвердить или опровергнуть гипотезу.
Это просто «медицинский» факт.

Проблема широкого применения статистических методов (например в медицине) в том, что модель подгоняют под статистические измерения, которые весьма ограничены и есть проблемы с однородностью выборок, в то время как модель должна быть выбрана заранее исходя из фундаментальных предположений, и должна быть подтверждена или опровергнута с какой-то вероятностью статистическими данными.

А я не спорю. Нужно знать априорные, чтобы считать апостериорные. Плюс есть ход мысли от фиксированных данных к вероятности причин, а не стандартный ход от фиксированной модели к вероятным данным.
исправил. это словарь решил «поразмять»

Статья понравилась, но есть некоторые придирки. Статистика — это функция от выборки. Когда данных мало для изучения поведения статистики (интервалов например), пользуются бутстрапом. Это все "обычная" статистика.


Байесовская действительно о большем уровне уверенности в гипотезе (или её опровержение) при получении новых свидетельств (данных). Многие называют это дело верой скорее, если так, то я верю. Потому что (спасибо за аналогию) изучая местность, мы обновляем карту.

Если у нас есть возможность получать больше данных, то проблемы со статистиками можно решать массой способов. Но если максимальный объём выборки мал (меньше 30), то ваш метод в принципе не может улучшить статистическую значимость — среднее и дисперсия в первую очередь нужны для проверки статистических гипотез, по ним одним решения не принять.

Поэтому в статистике при малых выборках используют критерии, не использующие среднее и дисперсию, которые завязаны на приближении нормальным распределением. Примерами могут служить ранговая корреляция, критерий Манна-Уитни, точный тест Фишера и другие.
Моделей много. Можно даже собрать супермодель, которая всех объединяет. Приписать каждой модели коэффициент её участия и оптимизировать эти коэффициенты точно так же, как я в статье оптимизирую theta

Собирать супермодель это некорректный подход, при получении большого числа вторичных характеристик растёт вероятность ошибок первого рода.

Нельзя в статистике просто брать и что-то считать. Цель исследования должна быть поставлена заранее, и выбран метод, который лучше всего подходит для задачи. Пробовать различные подходы — путь к ошибкам.
Не спорю, моделестроение — это тонкий процесс. Кто-то боится 5 свободных параметров включить. А кто-то и 200 миллионов включает. Например, глубокие нейронные сети содержат очень много параметров и каким-то образом выдают правильный результат несмотря на то, что эти параметры плавают.
Так количество возможных параметров очень сильно зависит от исходных данных и их объёма. В рамках исходной задачи (малый объём выборки) предпочтительней являются модели не использующие среднее/дисперсию.
Большая выборка включена в априорные распределения, которые подаются на вход Байеса. Но мы можем еще и выбирать между несколькими распределениями, делая их более или менее вероятными. Достаточно получить один белый шар, чтобы заключить, что белые шары имеются в большой выборке.
Нас учили, ч то при заданных условиях надо измерять на менее трех раз, а натягивание кривой на данные обязательно сопровождается доверительным интервалом и вероятностью соответствия. Приведенный пример про шары — полностью случайный процесс. Физики обычно имеют «правдоподобную математическую модель и зависимость», а измерение проводится для сравнения с «теоретической» зависимостью. Точность измерений определяется сравнением конкурирующих математических моделей явления.
А вообще, вопрос интересный, но думаю, на него есть четкий ответ (хотя я его не знаю)!
Методов много, и даже можно свои придумывать. В данном случае на входе подаются так называемые априорные распределения. То это доопытные, но в тоже время хорошо проверенные функции. Насколько они удачно покрывают возможные экспериментальные процессы, настолько можно получать достоверные приближения. Плюс физики стремятся изолировать явления, чтобы они были простыми и хорошо описывались. В физике важна повторяемость и проверяемость. В конечном счете мерилом удачности модели является сам человек и насколько они считает полезными те или иные знания.
В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский.

Технические методички не читал (читал медицинские), но рискну предположить, что это числа из контекста сравнения выборок тестом Стьюдента и дисперсионным анализом, для корректного использования которых нужна относительная нормальность распределения внутри каждой выборки. Если в наличии только несколько измерений на выборку и нет априорного знания, что распределение должно быть нормальным, проверка нормальности имеет мало смысла. Отсюда и грубое правило, что для использования параметрических тестов нужно где-то 20-30 измерений на выборку, чтобы сначала иметь возможность проверить соответствие гауссиане. Иначе — непараметрические тесты в помощь.

Рассмотрим уже заезженную модель с ведром, в которое насыпали много черных и белых шаров и тщательно перемешали.

В постановке экспериментов в физике и технике ничего не понимаю, зато понимаю в биологии и медицине. И с точки зрения этих областей, данный пример звучит абсолютно искусственно и ну вообще никак не помогает. Практическая задача в простейшем случае звучит примерно так: есть две выборки по три измерения, и надо оценить, есть ли какая-то разница между группам? Кстати, применение байесовского подхода в таком примере более-менее разжёвано здесь.
Без априорных знаний, наверное считать невозможно. Но откуда они берутся? — довольно тонкий вопрос. Идеальные модели берутся из математики, которая оперирует предельными приближениями, которых в природе не существует, так как в природе всегда конечное число событий. А когда вы исследуете что-то абсолютно новое, когда мало данных? — все зависит от везения — насколько вы угадали априорную модель, стоящую за процессом. Потом, со временем модель получает больше или меньше подтверждений благодаря большому количеству данных. В описанном подходе модель еще имеет свободный параметр, то есть описана сразу непрерывная пачка моделей. И получаемые данные уточняют свободный параметр. Вот насколько удачно эта пачка моделей покрывает реальный процесс и зависит её качество.
Sign up to leave a comment.

Articles