Pull to refresh

Comments 29

Когда в прогнозе пишут «вероятность дождя 50%», как это понимать? «Мы сами не знаем, будет дождь или нет»?
И как проверить достоверность этого прогноза? У нас ведь не будет серии экспериментов, а только один.

Это понимать в смысле количества информации. В таком контексте "вероятность" — мера нашего незнания, т.е. величина, связанная с информацией и энтропией. Вероятность 50% означает, что узнавание факта, пошел дождь или нет, даст нам ровно 1 бит информации. Если же вероятность дождя была оценена иной, то мы получим больше или меньше 1 бита.

Я думаю вопрос вероятности дождя лучше спрашивать у синоптиков, по крайней мере про ихние вероятности. Разные типы данных по разному могут считаться. Единственное что наверняка, это то что для любого прогноза должны быть распределение результата прогноза и доверительные интревалы.

Есть два подхода к пониманию вероятности: фреквентистский (вероятность — это предел частоты при увеличении числа экспериментов) и байесовский (вероятность — это уверенность в том, что событие произойдёт). Вот вероятность дождя — это пример байесовской вероятности.

Не подскажете, в каком учебнике есть об этих двух подходах?
Ок, а как проверить достоверность в случае байесовской вероятности? Событие-то одно будет.
Можно считать, что байесовская вероятность — это простая функция от коэффициента, по которому синоптик готов сделать ставку на то, что его прогноз сбудется. Например, если он говорит, что вероятность дождя 25%, значит, он готов заключить пари, что дождя не будет, поставив 3 против 1.
Тут происходит небольшая путаница в понимании. Следует различать следующие две постановки вопросов: вероятность дождя/события при таких то условиях — это то что я описал, но это не прогноз погоды на сейчас. И другой вопрос, прогноз произойдет ли это событие сейчас. Этот вопрос в статье я не описывал.
Не подскажете, в каком учебнике есть об этих двух подходах?

Можно просто про байесовский подход почитать. Например, можно начать с наглядного объяснения теоремы Байеса


Ок, а как проверить достоверность в случае байесовской вероятности? Событие-то одно будет.

А как проверить фреквентистскую вероятность? Ведь вероятность равна частоте при большом числе испытаний только с некоторой вероятностью. То есть, мы определяем вероятность через вероятность. О чём-то подобном писал Литтлвуд в «Дилемме теории вероятностей».

Есть вероятность равна частоте с вероятностью например 95%, это вполне устроит)

Та вторая вероятность, которая "с некоторой вероятностью", байесовская.

Байесовская вероятность зависит от наблюдателя. Она показывает, насколько данный наблюдатель будет удивлен, если событие произойдет. Ее можно непосредственно измерить после того, как данное событие (не) произойдет, по тому, как изменятся ожидания наблюдателя относительно других событий, т.е. по количеству информации.
Два разных человека могут приписать разные вероятность одному и тому же событию, и оба будут правы.

Здравствуйте.
В графике из Excel и следующем графике вы построили функции плотности бета распределения, оно в рассматриваемых вами случаях является сопряженным априорным распределением для параметра биномиального распределения. Параметры этих бета распределений в ваших примерах — (5,2); (8,3); (12, 4) и (25, 7). Например в R первую из этих функций можно построить командой curve(dbeta(x, 5, 2)). Выполнить эту команду и посмотреть результат можно здесь.

Доверительный интервал для параметра биномиального распределения по данным наблюдений можно найти используя метод Клоппера-Пирсона (или, как вариант, снова задействовать бета распределение). Так для 24 успехов из 30 испытаний 95% интервал Клоппера-Пирсона в R находится как binom.test(24, 30, conf.level = 0.95)$conf.int. В результате получаем (0.61, 0.92).
update: для дов. интервала взял цифры не из того графика автора, исправил.
Это да, но у меня это более простыми методами продемонстрированно как это образуется, возможно будет понятно более широкому кругу людей.
Тогда, на мой взгляд, вам стоило добавить, что помимо сэмплирования можно обойтись формулами. При таком подходе вместо усеченного нормального 0.5, 0.1 распределения органичней смотрится beta распределение с параметрами 12.75, 12.75. Эти распределения почти неразличимы.

код в R
# 2*pnorm(0, 0.5, 0.1) < 6*e-07, поэтому допустим обычный dnorm(0.5, 0.1)
curve(dnorm(x, 0.5, 0.1), lwd = 3, col = "red", ylab = "PDF")
curve(dbeta(x, 12.75 , 12.75), lwd = 3, col = "blue", lty = 2, add = T)
legend(0, 4, c("Normal(0.5, 0.1)", "Beta(12.75, 12.75)"), lwd = 3,
col=c("red", "blue"), lty = 1:2, bty = "n")


И мы вновь можем воспользоваться формулами.
Ваш график для случая 40/50 строится как curve(dbeta(x, 52.75, 22.75)).
А границ дов. интервала находятся как qbeta(0.025, 52.75, 22.75) и qbeta(0.975, 52.75, 22.75).
Вашы посты для меня очень итересны. Но обычно те кто хорошо знает тему, они не очень торопятся объяснять, особенно так что бы было понятно
тем кто еще не знает. Можете ли разъяснить, как были получены коэффициенты для бета распределения? И так же интересует, как расчитывать доверительные интервалы для этих распределений без
программы R, мне по крайней мере это нужно в c++, и текущий используемый мной вариант несколько ужасен.
Параметры beta распределения находил в предположении его симметричности и что максимум его функции плотности должен совпадать dnorm(0.5, 0.5, 0.1). То есть, решил уравнение dbeta(0.5, x, x) = dnorm(0.5, 0.5, 0.1). В общем случае надо использовать функцию плотности усеченного нормального распределения — dtruncnorm.

Для расчета квантиль функций проще всего использовать с/c++ библиотеки. В частности, бета распределение в GSL и в Boost. Или вы хотите реализовать эти вычисления самостоятельно?
Не, самостоятельно реализовывать это лишне, если уже есть. Там пределы предельных формул, это уже за пределами моих возможностей и дефицита времени).

А вот эта dbeta(x, 52.75, 22.75) как образовалась? Исходные это dbeta(x,12.75,12.75) и dbeta(x,41,11). Можно было бы предположить какую-нибудь слагаемость, но получается лишняя единичка.
При априорном равномерном распределении параметры равны (1,1), так как dunif(0,1) = dbeta(1,1).
При априорном усеченном нормальном распределении параметры равны (12.75, 12.75).
После 40 успехов в 50 испытаниях апостериорные параметры получаются равными (41, 11) при первом предположении и (52.75, 22.75) во втором случае.
Вот эта цифра 52.75, это образовалось таким образом 41+12.75-1? Если да, то на основании каких свойств?
Нет, 52.75 = 12.75 + 40. Используем число наблюдаемых успехов — 40.
Непонятно почему именно здесь именно так, но удостоверюсь итерационно, и буду использовать.

В любом случае спасибо, как раз поставил gsl и посчитал квантили от бета. Давно искал.
Честно говоря, мне непонятно, почему вы в качестве слагаемого хотите использовать 41. Откуда появилась эта дополнительная 1, ведь число успехов 40? Вероятно, мы друг друга недопонимаем.
Посмотрите вывод этой формулы, например, здесь или в википедии.
Именно такие отсылки я и хотел увидеть, спасибо, буду осмысливать.
Доверительный интервал часто используют не в процентах, а в сигмах(среднеквадратичных отклонениях).
Например, в физике частиц, явление признают, если статистическая значимость не менее 5 сигм (т. е. с вероятностью 1 — 0.0000003)
Это допустимо только для симметричных функций. Значение вероятности распределяется не симметрично, значит одна из сторон области будет кривой и может вообще выйти за границы 0..1.
Полученный расчет закинул в эксель и сделал график

image

А чем вам ексель не угодил? Я бы лично делал визуализацию в R, ну или Python, просто потому что мне так привычнее, но когда я смотрю на график, мне всё равно, как он сделан, лишь бы был корректным и легко читаемым.

Вероятность можно оценить до опыта из соображений симметрии. Есть правильная игральная кость, вероятность выпадения каждой грани одна шестая. Дальше бросаем эту кость, будет ли частота стремиться к вероятности? Если бросать каждый раз совершенно (идеально) одинаково, то и выпадать должна одна и та же грань. Но мы бросаем не совсем одинаково и разница быстро увеличивается, если кость подпрыгнет пару раз. На эту тему есть наука «эргодическая теория» (частота стремится к вероятности, если выполнено некоторое «свойство перемешивания», то есть первоначальные малые различия быстро растут со временем).
>Вероятность можно оценить до опыта из соображений симметрии.
из соображений механических и прочих свойств исследуемого события. Что я и делаю относительно монеты — делаю предпосылку что там более специфичная вероятность. И уже после еще более уточняю первую предпосылку. Для игральной кости разбросы могут быть не в десятые вероятности, а в тысячные или более. Но дальше картина та же.
Sign up to leave a comment.

Articles