Comments 19
Эхх, будь у меня в школе такой препод по математике, я наверное не был бы таким нубом в данной области. Но статью все равно прочитал на одном дыхании, спасибо!
Обычно ее принято обозначать как P(p=x|s решек, f орлов) и называть плотностью вероятности. Читается это так вероятность, того, что вероятность выпадения орла равна x, если по данным эксперимента выпало s решек и f орлов.

Wait, wait! То ли я не понял формулировку, то ли в определении что-то не так. Во-первых, плотность вероятности (probability density function) определена только для непрерывных случайных переменных, а для дискретного случая используется probability mass function. PMF, по сути, равна функции вероятности, но это скорее совпадение, чем внутреннее средство (сравните с PDF, для которого вероятность выпадения конкретного значения вообще стремится к нулю). Во-вторых, ни одна, ни другая функция не сама по себе ничего не говорит об evidence (число орлов и решек в сэмпле) или условных вероятностей.
>>определена только для непрерывных случайных переменных
p вероятность «орла» непрерывна, бета распределение тоже непрерывно.

Мы говорим «плотность» поскольку все точечные вероятности бесконечно малы.

>>Во-вторых, ни одна, ни другая функция не сама по себе ничего не говорит об evidence (число орлов и решек в сэмпле) или условных вероятностей.
Я не понял вас.
так, погодите. случайная переменная у вас — это сторона монеты, верно? стороны всего 2, и элементарных события, соответственно, 2. распределение вероятности в одном эксперименте бинарно (распределение Бернулли), в нескольких экспериментах — биномиально. оба распределения дискретные. по всей видимости, вы подразумеваете оценку среднего популяции по сэмплу. т.е. случайная переменная здесь — сама вероятность. но это ведь уже совсем другая история, которая к теореме Байеса имеет весьма отдаленное отношение.
случайная переменная здесь — сама вероятность. но это ведь уже совсем другая история, которая к теореме Байеса имеет весьма отдаленное отношение.

А почему, собственно, «весьма отдалённое»? У нас есть набор событий (непрерывный), заключающийся в том, что параметр монеты (вероятность выпадения орла) равен t. Есть формула для условной вероятности — если параметр равен t, то вероятность того, что за столько-то испытаний выпадет столько-то орлов. И, наконец, есть наблюдаемое событие — что орлов выпало именно столько.
Так что, для применения формулы осталось только узнать (или придумать) априорное распределение параметра t. А там уже наш выбор — брать его непрерывным на [0,1], дискретным, принимающим только значения n/100, принадлежащим канторову множеству… В любом случае, формула p(t=x) = papr(t=x)*R(x)/int(papr(t=u)*R(u),u=0..1) где R(t) — условная вероятность наблюдаемого исхода, работать будет (при подходящем выборе меры, по которой идёт интегрирование).
Вот примерно это я и имею ввиду под «весьма отдалённое» :D Т.е. если речь в статье именно об этом, то ок. Есть непрерывная случайная переменная p, каждое наблюдение которой — это mean от сэмпла какой-то другой переменной. Но ведь дальше в статье речь идёт о биномиальном распределении, которое никак не относится к нашей непрерывной переменной p, а только к пораждающим сэмплам.

В общем, я не то, чтобы не согласен с написанным в статье, я просто не понимаю, как всё это связано.
Вернемся к началу.

У нас есть монета. У нее есть вероятность выпадения решки. Обозначим ее p. 0<=p<=1. Нам проще в дальнейшем называть p симметричностью монеты и считать некоторым свойством монеты. Монету мы не меняем в ходе эксперимента, поэтому p однозначно и фиксировано, но мы его не знаем.

Есть событие «Симметричностью монеты равно x» обозначим его как p=x. У события есть некоторая вероятность: P(p=x).

Мы провели эксперимент и получили s решек, f орлов. Обозначим это как событие [s,f].

Теперь нам нужно оценить p по данным эксперимента. В формулу Байеса вместо А подставим событие p=x. Вместо B подставим событие [s,f].

P([s,f]|p=x) — вероятность того, что мы получили s решек и f орлов если событие p=x произошло(если p=x). Нам известна из формулы биномиального распределения.
«Но ведь дальше в статье речь идёт о биномиальном распределении, которое никак не относится к нашей непрерывной переменной p, а только к пораждающим сэмплам. „
Я опять вас не понял. Мы решаем обратную задачу, а не прямую. Мы оцениваем вероятность выпадения орла по данным экспериментов.
Вот теперь я вас понял, да. Но формулировки всё-таки не точны. Например:

И читать: так вероятность того, что p=x…

Но ведь мы уже выяснили, что для непрерывной переменной p вероятность равенства любому конкретному значению x стремится к нулю. По сути, для непрерывных переменных смысл имеет только кумуллятивная вероястность. А так становится трудно интерпретировать формулы вроде «P([s,d]|p=x)».

Ну да ладно, общую идею я понял. Более интересна тема «холивара» (хотя какой там холивар, все уже давно помирились :)).

Сторонники классической интерпретации (частотного подхода, ЧП), считают, что все возможные p равновероятны до начала эксперимента. Т.е. перед экспериментом нужно «забыть» те данные, которые нам известны до него. Их оппоненты, сторонники байесовского подхода (БП), считают, что нужно задать какую-то априори исходя из наших знаний до начала эксперимента. Это фундаментальное отличия, даже определение понятия вероятности у этих групп разное.

Я всегда считал, что всё ровно наоборот. Частотный подход — это когда вероятность рассчитывается по частоте предыдущих событий. Бросили монетку 10 раз, 6 раз выпал орёл, значит вероятность выпадения орла — 6/10. Проблема с таким подходом возникает, когда в прошлом не было ещё события некоторого типа. Например, если все 10 раз монета упала решкой вверх, то вероятность выпадения орла равна 0? Да вряд ли. Байесовский (или субъективный) подход, напротив, говорит, что вероятность — это степень нашей веры в некоторое событие. Субъективисты без доли зазрения добавят к каждому варианту — орлу и решке — по единице (хорошо известная техника add-one smoothing), и скажут что P(решка)=(1+10)/12 = 11/12 и P(орёл)=(1+0)/12 = 1/12. Одна двенадцатая — это уже более правдоподобно. А можно вообще не поверить предыдущим цифрам, а поверить продавцу, который говорил, что монетка без перевеса, и даёт орлов с вероятностью 0.5. И это тоже будет вполне нормальный байесовский подход. Конечно, по той же логике можно сказать, что вероятность сегодня вечером встретить динозавра — 50/50, потому что нам так сказал сосед. Но тут мне нравится пример от Daphne Koller: она проводит аналогию со ставками в азартных играх — хороший игрок будет пытаться вывести такие вероятности, чтобы максимизировать свой выигрыш. В такой ситуации игнорировать данные и «верить» в ничем неподтверждённые коэффициенты как-то нехочется.
>>p вероятность равенства любому конкретному значению x стремится к нулю. имеет только кумулятивный вероятность.
В принципе верно. Но это не мешает считать p=x событием.

ЧП более жёсткий подход. Определение вероятности частота при бесконечном числе испытаний. Он строго математический. Но из-за этой строгости мы ничего толком не можем посчитать в обратной задаче. Кроме доверительного интервала. Который практически ничего не значит.

Если мы подкинули монетку 100 раз и получили 40 орлов и 90% дов интервал равен (0.3,0.5) это не значит что симметричность монетки с вероятностью 90% лежит в этом интервале. Это значит что если мы подкинем монету еще 100 раз, потом еще 100 раз и так далее до бесконечности. То если мы посчитаем для каждой сотни дов. интервал, то симметричность монетки будет лежать в 9 из 10 90% дов. интервалов. Причем у каждой сотни свой дов интервал. Мы без априори ничего лучше точно не можем сказать.

Хотя есть и неточные методы оценки. Выборочное среднее и прочее, но они не называются вероятностью.

У БП более мягкое определение. Степень уверенности. Грубо говоря: какую оценку мы можем дать по имеющимся у нас данным. В БП нормальный дов. интервал. Если мы подкинули монетку 100 раз и получили 40 орлов и 90% дов интервал БП равен (0.3,0.5) это значит что симметричность монетки с вероятностью 90% лежит в этом интервале. Но проблема в том, что мы должны субъективно выбирать априори.
Например, если говорят 80% доверительный интервал для p равен 45% до 55%, то это значит с 80% вероятностью p находиться между 45% и 55%.

Это не совсем верно. Туть есть нюансы, о которых точно надо сказать, т.к. многие путают:

<More specifically, the meaning of the term «confidence level» is that, if confidence intervals are constructed across many separate data analyses of repeated (and possibly different) experiments, the proportion of such intervals that contain the true value of the parameter will match the confidence level.

...when we say, «we are 99% confident that the true value of the parameter is in our confidence interval», we express that 99% of the observed confidence intervals will hold the true value of the parameter...

A confidence interval does not predict that the true value of the parameter has a particular probability of being in the confidence interval given the data actually obtained. Intervals with this property, called credible intervals, exist only in the paradigm of Bayesian statistics, as they require postulation of a prior distribution for the parameter of interest.

en.wikipedia.org/wiki/Confidence_interval
Если честно, я не полностью улавливаю разницу между баесоновским и обычными доверительными интервалами.
А все понял когда обычный 80% доверительный интервал = 1-2%. Это что в 80% случайных независимых выборок искомое значение будет находится в этом интервале в их 80% доверительный интервале.
доверительный интервал строится всегда по определенной выборке, для каждой новой выборки он будет разный. и когда мы получили выборку, оценили параметр и сделали для него доверительный интервал, то параметр либо в него попал, либо нет.

а если мы берем одну выборку, строим один интервал и говорим — с вероятностью 80% мое значение в этом интервале, то нам пора в больничку :) потому что на одной выборке и в одном интервале значение либо попало, либо не попало. и нет никакой вероятности. а вот если мы сделаем 100 выборок, построим везде интервалы, то в 80% этих интервалов значение действительно окажется где-то внутри.

честно говоря, я не особо разбирался в credible interval для байесовской вероятности, т.к. большую часть времени просто работал с достаточно ходовыми моделями, и до этого как-то не доходило (о чем жалею). но если верить Вики, то credible interval как раз говорит, что с вероятность 80% наше значение внутри такого интервала, т.к. есть априорное распределение.
credible и confidence при a=1, b=1 отличаются не сильно. У нас в калькуляторе credible (нужно обновить документации все-таки). Я все думал, почему он отличается на пару сотых процента от Вилсона.
Only those users with full accounts are able to leave comments. Log in, please.