Pull to refresh

Закон больших чисел и то, чем он не является

Reading time 3 min
Views 31K
О законе больших чисел (збч) написано много (например, на английском, тут и тут, также [1]). В этом тексте я попробую рассказать о том, чем закон больших чисел не является – об ошибочном восприятии этого закона и потенциальных ловушках, спрятанных в математических формулировках.

Начнем с того, что же такое закон больших чисел. Неформально, это математическая теорема о том, что «вероятность отклонений среднего по выборке от математческого ожидания мала» и что «эта вероятность стремится к нулю при увеличении выборки». Совсем неформально, теорема утверждает, что с мы можем быть в достаточной степени уверены, что среднее по нашей выборке достаточно близко к «настоящему» среднему и таким образом хорошо его описывает. Разумеется, предполагается наличие традиционного статистического «багажа» — наши наблюдения из выборки должны описывать одно и то же явление, они должны быть независимы, и мысль о том, что есть некоторое «настоящее» распределение с «настоящим» средним, не должна вызывать у нас существенных сомнений.

При формулировке закона мы говорим «среднее по выборке», и все что может быть математически записано как такое среднее, попадает под действие закона. Например, доля событий в общей массе может быть записана как среднее, — нам достаточно записать наличие события как «1» и отсутствие как «0». В итоге среднее будет равно частоте и частота должна быть близка к теоретическому среднему. Именно поэтому по ожидаем, что доля «орлов» при подбрасывании идеальной монеты будет близка к ½.

Рассмотрим теперь ловушки и ошибочные представления об этом законе.

Во-первых, ЗБЧ не всегда верен. Это всего лишь математическая теорема с «входными данными» — предположениями. Если предположения неверны, то и закон не обязан выполняться. Например, это так если наблюдения зависимы, или если нет уверенности в том, что «настоящее» среднее существует и конечно, или если изучаемое явление меняется во времени и мы не можем утверждать, что мы наблюдаем одну и ту же величину. По правде говоря, в определенной степени ЗБЧ верен и в этих случаях, например, для слабокоррелированных наблюдений или даже в том случае когда наблюдаемая величина меняется во времени. Однако, для корректного приложения этого к непосредственной реальности нужен хорошо тренированный специалист-математик.

Во-вторых, кажется верным, что ЗБЧ утверждает «среднее по выборке близко к настоящему среднему». Однако, такое утверждаение остается не полным: надо обязательно добавлять «с высокой долей вероятности; и эта вероятность всегда меньше 100%».

В-третьих, хочется сформулировать ЗБЧ как «среднее по выборке сходится к настоящему среднему при неограниченном росте выборки». Однако, это неверно, потому что среднее по выборке вообще никуда не сходится, так как оно случайное и остается таковым для любого размера выборки. Например, даже если подбросить симметричную монету миллион раз, все равное есть шанс, что доля орлов будет далека от ½ или даже равна нулю. В определенном смысле, всегда есть шанс получить что-то необычное. Надо признать, однако, что наша интуиция все-таки подсказыает нам что ЗБЧ должен описывать какую-то сходимость, и так есть на самом деле. Только «сходится» не среднее, а «вероятность отклонения выборочного среднего от его истинного значения», и сходится к нулю. Так как эта идея интуитивно очень удобна («шансы увидеть что-то необычное стремятся к нулю»), матетматики придумали для этого особый тип сходимости – «сходимость по вероятности».

В-четвертых, ЗБЧ не говорит ничего о том, когда выборочное среднее можно считать достаточно близким к теоретическому. Закон больших чисел только постулирует существование определенного явления, он ничего не говорит о том, когда его можно использовать. Получается, на ключевой вопрос с точки зрения практики — «могу ли я использовать ЗБЧ для моей выборки размера n?», закон больших чисел не отвечает. Ответы на эти вопросы дают другие теоремы, например, Центральная Предельная Теорема. Она дает представление о том, в каких пределах выборочное среднее может отклоняться от своего истинного значения.

В заключение следует отметить центральную роль ЗБЧ в статистике и теории вероятностей. История этого закона началась тогда, когда ученые заметили, что частоты некоторых повторяющихся явлений стабилизируются и перестают существенно меняться, при условии многократного повторения опыта или наблюдения. Поразительным было то, что эта «стабилизация частот» наблюдалась для совершенно несвязаных явления – от бросания игральной кости до урожайности в сельском хозяйстве, указывая на возможное существование «закона природы». Интересно, что этот закон природы оказался частью математики, а не физики, химии или биологии, как обычно бывает с законами природы.

[1] Illustrating the Law of Large Numbers (and Confidence Intervals) Jeffrey D Blume & Richard M Royall
Only registered users can participate in poll. Log in, please.
Что Вы думаете про эту статью?
48.1% Интересно, понятно и релевантно для меня 38
6.33% Интересно, понятно, но не релевантно для меня 5
8.86% Интересно и релевантно, но не понятно 7
3.8% Интересно, но не релевантно и не понятно 3
2.53% Релевантно, но неинтересно и непонятно 2
12.66% Нерелевантно, неинтересно, непонятно 10
12.66% Понятно, неинтересно, релевантно 10
5.06% Понятно, неинтересно, нерелевантно 4
79 users voted. 9 users abstained.
Tags:
Hubs:
+6
Comments 13
Comments Comments 13

Articles