Sistemaalex 18 июл 2019 в 02:43

Белый шум рисует черный квадрат

3 мин

11K

Data Mining*Алгоритмы*Big Data*Математика*Открытые данные*

+16

Комментарии 22

Dotarev 18 июл 2019 в 07:54

можно предположить, что общие данные состоят из композиции трех функций

Более того, статистика может ответить на вопрос, какова вероятность того, что это предположение верно. Физики давно в этом разобрались.

Sistemaalex 18 июл 2019 в 09:06

В работе аналитика немного по другому, вот цитата из вашего материала:

Если статистические погрешности всегда можно обсчитать аккуратно, то систематические погрешности — это немножко искусство. Более того, из многолетнего опыта известно, что сильные систематические отклонения уж точно не описываются нормальным распределением, и потому для них эти правила пересчета не справедливы. Так что даже если экспериментаторы всё перепроверили много раз и указали систематическую погрешность, всегда остается риск, что они что-то упустили из виду.

Систематическая погрешность при работе с большими данными заключается в том, что повторить опыт получения этих данных и получить их повторно практически невозможно. Так как вернуть, допустим систему ERP крупного предприятия, в состояние, которое соответствовало на дату, допустим, год назад, а потом фиксировать данные работы этой системы следующий год, для сравнения с имеющимися, невозможно. То есть аналитик может расширить, имеющиеся у него данные, но повторить опыт возможности нет. И это уже систематическая ошибка

Sistemaalex 18 июл 2019 в 12:46

Задали в личку вопрос: Орлов все-таки, или решек?
Ответ такой:
Монете все равно, как мы назовем ее стороны: «решка-орел», «1-0», «аверс-реверс», «герб-лицевая». «Герб» написал так как в книге дается такая формулировка. Так как с этим пытался разобраться, пытаясь найти доказательство в оригинале или переводе и не нашел его, поэтому и акцентировал в примечании. Деталь существенная, так как от того, что они считали максимум или минимум можно понимать, как этот индикатор можно использовать, кроме того что описал.
По сути мы можем обозначить «1», любую сторону, тогда вторая сторона становится 0.

ignorance 18 июл 2019 в 23:41

Спасибо за статью, любопытно.
Конечно, есть пожелание большей математической строгости.
Насколько я нашел, исследования Эрдеша и Реньи относятся к случайным графам, и по-видимому, результат с последовательностью орлов длиной log2(n) является следствием более общих.
Поскольку мы не знаем асимптотику, то считать, что длины цепочек 235 и 448 эквивалентны бесконечности может быть слишком смелым утверждением.
Кроме того, из приведенного утверждения никак не следует, что нельзя встретить цепочку длиной log2(n) + 1 или что цепочка log2(n) должна быть единственной.

Sistemaalex 18 июл 2019 в 23:56

Наверное поэтому и написал этот материал, вдруг кто нибудь обнаружит эту теорему с доказательством и поделиться находкой.
Возможно там бы, из доказательства, было бы понятно, как обращаться с конечными цепочками, как относиться к цепочкам log2(n)+1. Как понимать, если цепочка log2(n) не единственная. Я привел один пример, но по моим размышлениям этих последствий может быть значительно больше. Об этом в конце намекнул, когда написал, что выработанная практика статистики исследует, с точки зрения доступного человеку объема, такой объем который память не может вместить. И вполне возможно, что если посмотреть на большие данные, с точки зрения их размерности, то обнаружатся такие закономерности, о которые сейчас даже в фантастике не описаны

VDG 21 июл 2019 в 05:05

Разъясните, пожалуйста. Если, допустим, в битовой последовательности длиной 448 обнаруживается цепочка из 14-и единиц (выше порога по формуле, равного 8), то говорит ли это о наблюдении чего-то неслучайного?

Вопрос возник из следующего. Дендритные ветки нейрона можно представить как битовую последовательность. Ветка, а затем и весь нейрон, срабатывает, когда в любом её месте активируется цепочка синапсов. У нейрона есть задача не срабатывать на белый шум, соответственно, минимальная длина цепочки, насколько помню было у Нументы, равна 14 синапсам у пирамидального нейрона с его 10 тысячами синапсов. И по формуле получаем: Log2(10000) = 13,287. То есть, цепочки длиной меньше 14 будут возникать из-за естественного шума, но не будут активировать нейрон. Прямо вот идеально легло.

Sistemaalex 21 июл 2019 в 07:37

Еще разбираюсь. На данный момент видно следующее, для вашего случая.
Признаком белого шума для ряда из 10000 будет появление цепочки из 13 и БОЛЕЕ одинаковых сигналов подряд. То есть, если у Вас сработали 14 синапсов это очень существенный признак, что сигналы являются следствием белого шума. Там, по моим оценкам, вероятности 95% и больше, для ряда из 10000.
Сейчас пару идей созрело пытаюсь их отработать, чтоб эту задачу привести к нормальному инструменту

Sistemaalex 21 июл 2019 в 08:12

По другому скажу. Если в последовательности из 10000 сигналов, НЕ обнаружено НИ ОДНОЙ последовательной цепочки из 14 и более одинаковых сигналов, то это близкий к стопроцентной вероятности признак, что последовательность является НЕ случайной. То есть не белый нум

VDG 22 июл 2019 в 00:15

Спасибо за ответ, но ведь у Вас из статьи и из формулы выходит как раз наоборот:

с вероятностью, стремящейся к 1, найдется:
Log2(448) = 8,765
то есть отбрасываем до целого – 8-ми черных точек подряд

То есть, в последовательности длиной 448 шум даёт нам цепочки длиной 1, 2, 3, 4, 5, 6, 7 и 8 черных точек подряд. Но с очень малой вероятностью шум сможет породить цепочки длиной: 9, 10, 11 и т.д. Все цепочки длиной ниже 9-ти — есть результат шума (правильнее, они могут быть как случайны, так и нет).
Ну это и наглядно видно из картинки примера.

Значит, если мы среди этих 448 точек ОБНАРУЖИМ цепочку из 20-ти чёрных точек подряд, то это должно говорить о НЕ случайности. Разве не так?
Это аналогично обнаружению на той же картинке линии длиной в 20 пикселей. Вероятность её появления в результате шума крайне мала.

Sistemaalex 22 июл 2019 в 06:43

Наверное не смог выразить четко тут логика основывается на законе «отрицания отрицания» плюс накладывается то, что от вероятности целых чисел в схемах Бернулли происходит переход к нецелым числам, в нашем случае (8,765). Я для упрощения примера и проводил округления до целого нижнего. Так как вероятности в теореме Эрдеша определяются сочетаниями, то цепочка в и в 20 и выше участвуют в определении вероятности. То есть при определении вероятности случайности, если появилась цепочка в 20 символов то она считается как цепочка 8,765 символов, то есть как одна из составляющих общей вероятности для 8,765.
Пример, возьмем рядя 4 символа, тогда цепочка log(2)4 = 2, тогда вероятность цепочки из 2 символов составляет рm>2(2) =14/16, и эти 14/16 состоят из вероятности, что существуют две цепочки по 4 символа р(4) = 2/16, 4 цепочки из 3 символов р(3) = 4/16 и 8 чистых цепочек из р(2) = 8/16. Все вместе и получается
рm>2(2) =р(2)+р(3)+р(4)=8/16+4/16+2/16=14/16.
Но для ряда из 4 значений знаменатель равен 16 = 2^4, а для ряда из 448 знаменатель 2^448.
То когда мы определяем вероятность для цепочки из 8 в ряде из 448 значений, мы получаем формулу следующего вида:
рm>8(8) =р(8)+р(9)+...+р(20)+...+р(448)
И тогда эти слагаемые, по моему предположению: ...+р(20)+...+р(448) становятся, из-за знаменателя 2^448 очень маленькими.
Вот так
р(448) = 2/(2^448) = 2^-447
Наверное таланта не хватило, все это прояснить

Sistemaalex 29 июл 2019 в 10:50

Цепочка из 20 пикселей одного значения может образоваться за счет случайности и в результате неслучайности. Вероятность случайности она просчитывается до средней и дисперсии. А неслучайность может появится за счет других цепочек. Допустим цепочки из 7 и 6 пикс, их должно быть 3, для 7 и 6 для 6 (в среднем), в ряду из 448 (беру случайно эти значения). Как пример из цепочек 7, перекинули в ряд из 20 — по 3 пикселя, то есть 9, а из цепочек 6, из пяти по 2 и из одной 1. Тогда у нас цепочка 7 и 6 исчезла вообще, а количество цепочек в 4 пикс увеличилась на 8 и, цепочек в 5 пикс увеличилась на 1. То есть, если появление цепочки в 20 пикс, произошло случайно, то исчезновение цепочек 7 и 6, и увеличение цепочек 4 и 5, тоже должно находится в допустимом интервале. Если они вышли за допустимый интервал, то это уже не белый шум.
Эта логика следует из того, что количество вариантов ограничено для каждой длины ряда. То есть мы попросту можем перетасовать пикс, но не можем добавить. И если перед нами белый шум, то вероятности всех цепочек считаются по Бернули. Если пошли отклонения, то это уже следствия системности.

Sistemaalex 21 июл 2019 в 08:54

Наверное, в применении к биологии, можно подобрать модель хищник-жертва. Жертва приходит на поляну, оценивает ситуацию, принимает решение о безопасности. Далее ее нейросистема перекодирует информацию об окружающей обстановке, с ключевыми моментами, а остальное как белый шум. Далее она периодически сопоставляет окружающую картинку с записью. Если образ зафиксирован с большими элементами белого шума, то он требует немного ресурсов, а природа, как мы знаем очень экономна. И тогда, в том образе, много последовательных рядов с одинаковыми сигналами. Когда хищник подкрадывается, то он старается это делать максимально плавно, чтобы изменяющаяся картинка не различалась с образом зафиксированным у жертвы. Если хищник действует неосторожно, то последовательные цепочки в образе жертвы начинают рваться, исчезать. И для жертвы это простой сигнал об изменении окружающей обстановке.
Это первая модель, которая пришла в голову, чтоб объяснить этот механизм.

Sistemaalex 21 июл 2019 в 07:37

Выше ответил

ignorance 21 июл 2019 в 19:07

В общем, я не нашел информации о связи модели случайных графов Эрдеша-Реньи с последовательностью выпадения орлов. Хотя это, конечно, не означает, что такой связи не существует в принципе.
В этой модели рассматривается полный граф, каждое ребро которого существует с вероятностью p, и рассматривается свойство связности полученного графа. Т.е. если сопоставить выбрасыванию орла наличие некоторого ребра в графе, то из связности некоторой компоненты данного графа с k вершинами, вообще говоря, не следует, что у нас есть k выпадений орла подряд.
Кроме того, если посмотреть краткое описание модели — wiki, то видно, что все результаты получены с точностью O() — т.е. никакими конкретными значениями мы оперировать не сможем.

Возвращаясь к нашей задаче. Обнаружил заметку на похожую тему — здесь. Хотя там рассматривается задача выпадения последовательности орлов или решек подряд, это не влияет на качественные результаты — цитирую

Ого, то есть получить семь орлов или решек подряд при ста подбрасываниях не только вполне вероятно, но шансов что выпадет семь или больше вообще около 54%

Т.е. речь никак не может идти о 100% вероятности.
Для подсчета разбиений на слагаемые, используемого в заметке, готовой формулы нет, есть реккурентные соотношения — например, здесь первые 2 варианта.
(Формула Эйлера не подходит, поскольку она даст все разбиения)

ignorance 21 июл 2019 в 19:37

Пропустил при чтении статьи

Третье заключение. Если обрабатывая данные (1 млн.записей), по теореме Эрдёша-Реньи, не было обнаружено ни одного ряда длиной 19 номеров, но обнаружилось, допустим, три последовательности с 17 номерами. То можно предположить, что общие данные состоят из композиции трех функций, и по месту этих рядов, определить интервалы в которых, возможно, происходят переходные процессы.

Статистика работает немного по-другому. Даже, если бы формула была бы верна, мы не можем сделать вывод, что это не одна последовательность — нам нужно хотя бы 30-50 наблюдений.

UPD. Собственно, вы об этом пишете ниже. Ну что поделать…

Sistemaalex 21 июл 2019 в 20:10

Согласен все это есть сейчас. Так разбираю тему и выскакивает несколько нестыковок. Ну допустим может быть так, что не то, что 30-50 наблюдений, в бигдата, невозможно будет сделать. А даже когда один и тот же процесс, ну допустим в химической промышленности, то есть ставим полностью дублирующую систему мониторинга, в каждой точке наблюдения, стоят по два датчика, датчики идентичны. Один подключен к одной системе мониторинга, а другой к другой. Системы мониторинга идентичны, одно и то же оборудование, одно и то же программное обеспечение, одни и те же параметры фиксируются каждой системой, с единым временем. Но они не пересекаются, то есть нет согласования и передачи данных от одной к другой системе и в центре управления сидят разные операторы. То есть кажется, что данные будут идентичны, но может оказаться так, что даже сопоставлять эти данные нельзя будет. А уж не говоря о том, что выявлять статистику.

Sistemaalex 21 июл 2019 в 20:11

Спасибо за участие

Sistemaalex 21 июл 2019 в 22:24

Попробую показать механизм действия этой теоремы.
Вот у нас есть ряд 2^{19} = 524 288, последовательных данных.
Тогда, допустим с вероятностью р=0,96 (эту вероятность взял пока приблизительно), если эта выборка из 524288 данных является белым шумом она должна содержать ряд из 19 последовательных одинаковых значений (±).
Но у нас этого нет. Тогда если она состоит из двух подпоследовательностей по 524288/2 = 262144 номеров, она должна содержать два ряда из 18 последовательных одинаковых значений (±) с вероятностью каждого, опять допустим, р_{1/2} = 0,95. Но у нас и этого нет. Каждый из двух подрядов можно разделить на еще два подряда, то есть общий ряд можно разделить на 4 подряда из 524288/4 = 131072. Каждый квантильный подряд с вероятностью, опять допустим, р_{1/4} = 0,94, должен содержать ряд из 17 последовательных одинаковых значений (±). Но у нас их три. Тут работает схема Бернулли.
То есть вероятность того, что в четырех испытаниях выпадет три успеха, где вероятность успеха р_{1/4} = 0,94, равна
Р_4(3) = 0,94*0,94*0,94*(1-0,94) = 0,04983504
То есть вероятность того что ряд из 524 288 значений является белым шумом около 5%, а соответственно вероятность того, что в нем существуют какие-то зависимости 95%.
Такую вероятность мы не имеем права игнорировать

ignorance 21 июл 2019 в 23:54

Вероятность уже произошедшего события равна 1, поэтому в таких рассуждениях нужно быть очень аккуратным. Иначе, действуя по аналогии, можно сказать, что для определенной последовательности из 0 и 1 длиной 1000 вероятность ее получения 2^(-1000), что есть событие практически невозможное.

Sistemaalex 22 июл 2019 в 12:34

Там все вероятности определяются комбинаторикой. То есть для ряда длиной миллион, число перестановок 2^1000000. То есть нижнее значение вероятности, когда весь ряд состоит из нулей или 1, 2^(-999999). Это с одной стороны означает, что пространство ограничено, а с другой как работать с такими числами. Но самое интересное как Эрдеш и Реньи пришли к этому граничному значению: n =log(2)N

Refridgerator 10 авг 2019 в 15:08

Усматриваю в вашей статье некоторые неточности.

1) «Белый шум» не равно «набор случайных данных». «Белый» значит равномерный спектр, «шум» значит нежелательный сигнал — и в его роли вполне могут выступать детерминированные сигналы — наводки от электросети или сигнал в соседней полосе частот (в радиоэфире)

2) как только в последовательности случайных чисел появятся закономерности — они перестанут быть случайными в смысле «недетерминированности» по определению.

3) в статистике можно посчитать вероятность чего угодно, вот только — сначала нужно доказать, что исходный набор данных случаен и независим. Одно дело — рассматривать идеальные математические модели в теории, и совсем другое — на практике, поскольку процессы, обеспечивающие случайные на вид данные — не случайны. Достаточно взять монету со смещённым центром тяжести — и всё, статистика поломается.

4) картинка в начале — не белый шум, а нечто, на него похожее, сгенерированное конкретным алгоритмом. И появление на ней геометрических объектов зависит не от подсчитанной вероятности, а от особенностей конкретно этого ГПСЧ. Если, например, посмотреть на шум по правилу 30 — то легко увидеть «статистические аномалии» в виде треугольников, причём повёрнутых строго в одну сторону и размерами не больше определённого:

Наивно ждать от него чёрных квадратов — но тесты на случайность этот ГПСЧ вполне проходит.

Sistemaalex 10 авг 2019 в 17:08

По поводу картинки, взял ее для украшения публикации.
Согласен термин «белый шум» выработался из опыта эксплуатации техники, неважно: механика, радио, информатика. Но кто запретил его использовать в работе со случайными процессами. Критерий один — равномерно распределенная случайная величина. Тогда исследование, допустим нормального распределения, как случайный процесс в виде положительное/отрицательное отклонение от матожидания, чем отличается от бросания монеты, ответ ничем. И в монете, и в нормальном распределении, когда его исследуют по принципу 1-0, распределение вероятностей становится равномерным.
Но вернемся к картинке. Процесс ее представления в этой публикации был стандартным:
1) Запрос поисковику, получение от него отранжированных по его алгоритмам для меня результатов;
2) Выбор мною нескольких вариантов из результатов выдачи;
3) Из выбранного набора, я выбрал один, который представлен здесь.
То есть происходил как минимум три раза процесс сопоставления и в результате я выделил один с наибольшим приоритетом. То есть проведена упорядоченность и произошло детерминирование. То есть представленная картинка уже не случайна.
Но как вы написали скорей всего тесты на случайность она пройдет.
Отсюда возникает ситуация, с одной стороны перед нами не случайный ряд, а с другой стороны, этот ряд пройдет тесты на случайность.
В данном рассуждении, картинка взята как текущий объект. А сколько таких данных, которые нейросетями отнесены к кластеру содержащих зависимости, а если отправить эти данные в тестовые системы, то тесты отнесут их к случайным?
В чем проблема? Проблема в том, что при работе с большими данными, существующие тесты не дают уже нужной надежности кластеризации.
Поэтому и ухватился за эту теорему, что она дает предположение, что опирается на естественные процессы происходящие при случайном формировании ряда.
Поэтому считаю, что то что вы описали и есть проблема которую нужно решать. Получиться или не получиться не знаю. Но попытку сделал

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время