Как стать автором
Обновить

Комментарии 26

Шито? Где я? Надо бы еще раз в школу сходить...
Хороший слог. Пошёл разбираться :)
Как я понял, гиперапельсины спроса иметь не будут, так что и сажать их не стоит. И на том спасибо.
НЛО прилетело и опубликовало эту надпись здесь
Примерно по той же причине, почему в кубическом метре не 100 кубических сантиметров, а 1000000)
Возьмите полоску бумаги в клеточку и заштрихуйте одну из них) Теперь давайте представим, что клеточка начала расти в одном измерении (вправо, скажем). Сначала она захватила соседнюю клеточку, потом еще одну и т.д. Рост — линейный, т.е. за эн шагов вы получите эн клеточек.
Теперь представим, что клеточка начала расти в двух измерениях — то есть во все стороны сразу. На первом шаге роста вы получите сразу +8 клеточек, на втором — еще больше и т.д. Если клеточка будет расти в трех измерениях — это будет происходить еще быстрее, и т.д. Чем больше измерений, тем больше "объема" принесет каждый шаг роста, и поэтому даже незначительное увеличение радиуса гиперапельсина увеличит его объем во много-много раз.
НЛО прилетело и опубликовало эту надпись здесь
стоит учесть, что это не совсем обычный объем, т.е. не 3-х мерный, а 1000-мерный. Хотя возможно я ошибаюсь.
Если мои рассчеты меня не подводят (асимптотическая формула Стирлинга), уже в 14-мерном апельсине кожуры всегда больше, чем мякоти. Для 60-мерного апельсина разница составляет уже в 20 раз. А для 200-мерного ее больше в 28527 раз. Есть становится буквально нечего!
НЛО прилетело и опубликовало эту надпись здесь
многомерной еды становится все больше и больше (она тоже обрастает новыми измерениями), вот только чистить её все сложнее и относительные затраты на "удержание" многомерной еды в многомерном пространстве быстро растут.
Как это есть становится нечего? Ешьте кожуру!
Здесь нет необходимости использовать формулу Стирлинга. Достаточно возвести 1/0,95 в степень размерности пространства и получить отношение объема с кожурой к объему без кожуры. Если мы считаем отношение объемов двух n-мерных шаров, то коэффициенты перед Rn сократятся и отношение объемов будет равно отношению радиусов в степени n.
есть такая байка про американского физика-экспериментатора Р. Вуда, который накурился опиума, но перед тем как откинуться, успел записать на бумажке "чрезвычайно глубокую и важную научную идею". а когда очухался и развернул бумажку, там было написано: "Банан велик, а кожура еще больше..."
Источник: http://secrets-world.com/interesting/1225-banan-velik-a-kozhura-esche-bolshe.html
я теперь понял: он под кайфом уходил в тысячемерное пространство, а там кожура получается действительно больше ))
Там, где расписаны производные? в первом слагаемом стОит расписать цепное правило, а то с первого взгляда не совсем понятно за счет чего слезает, например, множитель \epsilon. А если написать dq/dw*dw/d\sigma + dq/d\sigma и напомнить, как зависит w от \sigma, то все становится понятно
Йеп, вы совершенно правы. Видимо, я решил, что страшных формул тут и так достаточно много)
Там, где рассказывается про reparametrization trick допущена ошибка… В формуле q(w|\theta)d\theta = q(\epsilon)d\epsilon. Там должно быть не d\theta, а dw. Иначе нельзя делать замену переменной под интегралом.
А если с dw то и становится понятно, почему это соотношение справедливо для стандартной нормальной \epsilon и полученной из нее w.
Это просто замена переменных в плотности вероятности. q(w | \theta) = q(eps)\sigma, т.к. \sigma — якобиан преобразования w = \mu + \sigma\epsilon, а dw = \sigma d\epsilon
Вместо
2. Сэмплим немного из
3. Получаем из него

можно
2+3. Сэмплим немного из

И кажется, это обобщается на любой prior.
Тогда получается, что эпсилон нужен просто как математический трюк, не имеющий особого смысла вне контекста доказательства возможности впихнуть производную под интеграл.
Да, формула для весов эквивалентна перетаскиванию гауссиана на мю в сторону и растягиванию на сигму) Замену переменных, правда, я все еще медленно вкуриваю)
Авторы статьи говорят, что достигли качества MLP+dropout, но, вообще говоря, они их достигли несколько читерным способом: не делали dropout на входные данные, а этот трюк в оригинальной статье про дропаут помог неплохо выжать качества поверх того, что авторы брали за baseline.
Авторы статьи утверждают, что это потому, что не хотели делать аугментацию данных, но на мой вкус это так себе отмазка, так как эта аугментация никак не добавляет информации о структуре входов, и следственно не выходит за рамки «pure-ML» подхода.
В общем, я жду продолжения успехов этой модели, уж очень вкусно она выглядит и кажется, в перспективе должна победить MLP с хорошим отрывом. Еще конечно хочется посмотреть на это все в реальной задаче, а не MNIST.
Это была огромная трагедия, когда человек начал гипертрофированно внедрять в свои модели логику причинно-следственной парадигмы. Этим человечество разом отбросило массу того, что есть в реальности и привнесло массу того, чего нет. А учитывая что знания о мире многомерны, пример с апельсином красноречиво показывает что представляют собой современные знания.
Если же говорить о реальном физическом мире то все модели систем в мире можно привести к каноническому виду — открытым, динамическим системам с диссипацией. А как известно фазовый портрет любой такой модели размерностью от 3-х и более представляет собой странный аттрактор.

Так вот все в мире развивается чередованием эволюционных периодов (где причинно-следственная парадигма применима) и точек бифуркации (где научный подход не работает поскольку будущее влияет на прошлое, а не наоборот) Дальнейшее зависит от наблюдателя — чем подробнее он желает знать будущее этой системы тем эволюционные периоды короче а точек бифуркаций все больше. В квантовом мире они делят все пространство-время поровну. Тоже твориться и в достаточно больших нейросетях где становится бесполезным определять чем в данный момент занят конкретный нейрон. Наверное когда нибудь человек найдет что то похожее на принцип неопределенности Гезенберга в информационном смысле для нейросети )

Возвращаясь к драме отказа от реальности можно утверждать что человек исследующий физическую систему руководствуясь причинно-следственной парадигмой отбрасывает часть модели где научный подход не работает и сглаживает многочисленные неопределенности. В результате фрактальный мир с дробной размерностью в модели превращается в гладкий которого на самом деле не существует…

Илья Пригожин перед смертью предупреждал, что наука подошла в своем развитии к пределу. Нужен новый инструмент исследования мира. А до тех пор все наши нейросетки вряд ли будут так полезны как мы ожидаем. Но зато кожуры будет предостаточно ))
*вежливо похлопал с третьего ряда*

… не сочтите за сарказм, я с удовольствием посмотрю, как вы сделаете свою модель на точках бифуркации, которая из будущего будет влиять на прошлое и обыграет всех в го) На самом деле это было бы ужасно увлекательно, если бы такие мрачные философские пророчества не ограничивались бы, собственно, пророчествами, и что-нибудь делали бы на практике. Был бы этакий вселенский баттл между скучным причинно-следственным мышлением и темной квантовой магией — как светлые и темные темплары в Старкрафте) К сожалению, правда, последних что-то не видно на соревнованиях.
Вы так привыкли мыслить в пространстве причинно-следственных отношений, что уже не замечаете, что это всего лишь часть мира. В точке бифуркации не происходит прямого влияния будущего на прошлое. Как бы объяснить, хотя нет слов, чтобы описать этот процесс. Ближе всего будет сказать так — будущее выбирает прошлое или точнее назначает новую шкалу приоритетов событий прошлого, которые будут влиять на будущее… Чтобы хоть как то понять это, можно привести в пример события, происходящие в нашей социальных системе. Если раньше мы считали героями красных, то теперь власть нам навязывает пропаганду Гебельса про расстрел польских офицеров в катынском лесу, а кулаки в их интерпретации превращаются в трудолюбивых фермеров.
Если отбросить эмоции и посмотреть на процесс с точки зрения математики, то наша социальная система переживает очередную точку бифуркации с заменой значимого прошлого и менталитета, как свойств элементов системы. Наука, базирующаяся на причинно-следственной парадигме бессильна. Поэтому о моделировании подобных систем с целью предсказать реакцию системы на внешнее воздействие, можно говорить только очень относительно.
Но я далек от мысли, что подобное устройство мира является мрачным, хотя с Вами наверняка согласились бы многие ученые изучающие квантовые процессы ) По крайней мере Пригожин находился в депрессии от понимания, что шел научным путем и пришел к тому, что он не дает всех ответов, а лишь множит вопросы ) Однако мы понимаем, что любой конечный автомат к коим относится и нейросеть это всего лишь трансформатор информации, неспособный к синтезу новой инфы.
Другое дело нейросеть организма человека. Прежде всего взаимодействия между нейронами и их постоянное обновление с учетом их огромного кол-ва приводит систему к новому качеству. Нейросеть здорового человека по сути постоянно находится в состоянии бифуркации,
где постоянно происходят масса самоорганизующихся процессов генерирующих потребности, которые мы исполняем с начала жизни и до ее конца.
Ну да, непорядок: самолеты летают, а крыльями не машут…

Не могу сдержаться спросить:
принцип неопределенности Гезенберга в информационном смысле для нейросети

это — неопределенность одного микробита в одном количестве информации? Ну правда, как можно оперировать макро объектами (нейронами) в микромире?
Теория — теорией, но хотелось бы и побольше практики. В связи с этим есть вопрос, или даже просто узнать мнение автора. Понятно, что при обработке изображений нейросети доказали свое преимущество. Но в обработке текста — пока бабушка надвое сказала: статистические (вероятностные) методы пока проще, а главное точнее. Скажем, Марковские случайные поля ( в частности CRF) показывают неплохие результаты. По сути CRF — это графическая модель, где для регуляризации весов клик графа используются разные методы. Например, линейная регрессия показывает не очень хорошие результаты, а обычный персептрон — уже лучше. Хорошо, когда вершин немного (т.е. мало исходных атрибутов), но когда много — и обучение может длиться неделями, и точность падает. Я правильно понимаю, что как раз тут можно было бы накатить байесовские нейросети? Или это только усложнит и без того непростой метод?
> обратная вторая производная в точке максимума или кривизна

Обратная вторая производная — это радиус кривизны. Больше радиус кривизны пика => больше дисперсия.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории