Lit9898 Feb 28 at 09:21

Нейронная сеть, имеющая способность к самообучению

Medium

13 min

Machine learning*Artificial IntelligenceBrain

From sandbox

+11

Comments 31

shiru8bit Feb 28 at 09:49

Как работает память человека?

Разделение памяти на кратковременную и долгосрочную - только гипотетическая модель, а не фактическое устройство памяти человека. Модель довольно старая, у неё уже давно есть альтернативы.

+11

vitecd Feb 28 at 11:50

а как альтернативу установить? ссылка есть?

nbkgroup Feb 28 at 13:38

Ретроградная амнезия — яркая иллюстрация наличия кратковременной памяти.

Lit9898 Feb 29 at 03:31

Я не пытаюсь сказать, что именно так и работает мозг человека - напротив, как я упомянул в статье, такая модель будет иметь невероятно мало общего с работой мозга человека, ведь лишь основываясь на ощущениях невозможно понять все наисложнейшие механизмы устройства биологической сети. Мне было интересно, как можно сделать модель, обладающей похожими свойствами, свои размышления я и исложил в этой статье.

Lit9898 Feb 29 at 04:27

Но на счёт кратковременно и долговременной памяти - всё же мне кажется, что они с очень большой долей вероятности действительно присутствуют в мозге человека. Чтобы убедиться в этом, можно обойтись обычными рассуждениями:

Кратковременная память. Мозг человека состоит из нейронов, схожих нейронам в импульсных нейронных сетях - в каждый момент времени они имеют некоторое состояние активности. То есть, в каждый момент времени, мозг человека имеет некоторое состояние, которое описывается его текущей электрической активностью мозга. Совершенно точно можно сказать, что в этой активности можно записывать некоторую информацию - если сделать цепочку нейронов и пустить по ним сигнал по кругу, этот сигнал может циркулировать очень долгое время - именно в таких циркулирующих сигналах может хранится информация в кратковременной памяти (на самом деле обычные циклы нейронов приведены для упрощения, вероятнее всего в мозге человека такие циклы представляют собой циклы передачи скрытого состояния, которое в процессе такой передачи может ещё и видоизменеяться, но суть та же).
Долговременная память. Здесь всё куда проще - долговременная память представляет собой структуру мозга, то есть информация здесь хранится в виде связей в мозге человека. Это аналогично тому, как если бы искуственная нейронная сеть хранила информацию в виде значений весов внутри её структуры.

Также существуют эксперементы, подтверждающие наличие кратковременной и долговременной памяти в мозге человека. Есть известная история пациента по имени Генри Молисон, у которого работала кратковременная память, но вот запоминание в долговременную не происходило. Вот вики статья про него: Молисон, Генри — Википедия (wikipedia.org)

Более подробно на эту тему также снимал видео канал MyGap: Как создаются воспоминания (youtube.com)

shiru8bit Feb 29 at 04:43

Да, вполне очевидно по интроспекции, наблюдениям и экспериментам, что у человека есть память разной длительности, и что память проявляет несколько различных свойств. Поэтому предлагаемая концепция с двухуровневой архитектурой памяти кажется интуитивно верной - трёхкомпонентная модель Аткинсона-Шиффрина (1968). Но с тех пор было много исследований и стало ясно, что фактическое устройство памяти и процессов в мозге сложнее, и появились различные модели, предлагающие механизмы разных типов памяти и способов обмена между ними - именно модели, предположения, а не подтверждённые факты. Эти модели нужны как инструмент, чтобы в принципе иметь возможность обсуждать и изучать эту проблему.

В ваших рассуждениях отсутствует ключевой момент: механизм, позволяющий циркуляции сигналов перейти в формирование новых структур, причём настолько быстро. Ведь кратковременная память по оценкам имеет длительность до 30 секунд в лучшем случае.

Суть замечания в том, что простая модель не соответствует действительности, а потому строить на такой базе какие-то более сложные концепции бесполезно. Грубо говоря, "зная. что человеческая память работает вот так-то, значит свой ИИ мы построим так". Но мы не знаем, как на самом работает память.

Lit9898 Feb 29 at 05:25

Почему отсутствует механизм перехода циркуляции сигналов в формирование новых стуруктур? Совсем наоборот.

Циркуляция сигналов, то есть циркуляция скрытого состояния внутри сети-сознания позволяет ей хранить самую важную информацию, над которой и происходит обработка. После того, как обработка внутри сети-сознания произошла (грубо говорят скрытое состояние много "проциркулировало" и видоизменилось - это и есть обработка), происходит, как вы сказали "переход циркулирующей информации в новые структуры". А как именно?

На самом деле всё просто - сеть-сознание просто записывает эту "проциркулирующую" информацию в долговременную память, а, как вы помните - долговременная память хранит информацию именно в новых структурах, то есть в связях между нейронами.

Может, конечно, появиться вопрос - а как тогда происходит формирование стуктуры сети-сознания? Скорее всего, здесь важную роль играет механизм подкрепеления. Именно он может построить изначальную структуру сети-сознания за счёт дофамина, который будет подаваться в тех случаях, когда сеть сознание в процессе случайной работы будет достигать случайным образом желаемых результатов. Конечно, поидеи, крому пряника (дофамина), должен быть ещё и кнут, но такого вещества я не знаю. На самом деле в химии мозга я не силён, поэтому это больше спекуляции, которые, тем не менее, могут иметь место быть.

Lit9898 Feb 29 at 06:12

Суть замечания в том, что простая модель не соответствует действительности, а потому строить на такой базе какие-то более сложные концепции бесполезно.

Не спорю - тут вы правы. Как я говорил в самой статье, "Невозможно понять все тонкости работы памяти человека, основываясь лишь на ощущениях - в действительности все куда сложнее". Тем не менее, какие-то закономерности его работы можно выявить, что может помочь создать модель, которая будет имитировать эти закономерности. Это я и сделал в статье. Я ни в коем случае не хочу сказать, что так в действительности все и работает - мне лишь было интересно придумать механизм, который мог бы имитировать человеческое самообучение.

vitecd Feb 28 at 11:49

СО способностью, иззните

-2

Devastor87 Feb 28 at 15:30

Ведь чем сильнее необходимо запомнить новую информацию, тем больше сеть‑память будет забывать то, что она запомнила раньше и тем дольше будет происходить процесс запоминания

Далеко не факт что человеческий мозг работает по схожему принципу (более того, скорее всего это точно не так). Даже если это и было бы так - данный механизм, очевидно, крайне не рационален.

Не должны быть такие зависимости между запомненной и запоминаемой информацией, надеюсь, не нужно объяснять почему и то, к каким проблемам на дистанции и при увеличении объема запоминаемой информации это может привести (в теории этот объём должен быть динамически расширяем до бесконечности).

Соответственно, я бы искал такие структуры и/или механизмы запоминания, при которых данная проблема отсутствует по сути, вместо того, чтобы пытаться минимизировать её эффект.

Lit9898 Feb 29 at 03:57

Объём сети-памяти не должен существенно сказаться на её производительности (что не сказать про кратковременную память) - в этом и заключается основная суть долговременной памяти.

Ведь чем сильнее необходимо запомнить новую информацию, тем больше сеть‑память будет забывать то, что она запомнила раньше и тем дольше будет происходить процесс запоминания

Здесь я имел ввиду, что уже сгенерированную выборку ключей и значений можно запоминать с разной интенсивностью.

1. Если сделать высокую интенсивность запоминания, то одну выборку сеть-память сможет сразу запомнить на 100% - это будет дольше слабого запоминания, зато качество запомненной информации будет на высоте (под слабым запоминанием я имею ввиду меньшую точность запоминания конкретной выборки, например, не 100% информации, а 40%). Так как сеть запомнила сразу много информации, это значит, что пришлось избавиться от бОльшего количества старой информации, чтобы вместить новую - сеть слегка потеряля память.

2. Если же сделать слабую интенсивность запоминания, то информация запомнится быстро, но точность запомненной информации будет меньше. Также, так как пришлось запоминать мало информации, сильно вытеснять старую информацию нет необходимости для размещения новой - в процессе запоминания с малой интенсивностью сеть практически не потеряет старой информации.

На самом деле, как мне кажется, в человеческом мозге есть похожий процесс "интенсивности" запоминания информации. Вот пример. После просмотра 15-ти минутного видео человек не может рассказать 100% информации, изложенной в видео - если бы это было так, мы бы могли запомнить каждое сказанное слово и рассказать текст видео на память, как если бы читали его с бумажки - слово в слово. На деле же, после просмотра видео человека запоминает лишь часть информации, скажем, 30% - основную суть запомнили, а вот каждое слово не запоминали (да это особо и не нужно). Здесь приведённые проценты - аналог интенсивности запоминания.

Можно задаться вопросом, почему в мозге человека интенсивность запоминания лишь 30%, а не 100%? На самом деле это и так понятно - ведь в противном случае память человека быстро засорится лишней информацией, а каждая новая информация в мозге человека запоминается за счёт того, что была забыта какая-то старая информация. Инимы словами, если бы человек запоминанал всё с интенсивностью запоминания 100%, его память была бы очень точной, но маленькой - для повседневной деятельности это не имеет смысла.

В выделенной вами части статьи я говорил о том, что было бы неплохо дать возможность сети-сознанию самой выбирать интенсивность запоминания - это очень полезно, ведь какую-то информацию неплохо бы сразу запомнить на 100%, а другую можно лишь на 20%.

itGuevara Feb 28 at 15:33

Полагаю, память человека по разному хранит Данные, Информацию, Знания. Если коротко Информация vs Знания: https://habrastorage.org/r/w1560/getpro/habr/upload_files/67d/a0e/052/67da0e0528da47729c53664448d66709.png

Чуть подробнее: https://habr.com/ru/articles/713376/comments/#comment_25166218

Человек может запомнить иероглифы (вообще не понимая, что это такое), т.е. зрительная память (фото память) - это Данные. Человек может запомнить предложение (Информацию с привязанным к ней синтаксическим словарем), даже не понимая его смысла (понимая, только что грамматически оно корректно), но в связке со словарем синтаксиса языка (например, ru). Человек может запомнить смысл (и предложение тоже, или уже без самого предложения, т.е. только смысл) - это Знание, т.е. Информация с семантическим разбором под конкретную онтологию (тоже хранящуюся в памяти).

Все три запоминания - видимо будут концептуально разными и возможно задействованы как разные АЛУ мозга, так и разные его ПЗУ. ОЗУ видимо будет только общим.

Lit9898 Feb 29 at 05:07

Можно разделять информацию и знания - это действительно разные вещи. Вот их определения, которые, как мне кажется, наиболее хорошо отражают их суть.

Информация - это некоторая последовательность бит (может быть представленна в любом виде), которая может как иметь смысл, так и нет. Это может быть просто белый шум, который не несёт никакого смысла. Это может быть некоторая последовательность, которую мы не понимаем, поэтому для нас она также не будет нести смысла - так же, как и белый шум. Тем не менее, когда упоминается термин "Информация", обычно под ним подразумивается последовательность, имеющая для нас смысл.
Знания - это информация, содержащая все возможные взаимосвязи между объектами - именно в таком виде информация хранится в мозге человека и в искуственных нейронных сетях - в виде абстрактных объектов, каждый из которых имеет связь с другими абстрактными объектами. Один абстрактный объект представляет собой нейрон и, если быть точнее, на деле является некоторым утверждением, которое может быть верно или нет. Например, абстрактный объект "Яблоко" на самом деле в мозге человека в контексте зрения является утверждением "Я вижу яблоко" - оно в каждый момент времени может быть либо истинным, либо ложным (зависиот от того, видит ли человек сейчас яблоко или нет). На самом деле тема абстрактных объектов и внутреннего взаимодействия нейронов очень интересная и я также огромное количество времени потратил на размышления об этом, поэтому, возможно, также сделаю статью на эту тему.
Данные - это, на самом деле, та же последовательность бит. То есть данные также являются информацией.

Сеть-память может сохранять в себя любую последовательность информации. Иероглифы (зрительная информация), предложение (последовательность иероглифов) и смысл предложения - это информация в разном виде, которая вся может быть представленна в виде последовательности бит. Так как всё это разные виды информации, всё это может единым образом быть записано в сеть-память, без необходимости разделения на три отдельные составляющие.

itGuevara Feb 29 at 11:48

Есть разные подходы к градации "Данные - Информацию - Знания", например, пятиуровневая:

https://www.comindware.ru/book-inventing-information-systems-of-the-future/

115
Поиски современного научного понимания, что же такое информация на сегодняшнем уровне развития ИТ, привели нас к семиотике. Казалось бы, семиотика — это наука о знаках, но для нее информация — безусловная основа, …
Семиотика рассматривает информацию в пяти аспектах (уровнях): статистическом, синтаксическом, семантическом, прагматическом, апобетическом [15]. Более подробно они рассмотрены в следующем разделе «Пять уровней информации».
117
На синтаксическом уровне передаются лексические и синтаксические аспекты. Информация выражена в виде набора символов, имеющих логическую структуру и синтаксические правила.
На семантическом уровне информация выражает значение, несет смысл. Каждый фрагмент информации связан с источником смысла (интеллектом отправителя, базой знаний, семантической моделью и так далее). Для обеспечения правильного понимания необходимо наличие у приемника словаря (например, глоссария, тезауруса, таксономии).

На прагматическом уровне принимается во внимание то, как передаваемая информация используется на практике — например, какие действия выполнит получатель после ее получения. На этом уровне учитывается вклад контекста в смысловое значение.

Lit9898 Feb 29 at 12:00

Как мне кажется, все это разделение на различные виды информации не обязательно. Любую информацию можно представить в виде последовательности бит, а любую последовательность бит, в свою очередь, можно представить в виде вектора скрытого состояния, которыми и оперирует сеть-память. А из этого следует, что любую информацию можно записать в сеть-память. Не имеет значение, к какому классу эту информацию относить, ведь в конечном счёте - всё это та же информация.

itGuevara Feb 29 at 12:41

Не так. Знание (знаниевая информация) хранится не ячейкой (отдельными кусочками), а едином триплетом и обрабатывается семантическим процессором в соответствие с онтологиями, плюс «машинки рассуждений» (типа reasoner protege). Последняя является ключевым элементом «системы знаний»: базы данных с подгруженной онтологией и системой рассуждений по семантическим правилам (аксиомам в составе онтологии): https://habr.com/ru/articles/795883/

Т.е. хранение в памяти человека информации и данных иное, чем знаний (логическим триплетом). На каком-то уровне триплет - это может и набор битов, но он выступает единицей знаний и все его компоненты обрабатываются транзакцией. Хотя и называть это набором бит - сложно, т.к.:

Пространство смыслов амодально, оно никак не кодируется в терминах органов чувств, органов восприятия мира.

https://fil.wikireading.ru/114220

Lit9898 Feb 29 at 13:24

Т.е. хранение в памяти человека информации и данных иное, чем знаний.

Что вы имеет ввиду, когда говорите про иное хранение информации, в отличии от знаний? Знания в мозге человека - это та же информация, которая закодированна в виде структуры связей (долговременная память) и текущей активности мозга (кратковременная память). Каким иным образом, по вашему мнению, могут храниться знания в мозге человека? Какие именно структуры, если не структура связей и электрическая активность мозга может сохранять знания в мозге?

Пространство смыслов амодально, оно никак не кодируется в терминах органов чувств, органов восприятия мира.

Странное определение. Почему смысл никак нельзя закодировать? Я могу доказать, что это не так.

Смысл - это то, как информация декодируется. То есть, как я приводил в примере, одна и та же последовательность бит может иметь смысл для одного человека, но казаться белым шумом для другого. Почему так происходит?

Возьмём упрощённый пример - представим, что у нас есть некоторый файл, который кодирует изображение в определённом формате, например, PNG. Пусть на компьютере 1 будет содержаться программа, которая может раскодировать формат PNG и выводить на экран изображение, которое хранится в файле. Также, предположим, что у нас есть компьютер 2, который точно также может раскодировать файл и вывести хранящиеся в нём изображение, только вот умеет он работать лишь с форматом JPG.

Таким образом, один и тот же файл с изображением в формате PNG, для компьютера 1 будет иметь смысл и, как следствие, будет хранить изображение, а вот для компьютера 2 этот файл будет хранить обычный белый шум - тоже самое, что и случайная последовательность бит - бессмыслица.

Суммируя, можно сказать, что информация наделяется смыслом именно устройством, которое её декодирует. Грубо говоря, смысл имеет та информация, которую мы умеет декодировать, понимать.

Так как смысл информации полностью определяется устройством, которое эту информацию воспринимает, можно сделать вывод, что смысл информации можно закодировать - для этого необходимо закодировать информацию о принципе работы декодирующего устройства, а также закодировать саму информацию. Если рассматривать в контексте нейронной сети - чтобы закодировать смысл информации, необходимо закодировать саму нейронную сеть в последовательность бит, а также данные, смысл которых мы хотим передать.

Но, на самом деле, смысл информации между людьми можно передавать и другим, более очевидным образом - достаточно объяснить человеку, что инфомация значит. Таким образом, когда человек объясняет, он как бы формирует в голове своего собеседника "декодирующее устройство", которое уже может воспринимать информацию. Здесь смысл кодируется в объяснении, которое содержит информацию о том, как декодировать данные.

itGuevara Feb 29 at 18:41

Если по аналогии. Данные и информацию – можно обрабатывать как у тебя на картинке. Применительно к архитектуре Выч. Процесса: шина данных, шина адреса – пусть туда подается ключ (и потом уже вычисляется реальный адрес ячейки памяти), типа мультиплексированная шина адрес \ ключ.

В случае с знаниями, видимо будет совмещенные три шины данных (тогда уж: три шины знаний): для каждого значения триплета и они будут обрабатываться совместно (единым триплетом), т.к. единый смысл будет состоять (вычисляться) из считывания \ записи значения в каждой шине (транзакция).

Про концепт знаний: https://biblioteka.sibsau.ru/pdf/izdv/izdv_sibgtu/Lutoshkina_Modeli_2021.pdf

А как "емкости памяти", то у человека, думаю как и у компа: кэш, ОЗУ, ПЗУ, Архивная (типа медленная, но большая – по аналогии с лентами). В каждом случае своя обработка, включая «перетекание» со временем из ПЗУ в Архивную.

sergey-kuznetsov Feb 28 at 20:28

Попытался произнести заголовок статьи и не смог.

alex50555 Feb 28 at 21:15

А мне вот кажется, что какая-нибудь модификация Хопфилдовской сети могла бы лучше подойти для памяти. Гляньте "современные Хопфилдовские сети", может осенит.

Lit9898 Feb 29 at 05:31

Слышал про Хопфилдовские сети, но подробно их не изучал. Спасибо, надо будет посмотреть.

onegreyonewhite Feb 29 at 02:59

Ощущение, что в данном случае вторая сеть (память) выглядит оверхедной. С учётом того, что общение будет на собственном языке, то и в качестве хранилища может быть обычный key-value с поправками на поиск и вес. Т.е. условно OpenSearch мог бы вполне быть долговременной памятью, а решение о формате и частоте запоминания может заниматься сеть сознания. Тут самое ключевое это скорость записи и поиска, потому что в процессе воспоминаний будет не условные 3-4 вопроса (вы сильно упростили в статье когнитивный процесс), а сотни 2-3, а на запись и того больше.

При этом уверен, что такой сети нужен будет "сон", чтобы переварить все полученные данные и сделать дамп в долговременную память, потому что процесс обработки и записи явно будет не быстрый. Получается для такой сети потребуется посменная работа двух независимых нейронок.

Lit9898 Feb 29 at 06:56

С учётом того, что общение будет на собственном языке, то и в качестве хранилища может быть обычный key-value с поправками на поиск и вес.

Почему мы используем нейронные сети, а не просто запоминаем огромные выборки? Нейронные сети способны понимать закономерности, за счёт чего в них не обязательно записывать всю информацию - лишь малой части достаточно для экстраполирования всего объёма данных. Это и быстрее, и эффективнее по объему, чем ассоциативные массивы.

Тут самое ключевое это скорость записи и поиска, потому что в процессе воспоминаний будет не условные 3-4 вопроса (вы сильно упростили в статье когнитивный процесс), а сотни 2-3, а на запись и того больше.

На самом деле процесс вспоминания действительно может происходить и за малое количество вопросов, просто длина вектора, содержащий вопрос должна быть большой.

Но самым эффективным способом общения, как мне кажется, будет являться передачей неопределенного количества векторов скрытого состояния за одно обращение к сети-памяти - модели обработки последовательностей способны генерировать последовательности такой длины, которая им будет необходима. Таким образом, одно обращение к сети-памяти будет выглядеть как генерация большого количества небольших векторов скрытого состояния, на что сеть-память будет также возвращать большое количество небольших векторов скрытого состояния, содержащих ответ. Скорее всего, для поиска большей части информации будет достаточно 1-2 обращения к сети памяти, что весьма эффективно.

onegreyonewhite Mar 2 at 09:33

Почему мы используем нейронные сети, а не просто запоминаем огромные выборки?

Так вы задачи перепутали. Процесс поиска в долговременной памяти основан на выборе фактов из памяти, а не на анализе запроса. Поэтому вторая нейронка кажется избыточной. В принципе наша память примерно так же к фактам относиться: мы либо помним, либо нет. А уже сознание выбирает что из памяти вытащить.

На самом деле процесс вспоминания действительно может происходить и за малое количество вопросов, просто длина вектора, содержащий вопрос должна быть большой.
...
Но самым эффективным способом общения, как мне кажется, будет являться передачей неопределенного количества векторов скрытого состояния за одно обращение к сети-памяти - модели обработки последовательностей способны генерировать последовательности такой длины, которая им будет необходима.

Ну вы описали сейчас классический bulk-запрос. По факту это экономит часть ресурсов, но всё равно фактически будет много запросов в одном или двух. Это можно делать и в обычных хранилищах. Там и с разными весами можно работать и много с чем. Так что обучать под это сеть кажется каким-то удалением гланд ректально автогеном.

Lit9898 Mar 2 at 16:39

Так вы задачи перепутали. Процесс поиска в долговременной памяти основан на выборе фактов из памяти, а не на анализе запроса.

Я не перепутал, просто вы не поняли, что я имел ввиду. На самом деле процесс анализа и взятия данных из памяти эквивалентен. Вот пример:

Чтобы написать программу, которая умеет отличать гору, нам необходимо запомнить все возможные изображения, на которых есть гора, и если изображение, которое мы получили на вход программы есть среди запомненный вариантов, возвращать 1 (гора есть), а если нет - возвращать 0 (горы нет). Понятно, что количество всех возможных вариантов гор стремится к бесконечности, поэтому хранить всё это нецелесообразно. А что если вместо хранения всех возможных изображений гор использовать закономерности, которые определяют гору? Именно это и делает нейронная сеть - она находит закономерности на изображении, определяющие гору, и, таким образом, может "хранить" число гор, которое стремится к бесконечности. Вот о чём я имел ввиду. Но невероятно большой объём информации, которые могут хранить нейронные сети - это лишь часть причины, почему для памяти я решил использовать именно нейронную сеть.

Что, возможно, ещё более важно - нейронные сети способны запоминать всю информацию, основываясь лишь на её малой части. Если нам необходимо, чтобы нейронная сеть запоминила всё бесконечное количество вариантов гор, нам необязательно обучать сеть на квинтилионнах изображений гор - достаточно лишь пары тысяч. Этих двух тысяч будет достаточно, чтобы выявить закономерности, которые и определяет все возможные варианты гор. Из этого следует ещё одна важная деталь - поиск изображения горы будет происходить куда быстрее, чем его поиск среди всех возможных вариантов (даже при условии их размещения в бинарном дереве).

onegreyonewhite Mar 6 at 08:17

Я не перепутал, просто вы не поняли, что я имел ввиду.
Чтобы написать программу, которая умеет отличать гору, нам необходимо запомнить все возможные изображения

Вы в долговременной памяти что хранить-то собрались? Долговременная память хранит набор готовых фактов или... решений. При этом наш мозг устроен так, что мы зачастую имеем свойство брать решения и адаптировать их под слегка изменённые факты. А что вы собрались хранить, я так и не понял ни из статьи, ни из ваших объяснений.

У нас шаблонное мышление, за счёт этого мы не храним петабайты, а только очень короткие данные о фактах и способах решения, а сознание дорисовывает по ним уже всю остальную логику. Т.е. мы не храним абсолютно все ответы на все вопросы. Мы храним принципы, которыми разные задачи решаются. А уже от обстоятельств, мы принимаем решение какой принцип подтянуть и как его натянуть на задачу. Это и делает человека профессионалом или умным, а не "зубрилой".

Собственно, почему я и удивился, что вы так переусложнили. Принцип хранить проще и быстрее, а поиск подходящего принципа может делать и сама сеть (одна единственная). Даже оптимизацию можно применить, сортируя долговременные данные по частоте обращений.

Lit9898 Mar 2 at 17:06

Вопрос причины эффективности сети относится к очень интересной теме, на которую, вероятнее всего, я напишу ещё одну статью (при этом постараюсь учесть все ошибки, ведь в текущей статье многие моменты были объяснены не подробно, из-за чего в комменариях много вопросов, например о подтверждённости наличии долговременной и кратковременной памяти, и, вот, ваш вопрос, например).

Но если объяснять вкратце, то причина эффективности заключается в том, что вложенные условия могут увеличивать количество дизъюнкций в результате декартвого произведения составных условий. Знаю, звучит не понятно, объясню подробней.

Для начала, важно понимать, что нейрон - это, по сути, условие, которое представлено в виде взвешенной суммы с функцией активации главным образом для того, чтобы это условие можно было диффиринцировать. Поэтому будем рассматривать не нейрон, а обычное условие (хотя подобные расчёты, вероятно, можно было бы провести и для обычного нейрона, только это будет куда сложнее - там уже не обойтись без мат. анализа). Допустим, у нас есть два нейрона-условия n1 и n2, которые имеют вид:
n1 = a1 || a2
n2 = b1 || b2

Если мы с помощью условий n1 и n2 построим новое условие вида n3 = n1 & n2, тогда его можно будет представить в следующем виде:
n3 = n1 & n2 = (a1 || a2) & (b1 || b2) = (a1 & b1) || (a1 && b2) || (a2 && b1) || (a2 && b2)

Как можно заметить, количество дизъюнкций условия n3 равно количеству дизъюнкицй вложенного условия n1, умноженному на количество дизъюнкций вложенного условия n2. Формально, можно записать вот так:
d(n3) = d(n1) * d(n2)

Одна дизъюнкция - это один объект во входных данных, например, один объект на изображении. Таким образом, если мы сделаем условие n1, которое отличает 15 объектов на изображении, и условие n2, которое также отличает 20 объектов на изображении, то условие n3 будет отличать уже 240 объектов, то есть происходит перемножение. Простая вложенность позволила в геометрической прогрессии увеличить количество распознаваемых объектов. И здесь мы рассмотрели только один уровень вложенности условий, а в современных нейронных сетях их может доходить до 50 (это уже получается 50 переменожений, что сравнимо с 10^50).

Таким образом, условие нейронной сети может содержать до 10^50 дизъюнкций, то есть распозновать столько объектов - и это не предел. Вот почему нейронные сети такие эффективные.

onegreyonewhite Mar 6 at 08:27

Вы мне анекдот напомнили про студента, который выучил материал только про блох.

Сам анекдот

Студент сдает зоологию. Знает только про блох. На экзамене
достается вопрос про собак. Судент начинает:
- Собаки это млекопитающие, покрыты шерстью. В шерсти водятся блохи...
дальше все про блох....
Препод:
- Ладно молодой человек, расскажите про кошек Студент:
- Кошки это млекопитающие, покрыты шерстью. В шерсти водятся блохи...
дальше все про блох....
Препод:
- Давайте-ка про рыб Студент:
- Рыбы это не млекопитающие. Шерстью не покрыты. Покрыты чешуей, но если
бы они были покрыты шерстью, то в ней бы водились блохи....

У вас уже есть одна сеть. Она вполне может заниматься поиском закономерностей. Только хранить варианты решений ей не нужно, она может взять это из долговременной памяти. Понятно, что обработка будет не за один раунд, но это эффективнее, чем содержать сразу две сети. Возможно у вас, конечно же, есть целая система размышлений на этот счёт, которые вы не смогли выразить в статье, но пока что лично для меня вторая сеть выглядит избыточной, просто для того, чтобы хранить какие-то протокольные данные.

Lit9898 Mar 6 at 21:23

Не знаю почему, но когда я писал предыдущий комментарий (про эффективность сети), мне не отображались последние 2 ваших сообщения, но не суть.

На самом деле без проверки на практике все это лишь спекуляции, можно только гадать, как дела обстоят на самом деле. Надо попробывать реализовать, тогда уже можно будет оценить.

Вообще вся статья получается одной большой спекуляцией, где каждый имеет свое истинное мнение лишь потому, что в ней нет практических результатов - в этом плане я сильно ошибся.

dl21 Feb 29 at 05:45

Если вам действительно интересна выбранная тематика - посвятите время изучению анатомии и физиологии

Observer212 Mar 1 at 09:26

по слов "сразу становится понятно" сразу стало всё понятно)

а почему собственно за основу взят двоичный принцип? почему не принцип Шредингера?

в действительности проблема, которую вы затрагиваете, такая же сложная, как уравнение системы с тремя переменными. только в сознании этих переменных несоизмеримо больше, и находятся они в нестатичном состоянии.

-1

Show the best of all time