slavikse May 22 2019 at 01:12

Машинное обучение глубокой нейронной сети с подкреплением на tensorflow.js: Трюки

4 min

12K

JavaScript*Machine learning*

Tutorial

Comments 7

dim2r May 22 2019 at 08:25

попробуйте еще технику Policy Gradient, она должна быстрее учить нейросеть
habr.com/ru/post/439674

daiver19 May 22 2019 at 08:53

Я понимаю, что это типа обучающая статья, но проохождение лабиринта с помощью RL — это забивание свай электронным микроскопом.

dim2r May 22 2019 at 10:00

На самом деле есть задачи, когда лабиринт представлен неявно. Например, есть скрытый за стеной лабиринт или его подобие и можно только его просветить каким-нибудь радиосигналом.

daiver19 May 22 2019 at 19:50

И зачем тут RL? В реальных задачах никто осознанно не прячет данные. Любой лабиринт легко обходится с помощью DFS, достаточно только знать свое текущее положение.

dim2r May 23 2019 at 19:42

ну тогда обойдите лабиринт, который в реальности является месторождением нефти в пористой породе

daiver19 May 23 2019 at 19:47

Не очень понял в чем вопрос. Здесь проблема в постановке задачи в первую очередь.

eee May 22 2019 at 12:00

Отличная статья!

По видео у меня возникло ощущение, что никакого «обучения» не происходит. Агенты наугад топают во всех направлениях и запоминают только лишь путь, по которому можно дойти до рекорда предка. Т.е. по сути нейросеть тренируется как успешно пройти именно этот лабиринт.

Мне кажется задача изначально поставлена неправильно. Мне кажется агентам заранее должно быть известно, что, например, слева или справа обрыв (нули). И алгоритм должен обучиться ходить только по единицам. Тогда алгоритм сможет успешно проходить любые лабиринты вез ответвлений.

P.S. Хороший пример обучения нейросети с подкреплением:
www.youtube.com/watch?v=wL7tSgUpy8w

Show the best of all time