Comments 7
попробуйте еще технику Policy Gradient, она должна быстрее учить нейросеть
habr.com/ru/post/439674
habr.com/ru/post/439674
0
Я понимаю, что это типа обучающая статья, но проохождение лабиринта с помощью RL — это забивание свай электронным микроскопом.
0
На самом деле есть задачи, когда лабиринт представлен неявно. Например, есть скрытый за стеной лабиринт или его подобие и можно только его просветить каким-нибудь радиосигналом.
0
Отличная статья!
По видео у меня возникло ощущение, что никакого «обучения» не происходит. Агенты наугад топают во всех направлениях и запоминают только лишь путь, по которому можно дойти до рекорда предка. Т.е. по сути нейросеть тренируется как успешно пройти именно этот лабиринт.
Мне кажется задача изначально поставлена неправильно. Мне кажется агентам заранее должно быть известно, что, например, слева или справа обрыв (нули). И алгоритм должен обучиться ходить только по единицам. Тогда алгоритм сможет успешно проходить любые лабиринты вез ответвлений.
P.S. Хороший пример обучения нейросети с подкреплением:
www.youtube.com/watch?v=wL7tSgUpy8w
По видео у меня возникло ощущение, что никакого «обучения» не происходит. Агенты наугад топают во всех направлениях и запоминают только лишь путь, по которому можно дойти до рекорда предка. Т.е. по сути нейросеть тренируется как успешно пройти именно этот лабиринт.
Мне кажется задача изначально поставлена неправильно. Мне кажется агентам заранее должно быть известно, что, например, слева или справа обрыв (нули). И алгоритм должен обучиться ходить только по единицам. Тогда алгоритм сможет успешно проходить любые лабиринты вез ответвлений.
P.S. Хороший пример обучения нейросети с подкреплением:
www.youtube.com/watch?v=wL7tSgUpy8w
+2
Sign up to leave a comment.
Машинное обучение глубокой нейронной сети с подкреплением на tensorflow.js: Трюки