Модель МТИ помогает роботам осознавать окружение подобно людям / Комментарии / Хабр

DesertFlow 16 июл 2020 в 17:48

Ну, не совсем так… Не нашел оригинал работы (не статьи, а научной работы), но пока выглядит как обычный меш с метками сегментации, плюс граф сегментированных объектов. А этого совсем недостаточно для навигации, как это делают животные. Проблема в том, что сверточные сети не годятся для моделирования 3д окружения, они только для 2д признаков. А дальше в живом мозге все больше похоже на контейнерные вычисления. Есть множество подсетей, и дообучается под конкретную задачу победитель из них, а не вся сеть целиком. Заодно это устраняет проблему катастрофического забывания. Но такая архитектура очень плохо ложится на табличное представление, которое используется в современных нейросетках, где все нейроны в слое связаны со всеми.

Поэтому и нет ничего похожего на навигацию животных, которое у них делается через ассоциации между объектами на разных уровней иерархии. Все что связано с 3д, в современных нейросетях делается через mapping одного пространства с одной размерностью в другое с другой размерностью. Т.е. карта фич после CNN регрессией переводится в 3д координаты объектов, например. В принципе, так решать задачи можно, и это даже похоже на то, как отдельные подсети в живом мозге передают друг другу сжатые представления, эмбеддинги какие-нибудь (об этом даже есть упоминание в статье).

Но утверждать, что семантический граф, наложенный на 3д сетку, полученную классическими методами фотограмметрии (в фреймворке Kimera), даст навигацию как это делают животные, это конечно смело… На данный момент эта задача даже близко не решена, и это большая проблема, так как препятствует таким нужным вещам как нормальное передвижение роботов в пространстве (на уровне животных), робомобилям, домашним хозяйственным роботам, роборукам для подбирания предметов и т.д.

Модель МТИ помогает роботам осознавать окружение подобно людям

Комментарии 1

Другие новости

Истории