Pull to refresh

Comments 13

> Созданный в OpenAI бот для Dota 2 самостоятельно научился нескольким сложным стратегиям.

Откровенно сомнительно, что бот научился крип-стопить сам, а не на чьем-то примере. Какая в данном случае целевая функция была?
Он мог просто однажды случайно перекрыть крипам дорогу и это дало положительный отклик в процессе игры. Например, крипы противника приходили под башню и энергоэффективно умирали там, дав боту немало золота и экспы. А дальше он уже оттачивал навык.
> Он мог просто однажды случайно перекрыть крипам дорогу и это дало положительный отклик в процессе игры. Например, крипы противника приходили под башню и энергоэффективно умирали там, дав боту немало золота и экспы.

Тогда надо чтобы в целевой ф-и было зафиксировано, что получение голды в более ранний момент времени эффективнее, чем в более поздний.
В том и прелесть машинного обучения, что целевой функции нет нужды знать какие-то промежуточные оптимумы. Бот наигрывает очки, сумма которых к концу игры и определяет успешность. Так что при стохастическом, например, обучении, процесс выглядит примерно так: берём нейросеть, управляющую ботом. Слегка правим веса в сети. Запускаем в игру. Спустя N игр (для определения среднего качества игры) смотрим: среднее стало больше? Хорошо, значит изменения были в верном направлении. Стало хуже? Наверное, надо откатить веса на старые позиции и попробовать иначе их изменить. Таким образом, явно бот не определяет, что ему выгодно, а что нет. Управляющая сеть просто подбирает веса, при которых бот ведёт себя наилучшим образом.
В том и прелесть машинного обучения, что целевой функции нет нужды знать какие-то промежуточные оптимумы. Бот наигрывает очки, сумма которых к концу игры и определяет успешность.

Так я об этом и говорю. Целевая функция должна была как-то учесть, что получить голду с первой пачки крипов раньше — более выгодно.

Внезапно, до кого-то начинает доходить одно из главных препятствий для этой вашей «технологической сингулярности» и прочих сильных AI (которые нас обязательно всех убьют).

Скорость взаимодействия с окружающим миром, оказывается, очень конечна, и не зависит от того, что ты супер-AI с огромными вычислительными мощностями, или же слегка эволюционировавшая обезьяна. Ну кто бы мог подумать.
Вся тонкость в том, что люди используют опыт накопленный в течении жизни. Еще у нас имеется возможность советоваться с другими людьми, т.е. использовать их опыт. Ну и использовать опыт предыдущих поколений в виде обучения и писменных источников. Для получения таких же условий развития, боты ИИ необходимо объединить в сеть, для использования опыта друг друга.
Поздравляю, вы только что изобрели язык (тот, который обычный человеческий).
С всё теми же проблемами взаимопонимания. «Диалог» двух ботов с разными целевыми функциями будет очень прекрасен.
Вся тонкость в том, что люди используют опыт накопленный в течении жизни. Еще у нас имеется возможность советоваться с другими людьми, т.е. использовать их опыт. Ну и использовать опыт предыдущих поколений в виде обучения и писменных источников.
Полностью соглашусь. Но немного добавлю, что еще опыт предыдущих поколений мы получаем генетически от родителей. Это психика. Еще есть воспитание, с момента когда еще не появилось сознание, до обучения поведению с другими людьми. Еще есть само воспитание обусловленное генетически. И только потом идет «советоваться» и «читать».
Для получения таких же условий развития, боты ИИ необходимо объединить в сеть, для использования опыта друг друга.
Вот тут не соглашусь. Само по себе объединение ничего не даст. Должен быть обмен полезным содержимым, а оно просто так ниоткуда не появится. Вместо него предлагается тупая «целевая функция». Вот все это и порождает проблемы.

Есть ещё вариант, что вместо обмена полезной информацией ИИ-боты начнут обмениваться изображениями котиков.

Игры с ИИ — это как бег в мешкеЮ в отором побеждает не тот, кто быстрее бегает, а тот, кто быстрее бегает в мешке.
А проблемы и у Натурального интеллекта в реальном мире возникают.
Сделаете для обучения ИИ модельную среду с нечеткими да еще и меняющимися правилами и критериями оценки, научите метамоделированию, смоделируйте стимулы. — получите более продвинутый ИИ.

Можно начать с обучения играть в драконий покер, только с людьми, а не с нейросетями.
— Выиграть нельзя! — крикнул кто-то снизу.
— Знаю, — ответил Дэвид. — Но он еще не обучился. Фолкен сказал, что это самообучающийся компьютер. — Юноша повернулся к Фолкену. — Можно заставить его играть с самим собой?
— Дайте вспомнить. Я программировал эту игру бог знает когда… Ага. Когда он спросит о числе игроков, наберите «нуль».
Дэвид исполнил команду.
На экране в центре квадрата появился Х. После секундной паузы клетки фигуры стали заполняться крестами и нолями, пока не наступила неизбежная ничья. Крестики и нолики пропали. Мгновение экран был пуст, после чего началась новая игра, на сей раз чуть быстрее: крестики, нолики, крестики, нолики — ничья.
— Надеюсь, Джон, вы оценили все очарование Джошуа, — слегка улыбнулся Фолкен.
— Объединенная программа! — выпучил глаза Маккитрик.
— Что-что? — спросил Берринджер, глядя, как варианты игры с нарастающей быстротой сменяют друг друга.
— Джошуа — это общая сумма всех своих программ, генерал, — ответил Маккитрик, не отрываясь от экрана. — Как и человеческий мозг, она представляет единое целое.
— Я по-прежнему не понимаю, — сердито сказал генерал.
— Наступив ногой на раскаленный уголь, — ответила Пат, — вы вряд ли после этого возьмете его голыми руками, не так ли? Хотя рука у вас отличается от ноги.
— Хотелось бы…
— Это означает, что у вашего центрального процессора — мозга — объединенная программа, — закончила Пат Хили. — Дэвид как раз и пытается сейчас заставить Джошуа наступить на уголь.
— Ну, давай, — шептал Дэвид, нажимая на клавишу «ввод», — учись же, учись!
Битва крестиков и ноликов на центральном экране становилась все более ожесточенной, за мельканием фигур уже невозможно было проследить.
— Сотни игр в секунду, — протянул Маккитрик.
Дуэль символов достигла, казалось, немыслимого предела, когда экран вдруг залила ослепительная вспышка. Дэвид и остальные прикрыли глаза рукой.
Изображение погасло… Неужели все?
Нет, экран заполнили гигантские карты полушарий, переливавшиеся всеми цветами радуги. Символические фигуры и точки, изображающие ракеты, бомбардировщики и подводные лодки, зароились во всех направлениях, словно электронные насекомые. Темными пятнами то здесь, то там расплывались атомные грибы.
Затем экран очистился. Пауза — гроздья ракет опять понеслись навстречу друг другу. Новый обмен термоядерными ударами, несмотря на перемену стратегии, тоже привел к полному уничтожению обеих сторон.
— Что он делает? — спросил Берринджер, хватая Маккитрика за локоть.
— Учится, — повернулся к обоим Дэвид. — Джошуа наконец стал постигать смысл уроков.
Обмен ракетными залпами возобновился в еще более быстром темпе. На экране нельзя уже было уследить за мельканием светодиодов.
— Та же история, что с крестиками-ноликами, — сказал генерал.
Неожиданно изображение пропало. Комбинации случайных цифр замерли.
— Он что, обжегся? — тревожно спросил генерал. — Или набрел на код запуска…
В Хрустальном дворце воцарилась полная тишина. Люди ждали, когда погасший экран подаст знак.
— Никаких следов активности, — сказал Лем, просматривая распечатку. — Одну секунду, сэр! Пошла запись…
ПРИВЕТСТВУЮ ВАС, ПРОФЕССОР ФОЛКЕН.
— Привет-привет, злой мальчик, — махнул рукой Фолкен, подходя ближе к экрану.
ПРИВЕТ, — набрал Дэвид.
СТРАННАЯ ИГРА, — сказал Джошуа. — ЕДИНСТВЕННАЯ ВЫИГРЫШНАЯ СТРАТЕГИЯ — НЕ ИГРАТЬ ВООБЩЕ.
— Джошуа любит выигрывать, — изогнув бровь, заметил Фолкен. — А вы, генерал?
Sign up to leave a comment.