alizar 26 фев 2015 в 12:17

ИИ от Google самостоятельно освоил 49 старых игр Atari

2 мин

49K

+51

Комментарии 75

IamKarlson 26 фев 2015 в 12:39

Я знаю кто автор, но «ИИ от Google» это слишком громко для инс.

-10

Suvitruf 26 фев 2015 в 13:44

Это же не просто бот, система самообучается, так что, почему не AI? Пишут, что фундаментально подход отличается от тех же Deep Blue и Watson.

DISaccount 26 фев 2015 в 13:01

Странно, что не попробовали противопоставить этой системе саму себя (копию). Например, в том же пинболе.

xplodr 26 фев 2015 в 13:39

Пинбол — игра для одного игрока и в ней нет соперника.

ripatti 26 фев 2015 в 13:49

наверно имелся в виду понг

НЛО прилетело и опубликовало эту надпись здесь

DISaccount 26 фев 2015 в 16:45

Не думаю, что там использовалась целая площадка серверов. Возможно, что специальные нейросетевые плисы, но кто — кто, а гугл себе может позволить такое роскошество и в большем количестве.

^{^{Пинбол — игра для одного игрока и в ней нет соперника.
xplodr — простите, что не разобрался в таком важном вопросе, прежде чем написать, ведь моя мысль из-за этого становится абсолютно непонятной-)}}

-4

barmaley_exe 27 фев 2015 в 02:58

Согласно Ленте

две недели на каждую игру и вычислительные мощности одного-единственного персонального компьютера

Правда, упоминания чего-либо подобного в оригинальной статье я не нашёл.

omikad 26 фев 2015 в 22:37

Скорее всего их алгоритм не извлекает слишком уж глубоких знаний из игр, и, следовательно, нет особой разницы против кого она играет — против рандома, против включенных в игру оппонентов, или против самих себя, все равно глубина познания не увеличится

barmaley_exe 27 фев 2015 в 03:09

А как понять, что он извлекает, и насколько оно глубоко?

На мой взгляд, если включить в игру 2 противоборствующих агентов, каждый из которых пытается адаптироваться, задача будет довольно интересной, т.к. для каждого агента его оппонент есть часть окружающей среды, которая, получается, реагирует на действия этого агента.
Т.е. у среды есть обратная связь, так что стратегия, хорошо работающая сейчас, может перестать так хорошо работать уже через некоторое время, т.к. оппонент «раскусит» вашу тактику.

Мне же думается, что причина причина в другом: этот «ИИ» не смог научиться играть, например, в PacMan (по-моему, об этом говорилось в интервью Nature), так что ожидать от него чего-нибудь интересного от противостояния с «двойником» не стоит. Хотя было бы очень интересно посмотреть на дуэль роботов.

Virusmater 26 фев 2015 в 13:48

Пусть E.T. the Extra-Terrestrial попробует.

ripatti 26 фев 2015 в 13:50

я, кажется, представляю себе как может появиться Скайнет…

+15

bbidox 26 фев 2015 в 13:56

Умные гели из «Морских звёзд» Питера Уоттса тоже учились по картинкам.

BubaVV 26 фев 2015 в 14:30

«Будущее здесь», не?

Lorien_Elf 26 фев 2015 в 14:55

Сегодня Понг, завтра на миде тащить начнет :)

+18

stupidbot 26 фев 2015 в 14:58

Сначала за нас в игры играть будет, потом за нас котлеты есть начнет… :)

+12

domix32 26 фев 2015 в 22:08

Так ведь уже умеют же, не? Пока еще хуже чем люди и без самообучения, но все же

Lorien_Elf 27 фев 2015 в 00:39

Конечно умеют. Против компьютера всегда играть можно было, в Дюну какую-нибудь, например.

TheShock 12 июл 2017 в 07:55

Только потому что он написан так, чтобы позволять себя обыгрывать.

Guzzle 26 фев 2015 в 14:57

Они просто бота для счастливой фермы писали, а получилось вот…

Riateche 26 фев 2015 в 16:28

Это запредельно круто. Будущее здесь.

ruikarikun 26 фев 2015 в 17:01

>>>Универсальная самообучаемая система когда-нибудь может найти применение, например, в автономных автомобилях и других проектах, где нужно анализировать состояние окружающих объектов и принимать решения.
Мне вот страшно было бы доверить свою жизнь обученной нейросети подобного рода. Потому как классические алгоритмы хоть на предмет ошибок анализировать можно, доказывать или опровергать их корректность. А тут даже не знаешь наверняка, что случится с такой системой, если кто-то её сфотографирует со вспышкой, и будет ли этот результат устойчивым.

-3

Regis 26 фев 2015 в 20:49

Вы можете проанализировать на предмет ошибок мозг наёмного водителя? Доказать/опровергнуть его корректность? Нет.

Вы максимум можете опросить его на предмет знания ПДД и посмотреть стиль вождения. Т.е. проверить поведение в некотором наборе конкретных ситуаций. И вроде бы это никого не смущает. Однако когда речь заходит про ИИ — сразу же требуется непременно «математическое доказательство корректности». Странно, неправда ли? )

ruikarikun 26 фев 2015 в 20:59

То, что у водителя есть водительские права, гарантирует у него с высокой вероятностью отсутствие учёта у врачей по части эпилепсии, например. Да и тот факт, что он дожил до зрелого возраста, свидетельствует о наличии инстинкта самосохранения и минимального здравого смысла. Но главное, всё же — наличие списка медицинских противопоказаний, по которым права не дают. Это — чёткий список известных предпосылок для конкретных проблем, которые могут возникнуть с живым водителем. Конечно, не строго математическое доказательство корректности водителя, но серьёзный фильтр.

Про нейросеть же неизвестно ничего вообще — это просто чёрный ящик, который вроде бы неплохо себя вёл в тех немногих ситуациях, где его успели протестировать перед продажей.

-2

ilvar 27 фев 2015 в 00:52

Нынешние «черные ящики» уже чуть ли не 10 лет «тестируют перед продажей». Ни одного мясного водителя с таким пристрастием не гоняли никогда.

Maccimo 27 фев 2015 в 02:30

Ничего странного.
Общую адекватность водителя можно оценить по его поведению и в беседе. Оценить адекватность примитивной нейросети не представляется возможным.

Regis 1 мар 2015 в 12:59

Если человек себя нормально ведет при разговоре — это не обязательо означает, что он адекватно себя ведет за рулем. Увы.

ruikarikun 3 мар 2015 в 16:19

Верно. Но если человек неадекватно ведёт себя уже при разговоре — то одно это даёт некоторые представления и о его вождении.

Regis 3 мар 2015 в 22:19

А если ИИ неадкватно ведет себя на тестах — то это тоже вполне себе дает «некоторые представления о его вождении».

FAT16 23 авг 2015 в 16:03

Я лучше доверю подобному алгоритму чем гостю из южных стан (я не вожу автомобиль). Алгоритм будет проходить _очень_ серьёзное тестирование, я могу почитать отзывы людей «в теме», посмотреть статистику аварийности, действия алгоритма логичны и предсказуемы. В отличии от человека время реакции — пару тактов процессора

megalol 26 фев 2015 в 17:13

>Эта разработка не такая легкомысленная, как может показаться. Универсальная самообучаемая система когда-нибудь может найти применение, например, в автономных автомобилях и других проектах, где нужно анализировать состояние окружающих объектов и принимать решения.
В автомобилях нет индикатора заработанных очков, чтобы легко написать целевую функцию. А где ее легко написать, подобрать соответствующий оптимизатор не проблема.

propell-ant 26 фев 2015 в 17:42

есть индикаторы — время в пути, деньги на ремонт (или выплаты пострадавшим) и штрафы в почтовом ящике. Распрекраснейшие заработанные очки.

KvanTTT 26 фев 2015 в 18:15

Думаю на стадии, когда нужно будет большое количество денег на ремонт и штрафов в почтовом ящике, система не будет в реально эксплуатации)

KvanTTT 26 фев 2015 в 18:14

Для автомобиля не нужна будет универсальность. Точнее нужна будет, но в другом контексте (вид за окном и управление примерно одинаковое, а вот ситуации на дороге — разные).

megalol 26 фев 2015 в 18:23

Дело не в этом, это задачи разного порядка и разного пути решения, сравнения из разряда «ученый изнасиловал журналиста»

НЛО прилетело и опубликовало эту надпись здесь

Infernal 26 фев 2015 в 18:10

Тетрис появился в то время, когда Atari уже не актуальна была

Shultc 26 фев 2015 в 20:14

Я так и не понял, система сама определяла, что является победой, а что проигрышем? Ей показывалось, где на экране очки, а где жизни?

Откуда игра могла знать, что цель игры BrakeOut (арканоинд?) — набрать как можно больше очков, а не, к примеру, потратить свои жизни как можно быстрее?

ustin 26 фев 2015 в 21:09

Как следует из оригинальной статьи в nature, на вход программе кроме сырых пикселей подавался ещё и счет.

Цитата

We demonstrate that the deep Q-network agent, receiving only the pixels and the game score as inputs, was able to surpass the performance of all previous algorithms and achieve a level comparable to that of a professional human games tester across a set of 49 games, using the same algorithm, network architecture and hyperparameters.

barmaley_exe 27 фев 2015 в 03:16

Вряд ли система научилась понимать цифры на экране, так что о количестве жизней она бы не узнала.

Насколько мне известно, задачей ИИ было максимизировать количество набранных очков, которые, как уже заметили выше, подавались ей в явной форме.

Darth_Biomech 26 фев 2015 в 21:34

На мой взгляд наиболее впечатляющее достижение — это то что программа обучается методом анализа картинки, а не кучи цифровых входных данных как в большинстве других самообучающихся игровых ИИ.

tmg 26 фев 2015 в 21:35

вот сайт где можно скачать исходники на LUA. В архиве есть инструкция что надо инсталлировать и как обучать программу и играть.

cher11 26 фев 2015 в 21:52

Жесть. Когда смотришь видео про игру в Breakout и видишь, как ИИ целенаправленно загоняет мяч в щель между блоками и краем игрового поля, чтобы набить очки, действительно становится не по себе. С одной стороны — восторг от того, что в будущем точно так же будет делаться куча вещей, с которыми ИИ справится значительно лучше и точнее человека, а с другой — холодок по спине, ведь вместо блоков могут быть люди, а вместо шарика — луч лазера (или что там у роботов Скайнета было) :)

Lexxtor 26 фев 2015 в 22:59

Странно, то что она научилась человеческой стратегии. По моему ей было легче научиться просто отбивать шарик все время, чем делать тоннель. Она же не устает как человек. Хотя стратегия туннеля оправдана если шарик не всегда можно отбить.

Shultc 26 фев 2015 в 23:14

Думаю это просто случайность. Шарик от угла всегда летит в том же направлении, откуда он был запущен, поэтому платформе нужно меньше двигаться. С этой целью ИИ и посылал по возможности шарик в угол. А тоннель — лишь случайность.

SVlad 27 фев 2015 в 00:16

Мне кажется, бот фактически запомнил оптимальные углы отбития шарика. То есть, один раз шар наверх залетел и бот запомнил, какая куча очков высыпалась.

MrAlexArt 21 авг 2015 в 13:15

В том то и соль — даже авторы бота не знают правду.

Lsh 27 фев 2015 в 15:06

Да что все напуганные какие? И картинки то какие страшные в голове рисуются. Люди рядами и выбивание их лазером. «Мертвые с косами стоят и тишина...».

bigfatbrowncat 22 авг 2015 в 00:48

Фантасты постарались. Уж очень это заманчивая тема. Кто только по ней не прошелся… Мы — поколение технарей, в детстве свзахлёб смотревшее Теминаторов всех видов и сортов.

Машин мы боимся. Не людей, которые их программируют, нет… Машин.

Lsh 22 авг 2015 в 14:04

Я вот не боюсь. Я жду, когда появится полноценный ИИ, если он возможен. Можно на это смотреть вообще как на эволюцию.

SkidanovAlex 26 фев 2015 в 22:26

Эта статья от Deep Mind была еще в 2013 году опубликована

arxiv.org/abs/1312.5602

Все, что изменилось с тех пор, это то, что Google купил Deep Mind :)

barmaley_exe 27 фев 2015 в 03:13

Ну, это статья с семью играми от декабря 13 года, а статья в Nature с 49 играми была отправлена летом 14-го. С другой стороны, в статье 13-го года говорится про «a variant of Q-learning», а теперь они это называют Deep Q-Network. Это одна и та же модель?

VDG 27 фев 2015 в 00:12

SC-у научат, и зазвучит во всех динамиках «nuclear launch detected»

dzobnin 27 фев 2015 в 08:36

Когда уже оно научится фармить кредиты в онлайн-играх?

DIHALT 27 фев 2015 в 10:09

А кто оценивал успешность игры?

Если человек, то это получается простейший генетический алгоритм, а вот если робот сам допетрил, что он круто играет, то все намного интересней.

barmaley_exe 27 фев 2015 в 11:10

Роботу говорили, сколько у него на текущий момент очков. А ещё он был запрограммирован максимизировать это число.

brunen9 28 фев 2015 в 16:18

После видео с «арканоидом», мне кажется что в данном случае ИИ надо расшифровывать как «искусственный идиот». Я к тому, что любой человек уже при первом в жизни сеансе игры в арканоид добивается куда больших успехов, чем этот ИИ после 400 сеансов. Ни в коем случае не хочу принижать достижение разработчиков, просто хотелось указать на огромный разрыв между человеком и существующими ИИ.

-2

barmaley_exe 28 фев 2015 в 20:28

Любой человек? Даже младенец, родившийся, скажем, неделю назад?

У Вашего «любого» человека тысячи часов опыта, включающего не только визуальную составляющую, но и множество других путей получения информации об окружающем мире, в том числе о его физике. У машины этого по-умолчанию нет.

qw1 28 фев 2015 в 20:45

Найдите слова «деревенский дурачок» на этой странице.

okneigres 1 мар 2015 в 07:06

У человека уже очень большое количество накопленных знаний, здесь ноль. Если дать арканоид маленькому ребенку, который ходить-то не может, число попыток перед более-менее успешной игрой будет очень приличным. Так что, говоря о разрыве, что вы оцениваете – алгоритм самообучения, или насколько машина уже напичкана знаниями?

bigfatbrowncat 22 авг 2015 в 00:49

Значит я — идиот. Мне в детстве (лет в шесть) потребовалось поиграть в Breakout с неделю, чтобы догадаться загнать шарик наверх. И потом еще некоторое время ушло на тренировки.

victor79 20 мар 2015 в 15:21

«использовала метод обучения с подкреплением»
«ИИ получает «вознаграждение» за выполнение определённых действий»
это не самостоятельное обучение. Это кто-то должен сидеть и нажимать ей много раз когда система права а когда нет. Типа q-learning. В данном случае вероятно использовались вспомогательные программы, которые считывали очки из игры и передавали в ИИ. В человеческом случае, этот признак — импульсы удовольствия или боли, которые бессмысленны в отношении единичного компьютера. Если только не захотим создать саморазмножающиеся и конкурирующие компьютеры.

barmaley_exe 20 мар 2015 в 16:06

Это кто-то должен сидеть и нажимать ей много раз когда система права а когда нет.

В данном случае вероятно использовались вспомогательные программы, которые считывали очки из игры и передавали в ИИ

Если бы всегда можно было просто жадно делать действие, приводящее к увеличению количества очков (что, казалось бы, как раз случай когда «система права»), эти игры бы не представляли ни интереса, ни сложности.

Тут же действие, дающее очки, не всегда оптимально в долгосрочной перспективе. Поэтому неверно говорить, что кто-то отделяет правильные действия от ошибочных.

victor79 20 мар 2015 в 18:02

этот метод — это выбор стратегии. Берем суммируем вперед несколько шагов поощерений на каждый вариант возможного действия в текущий момент — и получаем прогноз, какой из вариантов лучше. Вместо таблицы состояний, как в q-learning используется сетка распознающая изображения. Но смысл в том, что эту систему, что бы она научилась выбирать эту стратегию, кто-то другой должен ей предоставить определения, что хорошо, а что плохо — т.е. у нее нету и не будет этого нерва. Подразумевается, что для того, что бы она смогла это спланировать, мы должны давать ей признаки, что для нас хорошо или плохо, и угадать этого самостоятельно она не сможет. Я в своей статье показал метод, каким образом мы можем этой системе сказать словами, что нужно.

barmaley_exe 20 мар 2015 в 18:07

В чём же выражается эти определения? Не говорите только про значение целевой функции — минимизируемый функционал, если уж на то пошло, можно найти в любой задаче машинного обучения. От этого классификация методов не схлопывается в одно лишь «обучение с учителем».

Но и про заяву на AGI тоже никто не говорит.

victor79 20 мар 2015 в 18:24

я в ней показал, как система может учится всему, в том числе правилам разговорных языков, только лишь на одном универсальном признаке — прогнозирование, и объяснил, как потом с этой системой прогнозирования можно разговаривать — без каких либо дополнительных расширений. И ей так же можно объяснить, которую стратегию действий желаете, хотя в статье я не стал углубляться в метод выбора стратегий.

barmaley_exe 21 мар 2015 в 00:36

я в ней показал, как система может учится всему

Код есть? Можете хотя бы Ирисы Фишера классифицировать?

У вас там лишь вода и философия. Более того, логические парадоксы подсказывают нам, что на естественном языке можно выразить такие вещи, о которых и рассуждать строго-то нельзя. Так что априори не верю ни единому слову, покуда оно не подкреплено каким-нибудь более формальным аргументом.

victor79 21 мар 2015 в 01:13

там статью можно поделить на два утверждения:
1. что прогнозирование можно использовать, что бы с системой можно было разговаривать.
2. что прогнозировать можно что угодно, если данные не случайны. А если данные есть но не получается — значит просто еще не нашли алгоритм.

и похоже Вы оспариваете то, что прогнозирование возможно. Что является абсурдом.

Задача классификации, это не задача прогнозирования. Хотя любая задача, которую может понять человек — значит существует алгоритм.

Над кодом трудимся. Много воды — иначе широкие массы не поймут. А философия — это когда приписывают компьютерам свойство «мудрость», дабы оно решило все наши проблемы — качество взятое из определению сильного ИИ из википедии.

barmaley_exe 21 мар 2015 в 01:44

Второе утверждение требует банальной вычислимости «чего угодно», а, перефразируя Матроскина, у нас теоремы о неразрешимости есть. Более того, даже если алгоритм и существует, Вам его никогда не найти, т.к., очевидно, существует бесконечное количество алгоритмов, выдающих на любой конечном множестве входов любой (конечный, как следствие) набор выходов. Разумно утверждать, что искомый алгоритм будет обладать минимальной длиной программы, его вычисляющей, в каком-нибудь ЯП, но это тоже неразрешимая задача, и не надейтесь.

Да и что там неразрешимые задачи, уже пара NP-сложных задач сведёт Вашу систему на нет, на сколько машин Вы её не распараллеливайте. Ибо насчёт пары лет на вычисление это Вы сильно размечтались, реалистичные цифры будут примерно такими: 5.3 * 10²⁸⁵ лет (время факторизации 1024-битного числа перебором, тоже NP сложная задача). Даже если Вы сможете запустить параллельные вычисления на каждой частице во Вселенной (которых всего 10⁸⁰), это ничем не поможет.

Задача классификации, это не задача прогнозирования.

Чем задача прогнозирования метки для изображения не классификация? Вы в своей статье говорили, что можно загрузить в программу данные, произнести ~~заклинание~~ «Прогнозируй!» и машина выдаст ответ. Почему если до этого в неё загрузить обучающую выборку в предложенном Вами же формате "[биты картинки] — [число на ней изображенное]", это не будет классификацией?

Позвольте нескромный вопрос: а в каком объёме Вы знакомы с Теорией Сложности, Машинным Обучением, Искуственным Интеллектом, Теорией Статистического Обучения? Что такого инновационного Вы предлагаете, что ещё не было опробовано другими?

victor79 21 мар 2015 в 03:12

Количество алгоритмов бесконечно — я с этим согласен, и там я об этом упоминал. Я всего лишь утверждаю, что если это спрогнозировал человек, значит это возможно. Если не нравятся точные методы, то в конце я упомянул, что это же можно искать в нейронных сетках.

Абсолютный брутфорс — это решение в лоб, если совсем ничего другого не нашлось.
А всякие методы оптимизации поиска предлагают альтернативные последовательности перебора, где в первую очередь перебираются те, где больше вероятности найти нужное.

Классификация это разделение на подклассы. А картинка-число — это корреляция — основа прогнозирования. И да, картинку нужно сначала классифицировать, и потом строить корреляции — там я упомянул, что с этим и возникла проблема — если без классификации, то и получиться брутфорсовский вариант — найти все возможное. И вопрос, каков будет универсальный признак выделения типов — оно же классификация? И этот признак достаточно прост, иначе расчет его не мог бы возникнуть эволюционным путем для живых мозгов.

Именно, что оно все гораздо проще. И алгоритм прогнозирования давно бы составили более лобастые чем я, но они проглядели свойство, что так можно с ней разговаривать. А без этого — это просто безделушка, т.к. прогнозирования заточенные под ситуации гораздо эффективней абстрактного. И потому сидят они горемыки и в очередной раз перетачивают анализ изображения, в надежде что в нем мелькнет мудрость.

barmaley_exe 21 мар 2015 в 11:22

И да, картинку нужно сначала классифицировать, и потом строить корреляции — там я упомянул, что с этим и возникла проблема — если без классификации, то и получиться брутфорсовский вариант — найти все возможное.

Ну загрузите в свою программу сперва обучающую выборку, в чём проблема?

А всякие методы оптимизации поиска предлагают альтернативные последовательности перебора, где в первую очередь перебираются те, где больше вероятности найти нужное

И где хоть какое-нибудь обоснование «быстроты» этого перебора хотя бы в среднем (минус выбросы / медианном) случае?

они проглядели свойство, что так можно с ней разговаривать

Серьёзно? Вы фильмы смотрите? Я не знаю ни одного фильма, где с ИИ бы не разговаривали. Я уже не говорю про всевозможных ассистентов вроде Сири, Кортаны и пр. Или Вы думаете, что все учёные мужи до единого просто сидят взаперти уже 60 лет, потирают лбы и сосредоточенно смотрят на формулы?

victor79 21 мар 2015 в 13:47

вот Вы спорите, а сами правильно угадали принцип «картинка-число», причем в статье этого не было. Скорость поиска — вопрос не в этом. Если бы за 60 лет об этом сообразили бы, то были бы хотя бы теоретические упоминания об этом, а так же выкладки сколько это займет времени. И как следствие утверждения, что поиск аналогичный мозговому не возможен, и нужно все пилить ручками. И мозг работает далеко не на брутфорсе — даже ему это не под силу.

Других вариантов нету, либо будет универсальный критерий, либо мы продолжим все пилить, и под каждую ситуацию придумывать подкрепления. Типа строим космический корабль, на него смотрит через камеру отдельно выпиленная программа и считает очки — тот ли нос прикрепили.