Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

ИИ DeepMind научился играть лучше человека в 57 игр Atari, но до идеала далеко

АлгоритмыМашинное обучение
image

Компания Deep Mind, занимающаяся разработкой искусственного интеллекта, создала ИИ Agent57 с глубоким обучением, который получил среднюю оценку во всех выбранных 57 играх приставки Atari 2600 выше, чем человек, сообщается на сайте Deep Mind.
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Просмотры2.7K
Комментарии 10

Военные США планируют провести реальный воздушный бой человека против ИИ уже в 2024 году

Машинное обучениеИскусственный интеллект

ВВС США планируют провести реальный бой пилота-человека против искусственного интеллекта, управляющего самолётом, в 2024 году. Об этом рассказал министр обороны США Марк Эспер. 

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Просмотры5.5K
Комментарии 113

DeepMind открыла код среды Lab2D для обучения нейросетей

Open sourceМашинное обучениеИскусственный интеллект
image

DeepMind представила программную систему Lab2D с открытым исходным кодом. Она предназначена для создания 2D-сред с целью исследований в области ИИ и машинного обучения. Разработчики заявили, что Lab2D была создана с учетом потребностей исследователей в области глубокого обучения с подкреплением.
Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры2.6K
Комментарии 0

DeepMind представила бота MuZero, который играет в старые игры и в шахматы

Машинное обучениеИскусственный интеллектИгры и игровые приставкиЛогические игры
image

DeepMind AI представила агента искусственного интеллекта MuZero. Его обучили играть в десятки старых видеоигр Atari, шахматы и ​​настольные игры типа Go. В отличие от предшественников, бот самостоятельно вырабатывает для себя правила игры.
Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры2.6K
Комментарии 4

Исследователи обучили ИИ познавать мир путем поиска спрятанных вещей

Машинное обучениеНаучно-популярноеИскусственный интеллект

Исследователи AI2 заявили, что обучили агентов ИИ искать спрятанные в смоделированном доме предметы. В ходе игры под названием «Тайник» агенты ищут помидоры, буханки хлеба, чашки и ножи. Исследователи обнаружили, что модели понимают принципы постоянства объектов и могут ранжировать изображения в зависимости от того, сколько свободного места они содержат.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры1.2K
Комментарии 3

ИИ проектирует микросхемы быстрее и лучше людей

Машинное обучениеПроизводство и разработка электроникиНаучно-популярноеИскусственный интеллект

Инженеры Google Brain обучили алгоритмы создавать дизайн микросхемы. Нейросети справляются с проектированием всего за шесть часов и делают это лучше, чем белковые специалисты. 

Читать далее
Всего голосов 24: ↑24 и ↓0 +24
Просмотры10.4K
Комментарии 55

DeepMind: обучения с подкреплением достаточно для достижения «настоящего» ИИ

АлгоритмыМашинное обучениеНаучно-популярноеИскусственный интеллект

Ученые из британской лаборатории искусственного интеллекта DeepMind в своей статье в Artificial Intelligence утверждают, что настоящий искусственный интеллект можно развить не в результате формулирования и решения сложных проблем, а в результате соблюдения принципа вознаграждения.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Просмотры4.6K
Комментарии 11

Обучение с подкреплением на нейронных сетях. Теория

Спортивное программированиеАлгоритмы
Я тут написал статью Проблема «двух и более учителей». Первые штрихи, пытаясь показать одну сложную нерешенную проблему. Но первые штрихи оказались немного за сложными. Поэтому я решил для читателей немного разжевать теорию. Увы, сейчас видимо учат/(учатся ?) несколько шаблонно — типа как для каждой задачи свои методы.

Так мне указали, что для задачи классификации — нейронные сети (обучение с учителем), генетические алгоритмы (обучение без учителя) — задача кластеризации, а еще есть обучение с подкреплением (Q-обучение) — как задача агента, который бродит и что-то делает. И вот такими шаблонами многие и судят.

Попробуем разобраться, что дает применение нейронных сетей, как некоторые заявляют, к задаче которую они не могут решить — а именно к обучению с подкреплением.

И заодно проанализируем диссертацию Бурцев М.С., «Исследование новых типов самоорганизации и возникновения поведенческих стратегий», в которой не больше не меньше красиво сделано именно применение простеньких нейронных сетей в задаче обучения с подкреплением.
Читать дальше →
Всего голосов 14: ↑8 и ↓6 +2
Просмотры21.4K
Комментарии 26

Многорукие бандиты: введение и алгоритм UCB1

SurfingbirdАлгоритмы
Tutorial
Это первый пост из блога Surfingbird, который я выношу в общие хабы алгоритмов и искусственного интеллекта; честно говоря, раньше просто не догадался. Если интересно, заходите к нам, чтобы прочесть предыдущие тексты, – я не знаю, что произойдёт, если просто добавить новые хабы к постам несколькомесячной давности.

Краткое содержание предыдущих серий о рекомендательных системах:

В этот раз начинаем новую тему – о многоруких бандитах. Бандиты – это самая простая, но от этого только более важная постановка задачи в так называемом обучении с подкреплением


Читать дальше →
Всего голосов 41: ↑36 и ↓5 +31
Просмотры41.4K
Комментарии 13

Многорукие бандиты: модель dynamic Gamma-Poisson

SurfingbirdАлгоритмы
Tutorial
В прошлый раз мы рассмотрели общую постановку задачи о многоруких бандитах, обсудили, зачем это может быть нужно, и привели один очень простой, но эффективный алгоритм. Сегодня я расскажу о ещё одной модели, которая эффективна в ситуациях, когда ожидаемые доходы от бандитов меняются со временем, да и само число и состав «ручек» может меняться – о динамической гамма-пуассоновской модели.


Читать дальше →
Всего голосов 25: ↑23 и ↓2 +21
Просмотры12.4K
Комментарии 3

Хакатон по глубинному обучению (deep learning)

ПрограммированиеData MiningМашинное обучение
Глубокое обучение (deep learning) бурно развивается, и стабильно растёт список новых прорывов и областей его применения (обработка изображений, распознавание речи, обучение с подкреплением, нейромашинный перевод, вычислительная фармацевтика 1 и 2 и далее). Как следствие, крупнейшие мировые IT-компании (Google, Facebook, Baidu и многие другие) продолжают активно внедрять технологии глубокого обучения, создавая новые рабочие места.

Тем временем, возникает настойчиво поддерживаемая журналистами иллюзия, что вот-вот технологии глубокого обучения решат проблему создания искусственного интеллекта [1, 2, 3, 4]. Но реальность такова, что круга нерешённых задач хватит ещё на много диссертаций (см. презентация Я. Лекуна (Yann LeCun) на CVPR15, заметка Ю. Шмидтхубера (Jürgen Schmidhuber), пост Б. Гёртцеля (Ben Goertzel), уже упомянутые в статье на Хабре работы Дж. Хинтона (Geoffrey Hinton)). Осознавая этот факт, специалисты в машинном обучении стремятся повысить свою квалификацию; как показатель, на 100 мест в летней школе по глубокому обучению Ёшуа Бенжио (Yoshua Bengio) в этом году было более 600 заявок.

Наверно, не многие из читателей Хабра имели возможность попасть на школу Ё. Бенжио, однако, получить опыт и знания по глубокому обучению можно будет в процессе интенсивного недельного соревнования (хакатона), которое пройдет в Москве в июле. У участников хакатона будет возможность прослушать лекции от ведущих мировых специалистов, применить полученные навыки на практике и выиграть призы.


О том как это будет
Всего голосов 14: ↑11 и ↓3 +8
Просмотры10.5K
Комментарии 9

Deephack: хакатон по глубокому обучению с подкреплением, или как мы улучшали алгоритм Google Deepmind

АлгоритмыBig DataМатематикаМашинное обучение
С 19 по 25 июля проходил хакатон Deephack, где участники улучшали алгоритм обучения с подкреплением на базе Google Deepmind. Цель хакатона — научиться лучше играть в классические игры Atari (Space Invaders, Breakout и др.). Мы хотим рассказать, почему это важно и как это было.

Авторы статьи: Иван Лобов IvanLobov, Константин Киселев mrKonstantin, Георгий Овчинников ovchinnikoff.
Фотографии мероприятия: Мария Молокова, Политехнический музей.

Почему хакатон по обучению с подкреплением это круто:
  • Это первый в России хакатон с использованием глубокого обучения и обучения с подкреплением;
  • Алгоритм Google Deepmind — одно из последних достижений в области обучения с подкреплением;
  • Если вас интересует искусственный интеллект, то эта тема — очень близка к этому понятию (хотя мы сами и не хотели бы называть это ИИ).


Читать дальше →
Всего голосов 22: ↑14 и ↓8 +6
Просмотры12.4K
Комментарии 5

Обзор примера применения обучения с подкреплением с использованием TensorFlow

ПрограммированиеАлгоритмыМатематикаTensorFlow
КПДВ. В Karpathy game играет нейронная сеть

Всем привет!
Я думаю, что многие слышали о Google DeepMind. О том как они обучают программы играть в игры Atari лучше человека. Сегодня я хочу представить вам статью о том, как сделать нечто подобное. Данная статья — это обзор идеи и кода примера применения Q-learning, являющегося частным случаем обучения с подкреплением. Пример основан на статье сотрудников Google DeepMind.
За подробностями добро пожаловать под кат
Всего голосов 22: ↑22 и ↓0 +22
Просмотры41.9K
Комментарии 15

Нейросетка играет в Доту

ПрограммированиеC++АлгоритмыМашинное обучениеРазработка робототехники


Всем привет! На самом деле нейросетка играет не в привычную Dota 2, а в RussianAICup 2016 CodeWizards. RussianAICup — это ежегодное открытое соревнование по программированию искусственного интеллекта. Участвовать в этом соревновании довольно интересно. В этом году темой была игра похожая на Доту. Так как я уже какое-то время занимаюсь обучением с подкреплением, то мне хотелось попробовать применить это в RussianAICup. Главной целью было научить нейронную сеть играть в эту игру, хотя занятие призового места — это, конечно, было бы приятно. В итоге нейросеть держится в районе 700 места. Что, я считаю, неплохо, ввиду ограничений соревнования. В этой статье речь пойдет скорее об обучении с подкреплением и алгоритмах DDPG и DQN, а не о самом соревновании.
Но обо всем по-порядку
Всего голосов 46: ↑44 и ↓2 +42
Просмотры35.1K
Комментарии 63

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

АлгоритмыОбработка изображенийМашинное обучение
Перевод
Изложение статьи от том, что давно известные эволюционные стратегии оптимизации могут превзойти алгоритмы обучения с подкреплением.
Преимущества эволюционных стратегий:

  • Простота реализации
  • Не требуется обратного распространения
  • Легко масштабируется в распределенной среде вычислений
  • Малое число гиперпараметров.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Просмотры9.5K
Комментарии 14

Логарифмируй это: метод логарифмической производной в машинном обучении

Wunder FundАлгоритмыМатематикаМашинное обучение
Перевод

Прием, о котором пойдет речь — метод логарифмической производной — помогает нам делать всякие штуки, используя основное свойство производной от логарифма. Лучше всего этот метод зарекомендовал себя в решении задач стохастической оптимизации, которые мы исследовали ранее. Благодаря его применению, мы нашли новый способ получения стохастических градиентных оценок. Начнем с примера использования приема для определения оценочной функции.

Довольно математично.
Читать дальше →
Всего голосов 22: ↑20 и ↓2 +18
Просмотры8.7K
Комментарии 1

Добро пожаловать в эру глубокой нейроэволюции

АлгоритмыМашинное обучение
Перевод
image

От имени команды Uber AI Labs, которая также включает Joel Lehman, Jay Chen, Edoardo Conti, Vashisht Madhavan, Felipe Petroski Such и Xingwen Zhang.

В области обучения глубоких нейронных сетей (DNN) с большим количеством слоев и миллионами соединений, для тренировки, как правило, применяется стохастический градиентный спуск (SGD). Многие полагают, что способность SGD эффективно вычислять градиенты является исключительной особенностью. Однако мы публикуем набор из пяти статей в поддержку нейроэволюции, когда нейронные сети оптимизируются с помощью эволюционных алгоритмов. Данный метод также является эффективным при обучении глубоких нейронных сетей для задач обучения с подкреплением (RL). Uber имеет множество областей, где машинное обучение может улучшить его работу, а разработка широкого спектра мощных подходов к обучению (включая нейроэволюцию), поможет разработать более безопасные и надежные транспортные решения.
Читать дальше →
Всего голосов 33: ↑31 и ↓2 +29
Просмотры18.3K
Комментарии 3

Глубинное обучение с подкреплением пока не работает

Разработка игрАлгоритмыОбработка изображенийМашинное обучениеРазработка робототехники
Перевод
Об авторе. Алекс Ирпан — разработчик из группы Brain Robotics в Google, до этого работал в лаборатории Berkeley Artificial Intelligence Research (BAIR).

Здесь в основном цитируются статьи из Беркли, Google Brain, DeepMind и OpenAI за последние несколько лет, потому что их работы наиболее заметны с моей точки зрения. Почти наверняка я что-то упустил из более старой литературы и от других организаций, так что прошу прощения — я всего лишь один человек, в конце концов.


Введение


Однажды в Facebook я заявил следующее.
Когда кто-то спрашивает, может ли обучение с подкреплением (RL) решить их проблему, я сразу отвечаю, что не может. Думаю, что это верно как минимум в 70% случаев.
Глубинное обучение с подкреплением сопровождается массой шумихи. И на то есть хорошие причины! Обучение с подкреплением (RL) — невероятно общая парадигма. В принципе, надёжная и высокопроизводительная система RL должна быть прекрасна во всём. Слияние этой парадигмы с эмпирической силой глубинного обучения очевидно само по себе. Глубинное RL — это то, что больше всего похоже на сильный ИИ, и это своего рода мечта, которая подпитывает миллиарды долларов финансирования.

К сожалению, в реальности эта штука пока не работает.

Но я верю, что она выстрелит. Если бы не верил, то не варился бы в этой теме. Но впереди куча проблем, многие из которых фундаментально сложны. Прекрасные демки обученных агентов скрывают всю кровь, пот и слёзы, что пролились в процессе их создания.
Читать дальше →
Всего голосов 59: ↑59 и ↓0 +59
Просмотры27.9K
Комментарии 34

Обучение с подкреплением никогда не работало

АлгоритмыМашинное обучение
Перевод
TL;DR: Обучение с подкреплением (RL) всегда было сложным. Не волнуйтесь, если стандартные техники глубинного обучения не срабатывают.

В статье Алекса Ирпана хорошо изложены многие современные проблемы глубинного RL. Но большинство из них не новые — они существовали всегда. На самом деле это фундаментальные проблемы, лежащие в основе RL с момента его создания.

В этой статье я надеюсь довести до вас две мысли:

  1. Большинство недостатков, описанных Алексом, сводятся к двум основным проблемам RL.
  2. Нейросети помогают решить только малую часть проблем, одновременно создавая новые.

Примечание: статья ни в коем случае не опровергает претензии Алекса. Наоборот, я поддерживаю большинство его выводов и считаю, что исследователи должны более чётко объяснять существующие ограничения RL.
Читать дальше →
Всего голосов 24: ↑21 и ↓3 +18
Просмотры13.2K
Комментарии 1

ИИ от Google самостоятельно освоил 49 старых игр Atari

Научно-популярноеИскусственный интеллектИгры и игровые приставкиIT-компании


Компания Google создала систему искусственного интеллекта, которая играет лучше человека во многие аркадные игры. Программа научилась играть, не зная правил и не имея доступа к коду, а просто наблюдая за картинкой на экране.
Читать дальше →
Всего голосов 59: ↑55 и ↓4 +51
Просмотры48.1K
Комментарии 75