Исследователи DeepMind создали модель, позволяющую воспроизводить прошлый опыт таким образом, чтобы имитировать механизмы в гиппокампе.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Способность использовать знания, извлеченные из предыдущего опыта, - одно из волшебных качеств человеческого обучения. На наши сны часто влияет прошлый опыт, и любой, кто пережил травмирующий опыт в прошлом, может рассказать вам, как постоянно видеть его вспышки в новых ситуациях. Человеческий мозг способен делать обширные выводы в отсутствие данных, обобщая прошлый опыт. Такое воспроизведение переживаний на протяжении десятилетий озадачивало нейробиологов, поскольку оно является важным компонентом наших процессов обучения. В искусственном интеллекте (ИИ) идея нейронных сетей, которые могут спонтанно воспроизводить полученный опыт, кажется фантастикой. Два года назад группа исследователей искусственного интеллекта из DeepMind опубликовала увлекательную статью, в которой описывается метод, предназначенный именно для этого.

В нейробиологии способность мозга делать выводы из прошлого опыта называется воспроизведением. Хотя многие механизмы, лежащие в основе воспроизведения опыта, до сих пор неизвестны, исследования в области нейробиологии достигли большого прогресса в объяснении когнитивного феномена. Понимание нейробиологических корней воспроизведения опыта необходимо для воссоздания его механики в агентах ИИ.

Неврологическая теория воспроизведения

Истоки нейронного воспроизведения можно отнести к работе таких исследователей, как лауреат Нобелевской премии по медицине Джон О’Киф. Доктор О’Киф уделяет много внимания объяснению роли гиппокампа в создании переживаний. Гиппокамп - это изогнутое образование в головном мозге, которое является частью лимбической системы и обычно связано с формированием новых воспоминаний и эмоций. Поскольку мозг латерализован и симметричен, на самом деле у вас два гиппокампа. Они расположены чуть выше каждого уха и примерно на полтора дюйма внутри вашей головы.

Ведущие нейробиологические теории предполагают, что разные области гиппокампа связаны с разными типами воспоминаний. Например, задняя часть гиппокампа участвует в обработке пространственных воспоминаний. Используя аналогию с архитектурой программного обеспечения, гиппокамп действует как система кэширования воспоминаний; получение информации, ее регистрация и временное хранение перед отправкой для хранения и хранения в долговременной памяти.

Возвращаясь к работе доктора О’Киф, одним из его ключевых вкладов в исследования нейробиологии было открытие клеток места, которые представляют собой клетки гиппокампа, которые активируются в определенных условиях окружающей среды, таких как данное место. В одном из экспериментов доктора О'Кифа крысы пробегали по коридору или круговой дорожке, поэтому исследователи могли легко определить, какой нейрон закодирован для каждой позиции в коридоре.

После этого эксперимента ученые записывали данные с тех же нейронов, пока крысы отдыхали. Во время отдыха клетки иногда спонтанно запускали быстрые последовательности, обозначая тот же путь, по которому животное бежало раньше, но со значительно увеличенной скоростью. Они назвали эти последовательности переигрованием опыта.

Несмотря на то, что мы знаем, что воспроизведение опыта является ключевой частью процесса обучения, его механику особенно сложно воссоздать в системах искусственного интеллекта. Отчасти это связано с тем, что воспроизведение опыта зависит от других когнитивных механизмов, таких как абстракции понятий, которые только начинают вторгаться в мир ИИ. Однако команда DeepMind считает, что у нас достаточно для начала.

Воспроизведение в AI

Из разных областей ИИ обучение с подкреплением кажется особенно подходящим для включения механизмов воспроизведения опыта. Агент обучения с подкреплением накапливает знания, постоянно взаимодействуя со средой, что позволяет ему записывать и воспроизводить прошлый опыт более эффективным способом, чем традиционные модели с учителем. Некоторые из ранних работ по попытке воссоздать воспроизведение опыта в агентах обучения с подкреплением восходят к основополагающей статье 1992 года, которая оказала влияние на создание сетей DeepMind DQN, которые освоили игры Atari в 2015 году.

С точки зрения архитектуры добавление опыта воспроизведения в сеть обучения с подкреплением кажется относительно простым. Большинство решений в этой области полагались на дополнительный буфер воспроизведения, который записывает опыт, полученный агентом, и воспроизводит его в определенное время. Некоторые архитектуры выбирают случайное воспроизведение опыта, в то время как другие используют определенный предпочтительный порядок, который оптимизирует процесс обучения агента.

Способ воспроизведения опыта в модели обучения с подкреплением играет ключевую роль в обучении агента ИИ. На данный момент два наиболее активно экспериментируемых режима известны как повторы фильма и воображаемые повторы. Чтобы объяснить оба режима, давайте воспользуемся аналогией из статьи DeepMind:

Предположим, вы пришли домой и, к своему удивлению и ужасу, обнаружили лужу воды на своем красивом деревянном полу. Войдя в столовую, вы обнаружите разбитую вазу. Затем вы слышите хныканье, выглядываете через дверь внутреннего дворика и видите, что ваша собака очень виноватая.

Агент обучения с подкреплением, основанный на предыдущей архитектуре, запишет следующую последовательность в буфер воспроизведения.

Воспроизведение фильма будет воспроизводить сохраненные воспоминания в точном порядке, в котором они произошли в прошлом. В этом случае буфер воспроизведения воспроизведет последовательность e: «вода, ваза, собака» в том же точном порядке. Архитектурно наша модель будет использовать автономного обучающегося агента для воспроизведения этого опыта.

В стратегии воображения повтор не буквально репетирует события в том порядке, в котором они были пережиты. Вместо этого он выводит или воображает реальные отношения между событиями и синтезирует последовательности, которые имеют смысл при понимании того, как устроен мир. Теория воображения не учитывает точный порядок событий и вместо этого делает вывод о наиболее правильной связи между переживаниями. С точки зрения архитектуры агента последовательность воспроизведения будет зависеть от текущей изученной модели.

Концептуально исследования в области нейробиологии предполагают, что воспроизведение фильма будет полезно для усиления связей между нейронами, которые представляют различные события или места в том порядке, в котором они были пережиты. Однако воспроизведение воображения может стать основой для создания новых эпизодов. Команда DeepMind продвигала эту теорию воспроизведения воображения и то, что агент обучения с подкреплением смог создать замечательные новые последовательности, основанные на предыдущем опыте.

Текущие реализации воспроизведения опыта в основном следуют стратегии фильма, основанной на ее простоте, но исследователи начинают проникать в модели, которые напоминают стратегию воображения. Безусловно, включение модулей воспроизведения опыта может стать отличным катализатором обучения агентов обучения с подкреплением. Еще более увлекательным является тот факт, что, наблюдая за тем, как агенты ИИ воспроизводят опыт, мы можем получить новое представление о нашем собственном человеческом познании.