Обучение с подкреплением с A3C

Мотивация этой статьи проистекает из недавнего соревнования, в котором я участвовал, где нам нужно было обучить модель в игре Atari SpaceInvaders и максимально увеличить количество очков, набранных агентом за 100 запусков.

Учитывая, что это был мой первый опыт обучения с подкреплением, я начал с Deep Q Networks и его вариаций. Хотя результат теста был очень приятным для новичка, он был довольно нестабильным и требовал значительного количества тренировок, чтобы получить хороший результат.

Следующим на очереди был A3C - алгоритм обучения с подкреплением, разработанный Google Deep Mind, который полностью превосходит большинство алгоритмов, таких как Deep Q Networks (DQN), с показателями, которых он может достичь за короткий период времени.

A3C расшифровывается как Asynchronous Advantage Actor-Critic, где

Асинхронный

означает многопроцессорность. Здесь несколько агентов работают вместе над одной и той же проблемой и делятся друг с другом информацией о том, что они узнали. Когда многие головы пытаются решить проблему, решение достигается быстрее.

Каждый из этих агентов одновременно взаимодействует со своей собственной копией среды. Это действительно работает лучше, чем наличие одного агента, потому что опыт каждого агента независим и уникален для других агентов. Таким образом, у нас есть разнообразный опыт.

Актер-Критик

Модель «субъект-критик» - это, по сути, модель Q-Learning с глубокой сверткой, в которой агент реализует Q-обучение. Здесь вводятся изображения (снимок текущего состояния), и они передаются в глубокую сверточную нейронную сеть.

В базовой модели Q-Learning с глубокой сверткой выходом будет q-значение для возможных действий, которые агент может предпринять для данного состояния. Однако в A3C есть два выхода, один из которых представляет собой q-значения для различных действий, а другой - для вычисления значения нахождения в состоянии, в котором фактически находится агент.

Преимущество

Преимущество заключается в том, что значение, которое сообщает нам, есть ли улучшение в определенном действии по сравнению с ожидаемым средним значением этого состояния на основе.

Q (s, a) относится к значению Q или ожидаемому будущему вознаграждению за выполнение действия в определенном состоянии. V (s) обозначает ценность пребывания в определенном состоянии. Цель модели - максимизировать ценность преимущества.

Теперь, когда мы установили базовое понимание, давайте объединим их, чтобы понять, как работает эта модель в целом. Одним из основных компонентов, объединяющих их всех, является общая память.

объем памяти

Для этого мы используем ячейку Long Short Term Memory (LSTM). Выходные данные, полученные из Q-сети глубокой свертки, теперь передаются на уровень LSTM, который передаст значения на полносвязный уровень. Слой LSTM предоставляет модели память, позволяющую вспомнить прошлый опыт и принять решение на его основе.

Окончательный результат полностью подключенного слоя, из которого выбирается действие для нейронной сети-исполнителя. Значение также передается в нейронную сеть критика, где значение обновляется. Веса нейронной сети обновляются путем вычисления потери ценности для критика и потери политики для действующего лица, а затем обратное распространение ошибок по сети.

Этот алгоритм в настоящее время является самым современным в области обучения с подкреплением. Он оказался успешным в различных игровых средах со счетами, которые очень трудно достичь одному человеку за короткий период времени.

Одним из главных достижений является AlphaGo, ИИ, победивший лучшего игрока в мире в древней настольной игре го.

Если вы увлечены играми и хотели бы, чтобы ИИ победил в игре, обязательно ознакомьтесь с дополнительной информацией об обучении с подкреплением. Это действительно интересная область, которая растет вместе с людьми, предлагающими разные стратегии и идеи для решения проблем. Скоро обучение с подкреплением будет решать сценарии реального мира, а пока продолжайте учиться и продолжайте исследовать!

использованная литература

Связаться со мной

*** Спасибо всем за то, что прочитали эту статью. Мы очень ценим ваши предложения! ***

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning