Учебное пособие NeurIPS 2020 по автономному RL — сводная статья

Это краткая сводная статья по учебнику NeurIPS 2020 по автономному RL, представленному Авиралом Кумаром и Сергеем Левиным. Все содержание этой статьи взято из обучающего видео, слайдов и веб-сайта. Более подробную информацию можно найти по следующим ссылкам,

Представляем RL — обучение с подкреплением

Основная цель обучения с подкреплением — обучить агента, способного взаимодействовать с окружающей средой. Например, обучение агента выполнять сложные движения с помощью роботизированных рук или агента, который может эффективно управлять автономным транспортным средством в условиях безопасности.

Агенты обычно учатся принимать решения (также называемые политикой) в соответствии с прошлым опытом, либо из себя, либо из других политик. Их цель — получить как можно больше вознаграждения, приняв последовательность решений. Следующие обозначения часто используются для представления взаимодействия между агентами и окружающей средой.

s представляет собой состояние среды, а S – это набор, содержащий все возможные состояния.
a представляет собой действие, которое может быть выполнено агентом, а A — это набор, содержащий все возможные действия.
𝜋 представляет политику, которую можно рассматривать как функцию, которая выводит распределение по A с учетом текущего состояния s. Иногда обозначается как 𝜋(a|s).
r представляет собой вознаграждение, часто зависящее от текущего состояния s и выбранного действия a.
p представляет собой функцию перехода между состояниями, которая также является функцией текущего состояния s и выбранного действия a.

Раунд взаимодействия агента и среды будет осуществляться следующим образом. Учитывая текущее состояние s, агент выбирает следующее действие a в соответствии с распределением действий из политики 𝜋. Вознаграждение обратной связи r будет отправлено агенту, и среда перейдет в следующее состояние s’ в соответствии с функцией перехода p.

Затем мы можем определить траекторию 𝜏 как последовательность альтернативных состояний и действий,

Иногда траекторию также можно назвать опытом или образцом. В обучении с подкреплением эти траектории действуют как наборы данных для обучения. Таким образом, как собрать разнообразный и значимый опыт и собрать его эффективно, это несколько важных вопросов, которые необходимо решить в обучении с подкреплением.

Как агенты обучаются глубокому RL?

Прежде чем приступить к обсуждению автономного RL, нам нужно сначала взглянуть на то, как обычно агент RL обучается в рамках глубокого обучения.

Градиент политики. Прямой метод состоит в том, чтобы параметризовать политику и выполнить для нее градиентный спуск. На практике политика запускается несколько раз для сбора траекторий. Затем мы можем использовать собранный опыт для вычисления суммы будущих вознаграждений (также называемых Q-value или Q(s,a)). каждой пары состояние-действие, где мы можем найти более высокое значение Q, должно представлять лучший выбор для политики. Например, печально известный алгоритм REINFORCE является базовым алгоритмом градиента политики:

Соберите траектории { 𝜏 }, запустив текущую политику несколько раз.
Вычислить градиент в соответствии со значением Q каждой пары состояние-действие.
Обновите политику и вернитесь к шагу 1.

Актерно-критический алгоритм. Мы можем дополнительно улучшить градиент политики, настроив Q-функцию, которая выводит Q-значение в соответствии с текущим состоянием и выбранным действием. Сеть политик (актер) и сеть создания стоимости (критик) будут по очереди обновлять свои параметры.

Фреймворки RL и их проблемы

В современном RL есть несколько основных фреймворков для обучения RL, каждая из которых имеет свои плюсы и минусы по сравнению с другими.

Политика RL. В RL на основе политики все опыты, используемые для обучения, собираются путем развертывания текущей политики несколько раз. Используя этот параметр, мы можем гарантировать, что все собранные данные являются хорошими данными, а это означает, что поведение пользователей должно улучшаться вместе с политикой. Однако сбор данных является узким местом производительности в RL на основе политик. Все данные необходимо повторно собирать на каждой итерации обучения, и их нельзя повторно использовать для обучения обновленной политике, из-за чего RL на основе политики часто страдает от нехватки данных или длительного времени обучения.

Вне политики RL. С другой стороны, внеполитическое RL представляет собой компромисс между эффективностью данных и качеством данных. Буфер (часто называемый буфером воспроизведения) вводится в RL вне политики, в котором хранятся опыты, собранные на текущей и предыдущей итерациях. Обычно каждую игру можно повторить несколько раз, и она будет удалена после превышения лимита.

Офлайн RL. Автономное RL использует полностью управляемый данными подход для обучения агентов. То есть процесс сбора данных и обучение агентов полностью разделены. Данные об опыте собираются из другой существующей политики. Например, другие модели RL, эвристические методы или чисто человеческое поколение.

Возможен ли RL, управляемый данными?

Использование автономной среды RL для обучения агентов указывает на то, что между политикой обучения и политикой сбора может быть огромный разрыв. Это несоответствие определенно повлияет на производительность, но все же есть некоторые заслуживающие внимания перспективы, которые могут поддержать осуществимость автономного RL.

Хотя набор данных имеет смешанный источник из всех видов политик, мы все же можем выбрать хорошие и плохие представители и использовать их только для обучения.
Политики обобщаемы, т. е. хороший выбор политики А обычно является хорошим выбором и для политики Б. Например, если агент находится в состоянии близко к перекрестку, то остановите машину, увидев красный свет является хорошим выбором как для политик, основанных на людях, так и для политик, основанных на моделях.
Части хорошего поведения можно рекомбинировать. Даже для траектории, которая не может обеспечить высокую общую награду, она все же может включать в себя хорошее поведение. Увидев все больше и больше опыта, модель может найти важные общие части, которые могут обеспечить хорошее общее вознаграждение, и научится комбинировать их для достижения наилучшей политики.

Несмотря на эти моменты, в автономном RL по-прежнему остаются некоторые проблемы, включая смещение распределения, обратную связь, ошибку выборки/аппроксимации функции. Мы сосредоточимся на проблеме сдвига распределения в следующих разделах.

Представляем смену распределения

Думая о сценарии обучения с учителем, учитывая входные данные x, мы часто хотим обучить модель f, чьи выходные данные f(x) должны быть как можно ближе к истинному ярлыку y. Обычно нам удается добиться достаточно хорошего f с помощью глубокого обучения, если x и y взяты из одного и того же набора данных или, скажем, из одного и того же распределения. . Однако, если входные данные и истинная метка получены из разных наборов данных, производительность обычно считается низкой при простых настройках глубокого обучения. Эта проблема также присутствует в автономном RL. В автономном RL мы будем обучать Q-функцию с данными из политик сбора и ожидать, что она сможет предсказать фактическое значение Q политики обучения. Это нормально, если распределение изученной политики близко к распределению политики сбора. Но на практике это обычно не так, и автономный RL будет страдать от серьезного побочного эффекта смещения распределения.

Хуже того, если нам посчастливится иметь близкие распределения между обученной политикой и политикой сбора, мы все еще можем столкнуться с проблемой взрыва Q-значения. Мы можем увидеть этот эффект в следующем результате эксперимента.

Причина, по которой это происходит, так же проста, как ошибка при подгонке. Когда мы обучаем политику, мы будем обновлять сеть политик с целью максимизировать значение Q. Однако, поскольку значение Q также является оценкой из сети создания ценности, если мы выбираем политику, которая может дать максимальное ожидаемое значение Q, вполне возможно, что именно здесь сеть создания ценности имеет наибольшую ошибку в положительном направлении (см. иллюстрацию ниже). Следовательно, агенты склонны чрезмерно оптимистично относиться к своему выбору в приведенном выше эксперименте.

Решение сдвига распределения

Выборка по важности. При вычислении градиентов для обновления политики мы можем добавить коэффициент дисконтирования к каждой траектории. Коэффициент дисконтирования обычно представляет собой траекторию возможности обученной политики, разделенную на траекторию политики сбора. Таким образом, если траектория редко встречается в обученной политике, но популярна в политике сбора, она будет иметь ограниченную способность влиять на окончательный градиент.

Ограничение политики. Ограничение доступных политик для обучения. Ограничения распределения используют KL-дивергенцию или f-дивергенцию для оценки расстояния между распределением обучения и политикой сбора и выбирают только те, распределение которых близко к политике сбора. Поддержка ограничений, с другой стороны, выбирайте только те политики, которые соответствуют поддержке политики сбора.

Следующий результат эксперимента показывает силу ограничений политики. По сравнению с наивным RL вне политики и простым поведенческим клонированием автономный RL с ограничениями политики имеет выдающуюся производительность.

Заключение

Автономное RL, полностью управляемая данными среда RL, может преодолеть разрыв между стандартным контролируемым обучением и обучением с подкреплением, преобразовывая наборы данных в эффективные механизмы принятия решений и используя все возможные ресурсы вместо того, чтобы создавать их самостоятельно.

Machine Learning Reinforcement Learning

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning