Это краткая сводная статья по учебнику NeurIPS 2020 по автономному RL, представленному Авиралом Кумаром и Сергеем Левиным. Все содержание этой статьи взято из обучающего видео, слайдов и веб-сайта. Более подробную информацию можно найти по следующим ссылкам,
Представляем RL — обучение с подкреплением
Основная цель обучения с подкреплением — обучить агента, способного взаимодействовать с окружающей средой. Например, обучение агента выполнять сложные движения с помощью роботизированных рук или агента, который может эффективно управлять автономным транспортным средством в условиях безопасности.
Агенты обычно учатся принимать решения (также называемые политикой) в соответствии с прошлым опытом, либо из себя, либо из других политик. Их цель — получить как можно больше вознаграждения, приняв последовательность решений. Следующие обозначения часто используются для представления взаимодействия между агентами и окружающей средой.
- s представляет собой состояние среды, а S – это набор, содержащий все возможные состояния.
- a представляет собой действие, которое может быть выполнено агентом, а A — это набор, содержащий все возможные действия.
- 𝜋 представляет политику, которую можно рассматривать как функцию, которая выводит распределение по A с учетом текущего состояния s. Иногда обозначается как 𝜋(a|s).
- r представляет собой вознаграждение, часто зависящее от текущего состояния s и выбранного действия a.
- p представляет собой функцию перехода между состояниями, которая также является функцией текущего состояния s и выбранного действия a.
Раунд взаимодействия агента и среды будет осуществляться следующим образом. Учитывая текущее состояние s, агент выбирает следующее действие a в соответствии с распределением действий из политики 𝜋. Вознаграждение обратной связи r будет отправлено агенту, и среда перейдет в следующее состояние s’ в соответствии с функцией перехода p.
Затем мы можем определить траекторию 𝜏 как последовательность альтернативных состояний и действий,
Иногда траекторию также можно назвать опытом или образцом. В обучении с подкреплением эти траектории действуют как наборы данных для обучения. Таким образом, как собрать разнообразный и значимый опыт и собрать его эффективно, это несколько важных вопросов, которые необходимо решить в обучении с подкреплением.
Как агенты обучаются глубокому RL?
Прежде чем приступить к обсуждению автономного RL, нам нужно сначала взглянуть на то, как обычно агент RL обучается в рамках глубокого обучения.
Градиент политики. Прямой метод состоит в том, чтобы параметризовать политику и выполнить для нее градиентный спуск. На практике политика запускается несколько раз для сбора траекторий. Затем мы можем использовать собранный опыт для вычисления суммы будущих вознаграждений (также называемых Q-value или Q(s,a)). каждой пары состояние-действие, где мы можем найти более высокое значение Q, должно представлять лучший выбор для политики. Например, печально известный алгоритм REINFORCE является базовым алгоритмом градиента политики:
- Соберите траектории { 𝜏 }, запустив текущую политику несколько раз.
- Вычислить градиент в соответствии со значением Q каждой пары состояние-действие.
- Обновите политику и вернитесь к шагу 1.
Актерно-критический алгоритм. Мы можем дополнительно улучшить градиент политики, настроив Q-функцию, которая выводит Q-значение в соответствии с текущим состоянием и выбранным действием. Сеть политик (актер) и сеть создания стоимости (критик) будут по очереди обновлять свои параметры.
Фреймворки RL и их проблемы
В современном RL есть несколько основных фреймворков для обучения RL, каждая из которых имеет свои плюсы и минусы по сравнению с другими.
Политика RL. В RL на основе политики все опыты, используемые для обучения, собираются путем развертывания текущей политики несколько раз. Используя этот параметр, мы можем гарантировать, что все собранные данные являются хорошими данными, а это означает, что поведение пользователей должно улучшаться вместе с политикой. Однако сбор данных является узким местом производительности в RL на основе политик. Все данные необходимо повторно собирать на каждой итерации обучения, и их нельзя повторно использовать для обучения обновленной политике, из-за чего RL на основе политики часто страдает от нехватки данных или длительного времени обучения.
Вне политики RL. С другой стороны, внеполитическое RL представляет собой компромисс между эффективностью данных и качеством данных. Буфер (часто называемый буфером воспроизведения) вводится в RL вне политики, в котором хранятся опыты, собранные на текущей и предыдущей итерациях. Обычно каждую игру можно повторить несколько раз, и она будет удалена после превышения лимита.
Офлайн RL. Автономное RL использует полностью управляемый данными подход для обучения агентов. То есть процесс сбора данных и обучение агентов полностью разделены. Данные об опыте собираются из другой существующей политики. Например, другие модели RL, эвристические методы или чисто человеческое поколение.
Возможен ли RL, управляемый данными?
Использование автономной среды RL для обучения агентов указывает на то, что между политикой обучения и политикой сбора может быть огромный разрыв. Это несоответствие определенно повлияет на производительность, но все же есть некоторые заслуживающие внимания перспективы, которые могут поддержать осуществимость автономного RL.
- Хотя набор данных имеет смешанный источник из всех видов политик, мы все же можем выбрать хорошие и плохие представители и использовать их только для обучения.
- Политики обобщаемы, т. е. хороший выбор политики А обычно является хорошим выбором и для политики Б. Например, если агент находится в состоянии близко к перекрестку, то остановите машину, увидев красный свет является хорошим выбором как для политик, основанных на людях, так и для политик, основанных на моделях.
- Части хорошего поведения можно рекомбинировать. Даже для траектории, которая не может обеспечить высокую общую награду, она все же может включать в себя хорошее поведение. Увидев все больше и больше опыта, модель может найти важные общие части, которые могут обеспечить хорошее общее вознаграждение, и научится комбинировать их для достижения наилучшей политики.
Несмотря на эти моменты, в автономном RL по-прежнему остаются некоторые проблемы, включая смещение распределения, обратную связь, ошибку выборки/аппроксимации функции. Мы сосредоточимся на проблеме сдвига распределения в следующих разделах.
Представляем смену распределения
Думая о сценарии обучения с учителем, учитывая входные данные x, мы часто хотим обучить модель f, чьи выходные данные f(x) должны быть как можно ближе к истинному ярлыку y. Обычно нам удается добиться достаточно хорошего f с помощью глубокого обучения, если x и y взяты из одного и того же набора данных или, скажем, из одного и того же распределения. . Однако, если входные данные и истинная метка получены из разных наборов данных, производительность обычно считается низкой при простых настройках глубокого обучения. Эта проблема также присутствует в автономном RL. В автономном RL мы будем обучать Q-функцию с данными из политик сбора и ожидать, что она сможет предсказать фактическое значение Q политики обучения. Это нормально, если распределение изученной политики близко к распределению политики сбора. Но на практике это обычно не так, и автономный RL будет страдать от серьезного побочного эффекта смещения распределения.
Хуже того, если нам посчастливится иметь близкие распределения между обученной политикой и политикой сбора, мы все еще можем столкнуться с проблемой взрыва Q-значения. Мы можем увидеть этот эффект в следующем результате эксперимента.
Причина, по которой это происходит, так же проста, как ошибка при подгонке. Когда мы обучаем политику, мы будем обновлять сеть политик с целью максимизировать значение Q. Однако, поскольку значение Q также является оценкой из сети создания ценности, если мы выбираем политику, которая может дать максимальное ожидаемое значение Q, вполне возможно, что именно здесь сеть создания ценности имеет наибольшую ошибку в положительном направлении (см. иллюстрацию ниже). Следовательно, агенты склонны чрезмерно оптимистично относиться к своему выбору в приведенном выше эксперименте.
Решение сдвига распределения
Выборка по важности. При вычислении градиентов для обновления политики мы можем добавить коэффициент дисконтирования к каждой траектории. Коэффициент дисконтирования обычно представляет собой траекторию возможности обученной политики, разделенную на траекторию политики сбора. Таким образом, если траектория редко встречается в обученной политике, но популярна в политике сбора, она будет иметь ограниченную способность влиять на окончательный градиент.
Ограничение политики. Ограничение доступных политик для обучения. Ограничения распределения используют KL-дивергенцию или f-дивергенцию для оценки расстояния между распределением обучения и политикой сбора и выбирают только те, распределение которых близко к политике сбора. Поддержка ограничений, с другой стороны, выбирайте только те политики, которые соответствуют поддержке политики сбора.
Следующий результат эксперимента показывает силу ограничений политики. По сравнению с наивным RL вне политики и простым поведенческим клонированием автономный RL с ограничениями политики имеет выдающуюся производительность.
Заключение
Автономное RL, полностью управляемая данными среда RL, может преодолеть разрыв между стандартным контролируемым обучением и обучением с подкреплением, преобразовывая наборы данных в эффективные механизмы принятия решений и используя все возможные ресурсы вместо того, чтобы создавать их самостоятельно.