Ловушки и обходные пути при попытке использовать многоэтапное Q-обучение с HER

Введение

Глубокое обучение с подкреплением (Deep RL) набирает популярность на протяжении многих лет. Имея несколько знаменательных успехов [6], легко думать, что мы можем просто создать экземпляр современного современного алгоритма, применить его к проблеме, и он просто сработает часто этого не происходит.

Андрыхович и др. Исследовали один такой класс случаев неудач в 2017 году в своей основополагающей работе над алгоритмом Hindsight Experience Replay (HER) [1]: они исследовали класс проблем, при которых агенту необходимо достичь цели и получить только награда за успех.

В этой статье обсуждается, почему этот класс проблем особенно сложен, как работает алгоритм HER, как он облегчает некоторые аспекты проблемы, некоторые аспекты проблемы, которые он не решает, и как мы можем пойти дальше, чтобы улучшить их производительность.

Краткий обзор обучения с подкреплением

В обучении с подкреплением (RL) агент взаимодействует со своей средой. На каждом временном шаге:

  • Агент выполняет действия (a), которые изменяют состояние (s) среды в соответствии с некоторой функцией перехода p (s '| s, a). Думайте об этом как о мировых законах физики или правилах игры.
  • Затем агент получает сигнал обратной связи: вознаграждение r (s, a)

Действия выполняются в соответствии с политикой π: s → A

Сигнал вознаграждения - это то, как мы определяем цель: агент должен действовать так, чтобы максимизировать долгосрочное общее вознаграждение.

Это означает, что он должен распознавать закономерности в том, какие решения он принимал, приводя к полученному вознаграждению, и настраивать свой процесс принятия решений, чтобы соответствующим образом максимизировать это.

Среда, обусловленная целями

Это класс проблем, на котором мы сосредоточены. Среды, обусловленные целями, - это среды RL с целевым состоянием, которого должен достичь агент. Агенту сообщается, что такое желаемая цель (как часть его вектора наблюдения) и каково его текущее состояние по отношению к цели; его достигнутая цель.

Например, что, если агенту нужно найти место для парковки? Здесь желаемая цель - это положение парковочного места. Достигнутая цель - это текущая должность агента. Оба даны в векторе наблюдения (вместе с другой информацией, где это необходимо, например, скоростью и т. Д.).

Задача задачи - достичь целевого состояния. Таким образом, функция вознаграждения (которая определяет эту цель) может быть чем-то простым и разреженным, например, +1 для достижения цели и 0 везде. .

Это особенно сложно, потому что сигналов вознаграждения (которые определяют цель) немного, поэтому случайное исследование (на которое полагается большинство современных базовых показателей) часто не дает достаточно сигналов вознаграждения, чтобы агент мог успешно учиться. от.

Поскольку награда в этом классе задач скудна и труднодостижима, Andrychowicz et al [1] обнаружили, что современные алгоритмы глубокого RL изо всех сил пытались их решить, потому что они полагались на случайное исследование, чтобы наткнуться на цель устанавливается случайно, прежде чем они смогут начать обучение, что часто приводит к тому, что их воспоминания наполняются множеством примеров без какого-либо сигнала вознаграждения вообще,

Воспроизведение ретроспективного опыта

HER [1] - очень простой и элегантный алгоритм увеличения данных:

  1. Агент пытается достичь состояния желаемой цели.
  2. Он может выйти из строя и вместо этого перейти в другое состояние
  3. HER создает фальшивый опыт, который притворяется, что достигнутое состояние было тем, чего он пытался достичь все время.

Это хорошо, потому что за каждый эпизод теперь будет награда. Он генерирует полезную информацию о том, как управлять вещами в окружающей среде для достижения цели, которой в противном случае у нас не было бы.

ЕЕ - это способ избавиться от надежды на достижение цели. Это значительно увеличивает вероятность успеха.

Ниже приведены некоторые фрагменты результатов из их публикации:

Это решает проблему труднодоступности награды, но агент по-прежнему получает награду только тогда, когда достигает цели, и должен распространять эту единственную награду на всем пути от конца эпизода. каждому другому государству, прежде чем сообщать о своих решениях.

В оставшейся части статьи обсуждается, почему это такая проблема для данного контекста, в частности, как HER усугубляет проблему и как мы можем ее решить.

Класс алгоритмов RL, используемых с HER

Помните, что HER - это метод увеличения данных, который следует использовать вместе с алгоритмом RL. Во-первых, давайте рассмотрим класс алгоритмов, с которыми HER совместим, чтобы увидеть специфику проблемы.

Поскольку HER изменяет то, какие входные данные для политики хранятся в памяти, это означает, что действия, которые мы получаем для этих , не исходили из нашей политики (поскольку она полностью предсказывала другую траекторию, если бы мы ставили ее в зависимость от разных целей).

Это означает, что мы не можем использовать методы on-policy (A2C, PPO…), которые основываются на предположении, что политика исследования эквивалентна политике, которую они оптимизируют.

Мы должны использовать внеполитические методы; они работают независимо от того, с помощью какой политики генерируются данные (ну, кроме случаев, когда они этого не делают, но это выходит за рамки настоящего статья [4]…).

Самым современным здесь является семейство глубокого обучения Q (DQN, DDPG…)

Это семейство алгоритмов, как известно, медленно распространяет информацию с течением времени. Давайте выясним, почему.

Обучение Deep Q и распространение информации с течением времени

Q Обучение сосредоточено вокруг отдачи или текущего счета (суммы вознаграждений, которые агент получит с этого момента):

Мы хотим оценить ожидаемое значение этого для всех состояний и действий в рамках нашей текущей политики, а затем использовать это, чтобы улучшить нашу текущую политику, изменив ее, чтобы выбрать, какие действия имеют наибольшую ожидаемую отдачу для следующего состояния.

Идея состоит в том, чтобы, последовательно улучшая его, наша политика приблизится к оптимальной.

Это правило обновления, которое мы используем для обновления функции Q:

Он накапливает единственное вознаграждение, а затем использует свою оценку значения Q следующего состояния для начальной загрузки оценки текущего. Это наиболее важный момент, на котором нам нужно сосредоточиться: Q Learning включает только единственный временной шаг достоверной информации о вознаграждении за раз.

Это контрастирует с политическими методами, которые могут включать несколько этапов получения достоверной информации о вознаграждении за раз. Они могут сделать это, потому что они полагаются на предположение, что политика, которая собирает данные, такая же, как та, над которой они в настоящее время работают.

Другими словами, они могут полагаться на тот факт, что их текущая политика будет действовать таким же образом и получать такую ​​же ожидаемую отдачу, как и то, что им подсказывает опыт. Не связанные с политикой методы не могут основываться на этом предположении, потому что по определению данные могли быть собраны в соответствии с другой политикой.

Саттон и Барто показывают способы достижения компромисса между ними в своей формулировке многоэтапной отдачи для Q-обучения [2]: они просто берут дисконтированную сумму доходов за n-шаговое временное окно, а затем используют ее в обновлении итерации значения как так:

Это вводит предвзятость Q-Learning в отношении политики: он неявно предполагает, что изученная политика получит такую ​​же ожидаемую отдачу по сравнению с n- шаги, как это было сделано в соответствии с политикой сбора.

На практике это работает до тех пор, пока политика сбора данных и изученная политика действительно получают одинаковые результаты в течение временного окна (n), поэтому окно остается небольшим [7,8,9]. Чем больше различие в ожидаемых доходах за окно, тем более нестабильными становятся многоступенчатые доходности.

HER усугубляет проблему несходства в случае онлайн-обучения, задним числом изменяя записанные входные данные, с которыми мы будем тренироваться. Это делает многоступенчатый возврат более нестабильным.

Обходной путь

Вместо того чтобы использовать метод Саттона и Барто для объединения многоступенчатых возвратов в обновление итерации значения, мы используем метод Хе и др. [3], образуя его вместо нижней границы.

По определению: значение Q оптимальной политики ≥ значения Q политики сбора данных.

Это означает, что ожидаемый выборочный n-шаговый возврат от текущего временного шага до конца эпизода может использоваться в качестве нижней границы для прогноза Q-значения. текущего временного шага.

Такое использование многоэтапных возвратов полностью вне политики, поскольку граница сохраняется независимо от политики сбора.

Поскольку мы не ограничиваем его небольшим количеством шагов, он работает даже быстрее, чем стандартный способ [2].

Обратной стороной этого является то, что он запускает это быстрое распространение информации только тогда, когда нарушается ограничение нижней границы: то есть, когда недооценивается значение Q состояния. Как хорошо известно, Deep Q Learning имеет врожденную систематическую ошибку завышенной оценки, поэтому необходимо предпринять шаги для решения этой проблемы, чтобы получить полную полезность, например: Double Q Learning [9].

Без предвзятого отношения к политике это прекрасно работает с HER.

Тестирование

Чтобы проверить это, мы используем более сложный вариант среды BitFlip, использованный Andrychowicz et al [1] в их оригинальной работе над HER. Агенту дается бинарный вектор для копирования. Он должен выбрать бит, чтобы перевернуть вектор до того, как истечет время. Он получает вознаграждение в размере -1 за каждый потраченный временной шаг и вознаграждение в размере 0 в случае успеха. Самое замечательное в среде - это то, что мы можем сделать ее сколь угодно сложной, увеличив длину вектора.

Существует порог, выше которого базовые агенты просто не могут его решить.

Чтобы продемонстрировать случай, когда базовый агент все еще может решить проблему за разумное время на моем ноутбуке, мы используем 10-битный вектор.

  • Темно-синий = базовый уровень (дискретный SAC)
  • Голубой = HER + базовый уровень
  • Серый = многоступенчатый возврат в нижнюю границу + HER + базовый уровень.

Как и ожидалось, то же самое с обычным n-шаговым возвратом часто приводило к нестабильности во время тренировки.

Код доступен на G ithub.

Использованная литература:

[1] Марцин Андрыхович, Филип Вольски, Алекс Рэй, Йонас Шнайдер, Рэйчел Фонг, Питер Велиндер, Боб МакГрю, Джош Тобин, Питер Аббил, Войцех Заремба, Hindsight Experience Replay (2018), препринт Arxiv

[2] Саттон и Барто, Обучение с подкреплением: Введение, (2017), Второе издание, Глава 7: n-этапная начальная загрузка.

[3] Фрэнк С. Хе, Ян Лю, Александр Г. Швинг, Цзян Пэн, Обучение игре за день: более быстрое глубокое обучение с подкреплением за счет сужения оптимальности (2016 г.), препринт Arxiv.

[4] Скотт Фуджимото, Эдоардо Конти, Мохаммад Гавамзаде, Джоэл Пино, Бенчмаркинг алгоритмов пакетного обучения с глубоким подкреплением », (2019) Arxiv Preprint

[5] Маттиас Плапперт, Марцин Андрыхович, Алекс Рэй, Боб МакГрю, Боуэн Бейкер, Гленн Пауэлл, Йонас Шнайдер, Джош Тобин, Мацек Чоцей, Питер Велиндер, Викаш Кумар, Войцех Заремба, Ингредиенты для исследований робототехники (2017) , Блог OpenAI

[6] Кай Арулкумаран, Марк Питер Дайзенрот, Майлз Брандейдж, Анил Энтони Бхарат, Краткий обзор глубокого обучения с подкреплением »(2017) Препринт архива.

[7] Кристофер Де Асис, Дж. Фернандо Эрнандес-Гарсия, Дж. Захариас Холланд, Ричард С. Саттон, Многоступенчатое обучение с подкреплением: объединяющий алгоритм (2018), препринт Arxiv

[8] Хадо ван Хасселт, Артур Гез, Дэвид Сильвер, Глубокое обучение с подкреплением с двойным Q-обучением (2015), препринт Arxiv