Ссылка на статью: 1804.02477.pdf (arxiv.org)
Ключевые идеи
- В документе предлагается новая структура обучения с подкреплением, называемая программно интерпретируемым обучением с подкреплением (PIRL). Цель состоит в том, чтобы изучить политики, которые представлены на высокоуровневом, понятном человеку языке программирования, а не на непрозрачных нейронных сетях.
- PIRL позволяет указать эскиз политики, который ограничивает пространство для поиска программ. Это действует как индуктивное смещение и делает поиск более эффективным.
- В статье представлен алгоритм под названием Neurally Directed Program Search (NDPS) для решения проблемы PIRL. Сначала он обучает нейронную политику с использованием глубокого RL. Затем он выполняет локальный поиск, чтобы найти программную политику, имитирующую нейронную политику.
- NDPS оценивали при обучении вождению автомобиля на симуляторе TORCS. Он нашел компактные политики, представленные в виде комбинаций ПИД-регуляторов.
- Было показано, что изученные программные политики поддаются интерпретации, имеют более плавные траектории и лучше переносятся на новые пути по сравнению с политиками, изученными с помощью глубокого RL.
- В документе также показано, что программные политики могут быть формально проверены с использованием символических методов, в отличие от нейронных политик.
- В целом, документ демонстрирует подход к тому, чтобы сделать глубокое RL более прозрачным за счет изучения символических политик, сохраняя при этом возможности нейронных сетей для обучения. Сочетание глубокого RL и синтеза программ является новым аспектом.
ПИРЛ
Язык политики
Политики в PIRL представлены на функциональном языке с такими примитивами, как константы, арифметические операции, условные операторы, доступ к истории датчиков и т. д. Это позволяет компактно представлять расширенные политики с использованием комбинаторов более высокого порядка, таких как fold.
Эскизы
Скетчи в PIRL ограничивают пространство разрешенных программ с помощью контекстно-свободной грамматики. Они кодируют индуктивные предубеждения относительно структуры политики и отсекают незаконные/нежелательные программы, чтобы сделать поиск более эффективным.
Постановка проблемы
Формулировка задачи в PIRL такова: по данным POMDP и эскизу найти программу, соответствующую эскизу, которая максимизирует ожидаемое вознаграждение. Эта задача оптимизации с ограничениями является сложной из-за негладкого и многомерного пространства поиска.
Алгоритм NDPS
Алгоритм NDPS сначала обучает оракула нейронной политики с использованием глубокого RL. Инициализирует поиск программы с помощью этого оракула. NDPS поддерживает набор «интересных» входных данных и многократно ищет программы, имитирующие оракула на этих входных данных. Он использует такие методы, как байесовская оптимизация, для поиска параметров шаблонов программ. NDPS также периодически дополняет входные данные с помощью обновленной программы.
Эксперименты
Авторы оценили PIRL по политике обучения вождению на гоночном симуляторе TORCS. Они использовали две трассы — CG-Speedway-1 и Aalborg, причем последняя была сложнее.
Политики оценивались по двум показателям — времени круга и функции вознаграждения, основанной на скорости, угле и расстоянии от оси трассы.
Было проведено сравнение нескольких агентов обучения с подкреплением:
- Агент DRL, использующий градиенты глубокой детерминированной политики
- NDPS: Предлагаемый алгоритм
- Абляции, такие как NoAug, NoSketch, NoIF, для анализа влияния ключевых идей
На обоих треках только DRL и NDPS смогли изучить правила, которые успешно завершали круги в установленные сроки.
Изученные политики NDPS давали несколько меньшее вознаграждение, чем DRL, но успешно завершали круги. Абляции не удалось завершить круги, что свидетельствует о важности усовершенствований NDPS.
Анализ показал, что политики NDPS обеспечивают более плавное управление, чем DRL, из-за ограничений эскиза. Они также допускали больший шум в датчиках и лучше переносили новые невидимые дорожки.
С помощью символических методов авторы формально верифицировали два ключевых свойства политики TORCS — плавное управление при определенных условиях и универсальные ограничения на действия.
В классических средах управления оптимизация на основе SMT в NDPS работала лучше, чем байесовская оптимизация из-за меньшего пространства дискретных действий.
Таким образом, обширная оценка показала, что NDPS может изучать интерпретируемые и проверяемые политики, конкурирующие с DRL, а исследования абляции подтвердили ключевые идеи NDPS.