- Ограниченное дифференциальное динамическое программирование: первично-дуальный расширенный лагранжев подход(arXiv)
Автор: Уилсон Джалле, Антуан Бамбад, Николя Мансар, Джастин Карпентье
Аннотация: Оптимизация траектории — это эффективный подход к решению задач оптимального управления сложными робототехническими системами. Он опирается на два ключевых компонента: во-первых, преобразование в разреженную нелинейную программу, а во-вторых, соответствующий решатель для итеративного вычисления своего решения. С одной стороны, дифференциальное динамическое программирование (DDP) обеспечивает эффективный подход к преобразованию задачи оптимального управления в конечномерную задачу при оптимальном использовании разреженности, вызванной временем. С другой стороны, расширенные лагранжевы методы позволяют формулировать эффективные алгоритмы с расширенными стратегиями удовлетворения ограничений. В этой статье мы предлагаем объединить эти два подхода в эффективный алгоритм оптимального управления, допускающий как ограничения равенства, так и ограничения неравенства. Основываясь на дополненной лагранжевой литературе, мы сначала выводим общую первично-двойственную расширенную лагранжеву стратегию для нелинейных задач с ограничениями равенства и неравенства. Затем мы применяем его к принципу динамического программирования для решения проблем оптимизации с жадностью к значениям, присущих обратному проходу DDP, которые мы объединяем со специальной стратегией глобализации, в результате чего получается алгоритм, подобный Ньютону, для решения задач оптимизации с ограниченной траекторией. В отличие от предыдущих попыток сформулировать расширенную лагранжеву версию DDP, наш подход демонстрирует адекватные свойства сходимости без какого-либо переключения стратегий. Мы эмпирически демонстрируем его интерес с помощью нескольких тематических исследований из литературы по робототехнике. △
2. B3RTDP: ветвь убеждений и связанный подход к динамическому программированию в реальном времени для решения POMDP(arXiv)
Автор:Сигурдур Орн Адальгейрссон, Синтия Бризил
Аннотация: Частично наблюдаемые марковские процессы принятия решений (POMDP) предлагают многообещающее представление мира для автономных агентов, поскольку они могут моделировать как переходные, так и неопределенности восприятия. Вычисление оптимального решения задач POMDP может быть дорогостоящим в вычислительном отношении, поскольку требует рассуждений о (возможно, бесконечном) пространстве убеждений. Для преодоления этой трудности было предложено несколько подходов, таких как дискретизация пространства убеждений, точечная выборка убеждений и поиск по дереву Монте-Карло. Подход динамического программирования в реальном времени алгоритма RTDP-Bel аппроксимирует функцию ценности, сохраняя ее в хэш-таблице с дискретизированными ключами доверия. Мы предлагаем расширение алгоритма RTDP-Bel, которое мы называем ветвью убеждений и связанным RTDP (B3RTDP). Наш алгоритм использует представление функции с ограниченным значением и использует это преимущество двумя новыми способами: метод ограничения поиска, основанный на вероятностях сходимости выбора действия, и метод использования сходимости раннего действия, называемый \textit{Граница сходимости}. Наконец, мы эмпирически демонстрируем, что B3RTDP может достичь большей отдачи за меньшее время, чем современный решатель SARSOP для известных проблем POMDP. △
3.Принцип динамического программирования для стохастической задачи оптимального управления при вырожденном G-ожидании(arXiv)
Автор:Сяоцзюань Ли
Аннотация: В этой статье мы изучаем стохастическую задачу оптимального управления при вырожденном G-ожидании. Используя метод неявного разбиения, мы показываем, что результат аппроксимации для допустимых управлений остается в силе. На основе этого результата мы доказываем детерминированность функции цены и получаем принцип динамического программирования. Кроме того, мы доказываем, что функция ценности является единственным решением вязкости для связанного уравнения HJB в вырожденном случае. △