1. О гарантиях минимизации сожалений в «Отступающем горизонте» (arXiv)

Автор: Андреа Мартин, Лука Фурьери, Флориан Дёрфлер, Джон Лигерос, Джанкарло Феррари-Трекате.

Аннотация: Для объединения классического оптимального управления и онлайн-обучения минимизация сожалений недавно была предложена в качестве критерия проектирования управления. Эта конкурентная парадигма наказывает потери по сравнению с оптимальными управляющими действиями, выбранными политикой ясновидения, и позволяет отслеживать оптимальные характеристики задним числом, независимо от того, как генерируются помехи. В этой статье мы предлагаем первую схему с отступающим горизонтом, основанную на повторном вычислении политик, оптимальных с точки зрения сожаления, на конечном горизонте, и мы устанавливаем гарантии стабильности и безопасности для получившейся замкнутой системы. Наши выводы сочетают в себе новые монотонные свойства политики ясновидения с подходящими конечными ингредиентами. Мы доказываем, что наша схема рекурсивно осуществима, стабилизируется и что она обеспечивает ограниченное сожаление по сравнению с политикой ясновидения бесконечного горизонта. Наконец, мы показываем, что проблема оптимизации политики может быть эффективно решена с помощью выпукло-вогнутого программирования. Наши численные эксперименты показывают, что минимизация сожаления может превзойти стандартные подходы с отступающим горизонтом, когда возмущения плохо соответствуют классическим допущениям проектирования — даже когда планирование с конечным горизонтом пересчитывается реже.

2. Выпуклый релаксационный подход к минимизации байесовских сожалений в офлайн-бандитах (arXiv)

Автор: Мохаммад Гавамзаде, Марек Петрик, Гай Тенненгольц.

Аннотация: Алгоритмы для офлайн-бандитов должны оптимизировать решения в неопределенных условиях, используя только офлайн-данные. Неотразимая и все более популярная цель среди офлайновых бандитов состоит в том, чтобы изучить политику, которая обеспечивает низкое байесовское сожаление с высокой степенью достоверности. Привлекательный подход к этой проблеме, вдохновленный недавними результатами автономного обучения с подкреплением, заключается в максимизации формы нижней доверительной границы (LCB). В этой статье предлагается новый подход, который непосредственно минимизирует верхние границы байесовского сожаления, используя эффективные решатели конической оптимизации. Наши границы основаны на связях между байесовским сожалением, стоимостью под риском (VaR) и оптимизацией с ограничением шансов. По сравнению с предыдущей работой, наш алгоритм обеспечивает более высокие теоретические пределы сожаления в автономном режиме и лучшие результаты в численном моделировании. Наконец, мы приводим некоторые доказательства того, что популярные алгоритмы в стиле LCB могут быть непригодны для минимизации байесовского сожаления у оффлайновых бандитов.