- Глубокое обучение с подкреплением с использованием низкоразмерного фильтра наблюдения для визуальной сложной видеоигры (arXiv)
Автор: Виктор Аугусто Кич, Хуниор Коста де Хесус, Рикардо Бедин Грандо, Алиссон Энрике Коллинг, Габриэль Винисиус Хейслер, Родриго да Силва Герра
Аннотация : Глубокое обучение с подкреплением (DRL) принесло большие достижения с тех пор, как было предложено, включая возможность обработки необработанных входных данных зрения. Однако обучение агента выполнению задач на основе обратной связи с изображением остается проблемой. Это требует обработки больших объемов данных из многомерных пространств наблюдения кадр за кадром, а действия агента вычисляются в соответствии с политиками глубокой нейронной сети, от начала до конца. Предварительная обработка изображений — эффективный способ уменьшить эти многомерные пространства, устранить ненужную информацию, присутствующую в сцене, поддерживая извлечение признаков и их представление в нейронной сети агента. Современные видеоигры являются примерами такой проблемы для алгоритмов DRL из-за их визуальной сложности. В этой статье мы предлагаем низкоразмерный фильтр наблюдения, который позволяет агенту глубокой Q-сети успешно играть в визуально сложной и современной видеоигре под названием Neon Drive.
2. Отчеты о наградах за обучение с подкреплением (arXiv)
Автор: Томас Крендл Гилберт, Сара Дин, Натан Ламберт, Том Зик, Аарон Сносуэлл.
Вывод:стремление создавать хорошие системы перед лицом сложных социальных последствий требует динамического подхода к справедливости и доступу. Недавние подходы к документации машинного обучения (ML) продемонстрировали многообещающие дискурсивные рамки для обсуждения этих сложностей. Однако эти разработки были основаны на статической парадигме машинного обучения, оставляя без внимания роль обратной связи и производительности после развертывания. Между тем недавняя работа в области дизайна обучения с подкреплением показала, что влияние целей оптимизации на результирующее поведение системы может быть широким и непредсказуемым. В этой статье мы набросаем структуру для документирования развернутых систем обучения, которую мы называем отчетами о вознаграждениях. Черпая вдохновение из различных материалов, опубликованных в технической литературе по обучению с подкреплением, мы описываем отчеты о вознаграждениях как живые документы, в которых отслеживаются обновления вариантов дизайна и предположений, лежащих в основе того, для чего оптимизируется конкретная автоматизированная система. Они предназначены для отслеживания динамических явлений, возникающих при развертывании системы, а не просто статических свойств моделей или данных. После представления элементов отчета о вознаграждениях мы приводим три примера: MuZero DeepMind, MovieLens и гипотетическое развертывание политики управления трафиком Project Flow.
3. Образцово-эффективное обучение с подкреплением для POMDP с аппроксимацией линейной функции (arXiv)
Автор:Цай Цай, Чжуоран Ян, Чжаоран Ван
Аннотация: несмотря на успех обучения с подкреплением (RL) для марковских процессов принятия решений (MDP) с аппроксимацией функций, большинство алгоритмов RL легко терпят неудачу, если агент имеет только частичные наблюдения за состоянием. Такая настройка часто моделируется как частично наблюдаемый марковский процесс принятия решений (POMDP). Существующие эффективные по выборке алгоритмы для POMDP ограничены табличными настройками, в которых пространства состояний и наблюдений конечны. В этой статье мы делаем первую попытку разрешить противоречие между аппроксимацией функций и частичной наблюдаемостью. В частности, мы сосредоточимся на классе недополных POMDP с приближениями линейной функции, что позволяет пространствам состояний и наблюдений быть бесконечными. Для таких POMDP мы показываем, что оптимальная политика и функция ценности могут быть охарактеризованы последовательностью операторов Беллмана с конечной памятью. Мы предлагаем алгоритм RL, который строит оптимистические оценки этих операторов посредством встраивания в гильбертово пространство воспроизводящего ядра (RKHS). Более того, мы теоретически доказываем, что предложенный алгоритм находит ε-оптимальную политику с O~(1/ε2) эпизодами исследования. Кроме того, эта сложность выборки полиномиально зависит только от внутренней размерности POMDP и не зависит от размера пространств состояний и наблюдений. Насколько нам известно, мы разрабатываем первый доказуемо эффективный алгоритм для POMDP с аппроксимацией функции
4. Приложение xApp Smart Interference Management с использованием глубокого обучения с подкреплением (arXiv)
Автор: Махди Эскандари, Шипра Капур, Кит Бриггс, Арман Шоджайфард, Хуилин Чжу, Ален Мурад.
Вывод:помехи продолжают оставаться ключевым ограничивающим фактором при развертывании сетей сотовой радиосвязи (RAN). Эффективные, управляемые данными, самоадаптирующиеся решения по управлению радиоресурсами (RRM) необходимы для борьбы с помехами и, таким образом, для достижения желаемых уровней производительности, особенно на границе соты. В будущей сетевой архитектуре интеллектуальный контроллер RAN (RIC), работающий с приложениями почти в реальном времени, называемыми xApps, рассматривается как потенциальный компонент для включения RRM. В этой статье, основанной на глубоком обучении с подкреплением (RL) xApp, предлагается совместное маскирование поддиапазона и управление мощностью для интеллектуального управления помехами. Проблема маскирования ресурсов поддиапазона формулируется как марковский процесс принятия решений (MDP), который может быть решен с использованием глубокого RL для аппроксимации функций политики, а также для того, чтобы избежать чрезвычайно высоких затрат на вычисления и хранение, характерных для традиционных подходов, основанных на таблицах. Разработанное приложение xApp масштабируется как с точки зрения хранения, так и с точки зрения вычислений. Результаты моделирования демонстрируют преимущества предложенного подхода по сравнению с децентрализованными базовыми вариантами с точки зрения компромисса между частотами пользователей в центре соты и на границе соты, энергоэффективностью и вычислительной эффективностью.
5.Восприятие мира: обучение с подкреплением на основе вопросов для текстовых игр (arXiv)
Автор:Юньцю Сюй, Мэн Фан, Лин Чен, Яли Ду, Джои Тяньи Чжоу, Чэнци Чжан
Аннотация . Текстовые игры предоставляют интерактивный способ изучения обработки естественного языка. В то время как глубокое обучение с подкреплением показало эффективность в разработке игрового агента, низкая эффективность выборки и большое пространство для действий остаются двумя основными проблемами, которые мешают применению DRL в реальном мире. В этой статье мы решаем проблемы, вводя модули восприятия мира, которые автоматически разлагают задачи и сокращают действия, отвечая на вопросы об окружающей среде. Затем мы предлагаем двухэтапную структуру обучения, чтобы отделить изучение языка от обучения с подкреплением, что еще больше повышает эффективность выборки. Результаты экспериментов показывают, что предложенный метод значительно повышает производительность и эффективность образцов. Кроме того, он демонстрирует устойчивость к составным ошибкам и ограниченным данным перед обучением.