1. Оптимизация проксимальной политики для интегрированного зондирования и связи в системах миллиметрового диапазона (arXiv)

Автор: Кристиан Х. Вака-Рубио, Карлес Наварро Манчон, Рамони Адеогун, Петар Поповски.

Аннотация :: В системах беспроводной связи отслеживание луча mmWave является критической задачей, которая влияет как на восприятие, так и на связь, поскольку она связана со знанием беспроводного канала. Мы рассматриваем настройку, в которой базовой станции (BS) необходимо динамически выбирать, будет ли ресурс выделен для одной из трех операций: обнаружение (отслеживание луча), передача по нисходящему или восходящему каналу. Мы разрабатываем подход, основанный на алгоритме оптимизации проксимальной политики (PPO) для выбора распределения ресурсов и отслеживания лучей в заданном временном интервале. Предлагаемая структура учитывает изменчивое качество беспроводного канала и скоординировано оптимизирует решения. Результаты моделирования показывают, что предлагаемый метод обеспечивает значительное улучшение производительности с точки зрения среднего коэффициента ошибок по пакетам (PER) по сравнению с базовыми методами, обеспечивая при этом значительное снижение затрат на отслеживание луча. Мы также показываем, что предлагаемая нами структура на основе PPO обеспечивает эффективное решение проблемы распределения ресурсов при отслеживании лучей и связи, демонстрируя высокую производительность обобщения независимо от стохастического поведения системы.

2.Глубокое Q-обучение по сравнению с проксимальной оптимизацией политик: сравнение производительности в задаче сортировки материалов (arXiv)

Автор: Реуф Козлица, Стефан Вегенкиттль, Саймон Хирлендер.

Аннотация: В этой статье представлено сравнение между двумя известными алгоритмами глубокого обучения с подкреплением (RL): Deep Q-Learning (DQN) и Proximal Policy Optimization (PPO) в моделируемой производственной системе. Мы используем среду моделирования на основе сети Петри (PN), которая ранее была предложена в соответствующей работе. Производительность двух алгоритмов сравнивается на основе нескольких показателей оценки, включая средний процент правильно собранных и отсортированных продуктов, среднюю продолжительность эпизода и процент успешных эпизодов. Результаты показывают, что PPO превосходит DQN по всем показателям оценки. В исследовании подчеркиваются преимущества алгоритмов, основанных на политике, в задачах с многомерными пространствами состояний и действий. Исследование вносит свой вклад в область глубокого RL в контексте производственных систем, предоставляя информацию об эффективности различных алгоритмов и их пригодности для различных задач.