- Самоимитация обучения с помощью планирования(arXiv)
Автор: Ша Луо, Хамидреза Касаи, Ламберт Шомакер
Выдержка . Имитационное обучение (IL) позволяет роботам быстро приобретать навыки, передавая экспертные знания, которые широко используются в обучении с подкреплением (RL) для инициализации исследования. Однако в задачах долгосрочного планирования движения сложная проблема при развертывании методов IL и RL заключается в том, как генерировать и собирать массивные, широко распределенные данные, чтобы эти методы могли эффективно обобщать. В этой работе мы решаем эту проблему, используя предложенный нами подход под названием {самоимитационное обучение путем планирования (SILP)}, где демонстрационные данные собираются автоматически путем планирования посещенных состояний из текущей политики. SILP вдохновлен наблюдением, что успешно посещенные состояния на ранней стадии обучения с подкреплением являются узлами без столкновений в планировщике движения на основе поиска по графу, поэтому мы можем планировать и перемаркировать собственные испытания робота как демонстрации для обучения политике. Благодаря этим самогенерируемым демонстрациям мы освобождаем человека-оператора от трудоемкого процесса подготовки данных, необходимого для методов IL и RL при решении сложных задач планирования движения. Результаты оценки показывают, что наш метод SILP обеспечивает более высокие показатели успеха и повышает эффективность выборки по сравнению с выбранными базовыми показателями, а политика, изученная в моделировании, хорошо работает в реальных задачах размещения с меняющимися целями и препятствиями.
2. Преимущества самоимитации(arXiv)
Автор: Йоан Ферре, Оливье Пьекен, Матье Гейст
Вывод:самоимитационное обучение — это метод обучения с подкреплением (RL), который поощряет действия, отдача от которых была выше ожидаемой, что помогает в трудных исследованиях и редких проблемах вознаграждения. Было показано, что он улучшает производительность методов критики действующих лиц в нескольких дискретных задачах управления. Тем не менее, применение самоимитации к методам RL, в основном основанным на ценности действия, не связанным с политикой, не так просто. Мы предлагаем SAIL, новое обобщение самоимитации обучения для внеполитического RL, основанное на модификации оператора оптимальности Беллмана, которую мы связываем с Advantage Learning. Важно отметить, что наш метод смягчает проблему устаревших результатов, выбирая наиболее оптимистичную оценку дохода между наблюдаемым доходом и текущим значением действия для самоимитации. Мы демонстрируем эмпирическую эффективность SAIL в Arcade Learning Environment, уделяя особое внимание сложным исследовательским играм.
3. Эпизодическое обучение самоимитации с ретроспективным взглядом(arXiv)
Автор:Тяньхун Дай, Хэнъян Лю, Анил Энтони Бхарат
Аннотация:Эпизодическое самоимитация обучения, новый алгоритм самоимитации с модулем выбора траектории и адаптивной функцией потерь, предлагается для ускорения обучения с подкреплением. По сравнению с первоначальным алгоритмом самоимитации обучения, который отбирает хорошие пары состояние-действие из буфера воспроизведения опыта, наш агент использует целые эпизоды задним числом, чтобы помочь обучению самоимитации. Введен модуль отбора для фильтрации неинформативных семплов из каждого эпизода обновления. Предлагаемый метод преодолевает ограничения стандартного алгоритма самоимитации обучения, метода, основанного на переходах, который плохо работает в условиях непрерывного контроля с редкими наградами. Эксперименты показали, что эпизодическое самоимитационное обучение работает лучше, чем базовые алгоритмы, основанные на политике, достигая производительности, сравнимой с современными алгоритмами вне политики, в нескольких смоделированных задачах управления роботом. Показано, что модуль выбора траектории препятствует тому, чтобы агент узнал о нежелательном опыте задним числом. Имея возможность решать проблемы с разреженным вознаграждением в условиях непрерывного контроля, эпизодическое самоимитационное обучение может быть применено к реальным задачам с непрерывным пространством действия, таким как управление роботом и манипулирование им.