- Обучение и извлечение из предыдущих данных для имитационного обучения на основе навыков(arXiv)
Автор: Соруш Насириани, Тянь Гао, Аджай Мандлекар, Юкэ Чжу
Аннотация. Имитационное обучение предлагает многообещающий путь для обучения роботов общецелевому поведению, но традиционно демонстрировал ограниченную масштабируемость из-за высоких требований к контролю данных и неустойчивого обобщения. Вдохновленные недавними достижениями в многозадачном имитационном обучении, мы исследуем использование предварительных данных из предыдущих задач, чтобы упростить изучение новых задач надежным и эффективным способом. Чтобы эффективно использовать предыдущие данные, робот должен усвоить знания из прошлого опыта и контекстуализировать эти знания в новых задачах. С этой целью мы разрабатываем структуру имитационного обучения на основе навыков, которая извлекает расширенные во времени сенсомоторные навыки из предыдущих данных и впоследствии изучает политику для целевой задачи, которая вызывает эти изученные навыки. Мы определяем несколько ключевых вариантов дизайна, которые значительно улучшают производительность при выполнении новых задач, а именно цели обучения представлению, чтобы обеспечить более предсказуемое представление навыков, и механизм увеличения данных на основе поиска для увеличения объема надзора за обучением политике. На наборе смоделированных и реальных областей манипулирования мы демонстрируем, что наш метод значительно превосходит существующие подходы к имитационному обучению и автономному обучению с подкреплением. Видео и код доступны по адресу https://ut-austin-rpl.github.io/sailor.
2.VIOLA: имитационное обучение для манипуляций на основе видения с априорными предложениями объектов(arXiv)
Автор:Ифэн Чжу, Абхишек Джоши, Питер Стоун, Юкэ Чжу
Аннотация: мы представляем VIOLA, объектно-ориентированный подход к имитационному обучению для изучения зрительно-моторных политик с обратной связью для манипулирования роботами. Наш подход строит объектно-ориентированные представления на основе общих предложений объектов из предварительно обученной модели зрения. VIOLA использует политику на основе преобразователя, чтобы анализировать эти представления и обращать внимание на визуальные факторы, относящиеся к задаче, для прогнозирования действий. Такие объектно-ориентированные структурные априорные модели повышают устойчивость алгоритма глубокого имитационного обучения к вариациям объектов и возмущениям окружающей среды. Мы количественно оцениваем VIOLA в моделировании и на реальных роботах. VIOLA превосходит современные методы имитационного обучения на 45,8% по показателю успешности. Он также был успешно развернут на физическом роботе для решения сложных долгосрочных задач, таких как расстановка обеденных столов и приготовление кофе. Больше видео и подробности о модели можно найти в дополнительных материалах и на сайте проекта: https://ut-austin-rpl.github.io/VIOLA
3. Планирование эффективного имитационного обучения(arXiv)
Автор:Чжао-Хэн Инь, Вэйжуй Е, Цифэн Чен, Ян Гао
Аннотация: имитационное обучение — это класс многообещающих алгоритмов обучения политике, который свободен от многих практических проблем, связанных с обучением с подкреплением, таких как проблема дизайна вознаграждения и сложность исследования. Однако текущий алгоритм имитации изо всех сил пытается одновременно достичь как высокой производительности, так и высокой эффективности выборки в окружающей среде. Поведенческое клонирование (BC) не нуждается во взаимодействии с окружающей средой, но страдает от проблемы ковариантного сдвига, которая вредит его производительности. Состязательное имитационное обучение (AIL) превращает имитационное обучение в проблему сопоставления распределения. Он может повысить производительность в некоторых задачах, но требует большого количества взаимодействий в среде. Вдохновленные недавним успехом EfficientZero в RL, мы предлагаем EfficientImitate (EI), основанный на планировании метод имитационного обучения, который может одновременно обеспечить высокую эффективность и производительность выборки в окружающей среде. Наш алгоритмический вклад в эту статью двоякий. Во-первых, мы расширяем AIL до RL на основе MCTS. Во-вторых, мы показываем, что два, казалось бы, несовместимых класса алгоритмов имитации (BC и AIL) могут быть естественным образом объединены в нашей структуре, используя преимущества обоих. Мы тестируем наш метод не только на пакете управления DeepMind Control Suite, основанном на состоянии, но и на версии изображения, которую многие предыдущие работы считают очень сложной. Экспериментальные результаты показывают, что EI достигает самых современных результатов в производительности и эффективности образцов. EI показывает более чем 4-кратный прирост производительности в условиях ограниченной выборки для задач, основанных на состояниях и изображениях, и может решать сложные проблемы, такие как Humanoid, где предыдущие методы терпят неудачу с небольшим количеством взаимодействий. Наш код доступен по адресу https://github.com/zhaohengyin/EfficientImitate.