Как развивается область имитационного обучения, часть 1 (искусственный интеллект)

Обучение и извлечение из предыдущих данных для имитационного обучения на основе навыков(arXiv)

Автор: Соруш Насириани, Тянь Гао, Аджай Мандлекар, Юкэ Чжу

Аннотация. Имитационное обучение предлагает многообещающий путь для обучения роботов общецелевому поведению, но традиционно демонстрировал ограниченную масштабируемость из-за высоких требований к контролю данных и неустойчивого обобщения. Вдохновленные недавними достижениями в многозадачном имитационном обучении, мы исследуем использование предварительных данных из предыдущих задач, чтобы упростить изучение новых задач надежным и эффективным способом. Чтобы эффективно использовать предыдущие данные, робот должен усвоить знания из прошлого опыта и контекстуализировать эти знания в новых задачах. С этой целью мы разрабатываем структуру имитационного обучения на основе навыков, которая извлекает расширенные во времени сенсомоторные навыки из предыдущих данных и впоследствии изучает политику для целевой задачи, которая вызывает эти изученные навыки. Мы определяем несколько ключевых вариантов дизайна, которые значительно улучшают производительность при выполнении новых задач, а именно цели обучения представлению, чтобы обеспечить более предсказуемое представление навыков, и механизм увеличения данных на основе поиска для увеличения объема надзора за обучением политике. На наборе смоделированных и реальных областей манипулирования мы демонстрируем, что наш метод значительно превосходит существующие подходы к имитационному обучению и автономному обучению с подкреплением. Видео и код доступны по адресу https://ut-austin-rpl.github.io/sailor.

2.VIOLA: имитационное обучение для манипуляций на основе видения с априорными предложениями объектов(arXiv)

Автор:Ифэн Чжу, Абхишек Джоши, Питер Стоун, Юкэ Чжу

Аннотация: мы представляем VIOLA, объектно-ориентированный подход к имитационному обучению для изучения зрительно-моторных политик с обратной связью для манипулирования роботами. Наш подход строит объектно-ориентированные представления на основе общих предложений объектов из предварительно обученной модели зрения. VIOLA использует политику на основе преобразователя, чтобы анализировать эти представления и обращать внимание на визуальные факторы, относящиеся к задаче, для прогнозирования действий. Такие объектно-ориентированные структурные априорные модели повышают устойчивость алгоритма глубокого имитационного обучения к вариациям объектов и возмущениям окружающей среды. Мы количественно оцениваем VIOLA в моделировании и на реальных роботах. VIOLA превосходит современные методы имитационного обучения на 45,8% по показателю успешности. Он также был успешно развернут на физическом роботе для решения сложных долгосрочных задач, таких как расстановка обеденных столов и приготовление кофе. Больше видео и подробности о модели можно найти в дополнительных материалах и на сайте проекта: https://ut-austin-rpl.github.io/VIOLA

3. Планирование эффективного имитационного обучения(arXiv)

Автор:Чжао-Хэн Инь, Вэйжуй Е, Цифэн Чен, Ян Гао

Аннотация: имитационное обучение — это класс многообещающих алгоритмов обучения политике, который свободен от многих практических проблем, связанных с обучением с подкреплением, таких как проблема дизайна вознаграждения и сложность исследования. Однако текущий алгоритм имитации изо всех сил пытается одновременно достичь как высокой производительности, так и высокой эффективности выборки в окружающей среде. Поведенческое клонирование (BC) не нуждается во взаимодействии с окружающей средой, но страдает от проблемы ковариантного сдвига, которая вредит его производительности. Состязательное имитационное обучение (AIL) превращает имитационное обучение в проблему сопоставления распределения. Он может повысить производительность в некоторых задачах, но требует большого количества взаимодействий в среде. Вдохновленные недавним успехом EfficientZero в RL, мы предлагаем EfficientImitate (EI), основанный на планировании метод имитационного обучения, который может одновременно обеспечить высокую эффективность и производительность выборки в окружающей среде. Наш алгоритмический вклад в эту статью двоякий. Во-первых, мы расширяем AIL до RL на основе MCTS. Во-вторых, мы показываем, что два, казалось бы, несовместимых класса алгоритмов имитации (BC и AIL) могут быть естественным образом объединены в нашей структуре, используя преимущества обоих. Мы тестируем наш метод не только на пакете управления DeepMind Control Suite, основанном на состоянии, но и на версии изображения, которую многие предыдущие работы считают очень сложной. Экспериментальные результаты показывают, что EI достигает самых современных результатов в производительности и эффективности образцов. EI показывает более чем 4-кратный прирост производительности в условиях ограниченной выборки для задач, основанных на состояниях и изображениях, и может решать сложные проблемы, такие как Humanoid, где предыдущие методы терпят неудачу с небольшим количеством взаимодействий. Наш код доступен по адресу https://github.com/zhaohengyin/EfficientImitate.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning