1. Вращение объекта в руке с помощью быстрой адаптации двигателя (arXiv)

Автор: Хаочжи Ци, Ашиш Кумар, Роберто Каландра, Йи Ма, Джитендра Малик

Аннотация. Обобщенные ручные манипуляции долгое время оставались нерешенной проблемой робототехники. В качестве небольшого шага к этой великой цели мы покажем, как спроектировать и изучить простой адаптивный контроллер для достижения вращения объекта в руке, используя только кончики пальцев. Контроллер полностью обучается моделированию только цилиндрических объектов, которые затем — без какой-либо тонкой настройки — могут быть напрямую развернуты в реальной руке робота для вращения десятков объектов различных размеров, форм и веса по оси Z. Это достигается за счет быстрой онлайн-адаптации контроллера робота к свойствам объекта с использованием только истории проприоцепции. Кроме того, естественные и стабильные движения пальцев автоматически возникают в результате обучения политике управления с помощью обучения с подкреплением. Код и другие видео доступны на нашем веб-сайте.

2. Изучение автономной навигации в реальном мире с помощью синтеза среды с самоконтролем (arXiv)

Автор:Цзыфан Сюй, Анируд Наир, Сюэсу Сяо, Питер Стоун

Аннотация. Подходы к машинному обучению недавно позволили мобильным роботам осуществлять автономную навигацию на основе данных. Поскольку большинство существующих навигационных систем, основанных на обучении, обучаются с использованием данных, сгенерированных в искусственно созданных тренировочных средах, во время масштабного развертывания в реальном мире неизбежно, что роботы столкнутся с непредвиденными сценариями, которые не учитываются при обучении и, следовательно, приведут к плохим реальным результатам. - мировая производительность. С другой стороны, непосредственно тренироваться в реальном мире, как правило, небезопасно и неэффективно. Чтобы решить эту проблему, мы представляем Синтез среды с самоконтролем (SES), в котором после развертывания в реальных условиях с соблюдением требований безопасности и эффективности автономные мобильные роботы могут использовать опыт реального развертывания, реконструировать сценарии навигации и синтезировать репрезентативную среду обучения в моделировании. Обучение в этих синтезированных средах приводит к улучшению будущей производительности в реальном мире. Эффективность SES при синтезе репрезентативных сред моделирования и улучшении характеристик навигации в реальном мире оценивается посредством крупномасштабного развертывания в высокоточном реалистичном симуляторе1 и мелкомасштабного развертывания на физическом роботе.

3. Сравнительный анализ методов обучения с подкреплением для автономной навигации (arXiv)

Автор:Цзыфан Сюй, Бо Лю, Сюэсу Сяо, Анируд Наир, Питер Стоун

Аннотация:Глубокое обучение с подкреплением (RL) принесло много успехов в автономной навигации роботов. Однако по-прежнему существуют важные ограничения, препятствующие реальному использованию навигационных систем на основе RL. Например, большинству подходов к обучению не хватает гарантий безопасности; а изученные навигационные системы могут плохо адаптироваться к невидимой среде. Несмотря на множество недавних методов обучения для решения этих проблем в целом, отсутствие эталонного теста с открытым исходным кодом и воспроизводимых методов обучения, специально предназначенных для автономной навигации, затрудняет робототехникам выбор того, какие методы обучения использовать для своих мобильных роботов и для обучающихся исследователей. выявить текущие недостатки общих методов обучения автономной навигации. В этой статье мы определяем четыре основных требования к применению подходов глубокого RL для автономной навигации: (D1) рассуждения в условиях неопределенности, (D2) безопасность, (D3) обучение на ограниченных данных методом проб и ошибок и (D4) обобщение на разнообразные и новые среды. Затем мы исследуем четыре основных класса методов обучения с целью достижения одного или нескольких из четырех желаемых результатов: архитектуры нейронных сетей на основе памяти(D1), безопасное RL( D2), RL на основе модели (D2, D3) и рандомизация предметной области (D4). Применяя эти методы обучения в новом крупномасштабном навигационном тесте с открытым исходным кодом и в реальных средах, мы проводим всестороннее исследование, направленное на установление того, в какой степени эти методы могут достичь желаемых результатов для навигационных систем на основе RL.