1. GA-DRL: оптимизатор функций на основе генетического алгоритма в глубоком обучении с подкреплением для задач роботизированного манипулирования (arXiv)

Автор: Адарш Сегал, Николас Уорд, Хунг Мань Ла, Христос Папахристос, Сушил Луи.

Вывод:обучение с подкреплением (RL) позволяет агентам принимать решения на основе функции вознаграждения. Однако в процессе обучения выбор значений параметров алгоритма обучения может существенно повлиять на общий процесс обучения. В этой статье мы предложили основанный на генетическом алгоритме метод градиента глубокой детерминации политики и ретроспективного воспроизведения опыта (называемый GA-DRL) для нахождения почти оптимальных значений параметров обучения. Мы использовали предложенный метод GA-DRL для захвата-достижения, скольжения, толкания, выбора и размещения и открытия двери в задачах роботизированных манипуляций. С некоторыми изменениями предложенный нами метод GA-DRL также был применен к среде auboreach. Наша экспериментальная оценка показывает, что наш метод приводит к значительно более высокой производительности, быстрее, чем исходный алгоритм. Кроме того, мы предоставляем доказательства того, что GA-DRL работает лучше, чем существующие методы.

2. Изучение политик многоэтапного роботизированного манипулирования на основе визуального наблюдения за сценой и предсказания значения Q предыдущего действия (arXiv)

Автор:Сулабх Кумра, Ширин Джоши, Ферат Сахин

Аннотация. В этой работе мы сосредоточимся на многоэтапных задачах манипулирования, которые включают долгосрочное планирование и учитывают изменение хода выполнения. В таких задачах чередуются высокоуровневые рассуждения, состоящие из ожидаемых состояний, которые могут быть достигнуты для достижения общей задачи, и низкоуровневые рассуждения, определяющие, какие действия приведут к этим состояниям. Мы предлагаем образец эффективной сети роботизированных манипуляций с условными предыдущими действиями (PAC-RoManNet) для изучения функций действия-ценности и прогнозирования кандидатов на манипуляционное действие на основе визуального наблюдения за сценой и предсказания ценности действия предыдущего действия. Мы определяем функцию вознаграждения по Гауссу (TPG) на основе выполнения задачи, которая вычисляет вознаграждение на основе действий, которые приводят к успешным примитивам движения и прогрессу в достижении общей цели задачи. Чтобы сбалансировать соотношение разведки/эксплуатации, мы вводим политику разведки с поправкой на потери (LAE), которая определяет действия от возможных действий в соответствии с распределением Больцмана оценок потерь. Мы демонстрируем эффективность нашего подхода, обучая PAC-RoManNet нескольким сложным многоступенчатым роботизированным задачам как в моделировании, так и в реальном мире. Экспериментальные результаты показывают, что наш метод превосходит существующие методы и достигает самых современных показателей с точки зрения успешности и эффективности действий. Исследования абляции показывают, что TPG и LAE особенно полезны для таких задач, как наложение нескольких блоков. Дополнительные эксперименты с эталонными задачами Ravens-10 предполагают хорошую обобщаемость предложенного PAC-RoManNet.

3. Сравнительный анализ манипулирования роботами с помощью кубика Рубика (arXiv)

Автор: Болинг Янг, Патрик Э. Ланкастер, Сиддхартха С. Шриниваса, Джошуа Р. Смит

Аннотация. Контрольные показатели манипулирования роботами имеют решающее значение для измерения прогресса в этой области, однако существует несколько контрольных показателей, демонстрирующих критические навыки манипулирования, обладающих стандартизированными показателями и пригодных для использования на широком спектре робототехнических платформ. Чтобы восполнить недостаток таких тестов, мы предлагаем манипулирование кубиком Рубика в качестве эталона для измерения одновременной производительности точных манипуляций и последовательных манипуляций. Подструктура кубика Рубика требует точного позиционирования концевых эффекторов робота, а его реконфигурируемый характер позволяет выполнять задачи, требующие от робота управления неопределенностью позы во время длинных последовательностей действий. Мы представляем протокол для количественного измерения точности и скорости работы с кубиком Рубика. Этот протокол можно использовать с любым манипулятором общего назначения, и для этого требуется только стандартный кубик Рубика 3x3 и плоская поверхность, на которой изначально лежит кубик Рубика (например, стол). Мы демонстрируем этот протокол для двух различных базовых подходов на роботе PR2. Первая базовая линия обеспечивает фундаментальный подход к манипулированию кубиком Рубика на основе поз. Второй базовый уровень демонстрирует способность эталонного теста количественно оценивать повышение производительности системы, особенно в результате интеграции распознавания предварительного касания. Чтобы продемонстрировать применимость эталонного теста к другим робототехническим платформам и алгоритмическим подходам, мы представляем функциональные блоки, необходимые для того, чтобы робот HERB мог манипулировать кубиком Рубика с помощью захвата-нажатия.

4. Сквозное обучение с подкреплением роботизированных манипуляций с надежным представлением ключевых точек (arXiv)

Автор:Тяньин Ван, Эн Йен Пуанг, Маркус Ли, Ян Ву, Вэй Цзин

Аннотация: мы представляем комплексную структуру обучения с подкреплением (RL) для задач манипулирования роботами, используя надежное и эффективное представление ключевых точек. Предлагаемый метод изучает ключевые точки изображений с камер как представление состояния с помощью самоконтролируемой архитектуры автоэнкодера. Ключевые точки кодируют геометрическую информацию, а также взаимосвязь инструмента и цели в компактном представлении, чтобы обеспечить эффективное и надежное обучение. После изучения ключевых точек на этапе RL изучается движение робота на основе извлеченного представления состояния ключевых точек. Ключевые точки и процессы обучения RL полностью выполняются в смоделированной среде. Мы демонстрируем эффективность предлагаемого метода в задачах манипулирования роботами, включая захват и толкание, в различных сценариях. Мы также исследуем способность обучаемой модели к обобщению. В дополнение к надежному представлению ключевых точек мы дополнительно применяем рандомизацию предметной области и состязательные обучающие примеры для достижения нулевого перехода от симулятора к реальному в реальных задачах манипулирования роботами.