Об использовании имитационного обучения для обучения ботов

Команда вернулась с Develop:Brighton 2021, крупной конференции разработчиков игр в Великобритании, где у нас была возможность встретиться в реальной жизни со многими студиями и провести техническую презентацию. Хотя мы могли бы просто поделиться слайдами Алекса после его выступления, мы поняли, что это может быть немного пресно, поэтому решили вместо этого изучить некоторые элементы, кратко упомянутые в презентации, в нескольких сообщениях в блоге, начав сегодня с имитационного обучения.

В нашем предыдущем техническом блоге мы в основном говорили о нашей системе обучения с подкреплением. Имитационное обучение — еще один мощный инструмент в нашем распоряжении для обучения ботов видеоиграм. Действительно, некоторые игры имеют доступ к большому количеству игрового процесса, созданного их игроками, например, игры RTS и MOBA, чтобы иметь возможность воспроизводить прошлые матчи. Это создает возможность использовать эти данные для обучения ботов и обучения их методам, разработанным игроками. Конечно, наличие набора данных, созданного таким образом, может создавать свои собственные проблемы, поскольку два игрока могут по-разному реагировать на одну и ту же ситуацию, некоторые действия или наблюдения могут быть недостаточно представлены, качество данных может сильно различаться… но как мы увидим, есть много преимуществ использования человеческих данных.

Два разных подхода к имитационному обучению — это поведенческое клонирование и обучение с подкреплением и демонстрацией. Проще говоря, первый состоит в использовании обучения с учителем для обучения нейронной сети, которая преобразует наблюдение в действие, а второй предполагает использование данных человека в качестве ориентира в процессе обучения RL (с использованием как человеческих образцов, так и образцов, сгенерированных агентом), чтобы помочь в обучении. быстрее, чем чистый RL. В обоих случаях эти подходы производят агентов, которые превосходят по производительности их демонстрации. Чтобы узнать больше об RL с демонстрациями, ознакомьтесь со следующими статьями: Глубокое Q-обучение на демонстрациях и Оптимизация политики с помощью демонстраций.

В чистом RL мы обычно начинаем со случайной инициализации нейронной сети (точнее, каждая операция/уровень имеет набор весов, инициализированных с использованием эвристики, которая включает выборку из определенного распределения вероятностей). Это означает, что начальное поведение агента неустойчиво и плохо исследует окружающую среду, поэтому обучение может быть особенно медленным в самом начале. Использование обучения с учителем для предварительной подготовки модели для RL — это способ обучения намного быстрее. Этот подход лежит в основе AlphaStar, ИИ, обученного DeepMind для игры StarCraft II.

Кроме того, существует несколько других преимуществ использования человеческих данных по сравнению с чистым RL:

Генерируемые человеком данные могут помочь избежать патологического поведения. Действительно, иногда RL может обнаружить неоптимальные политики и застрять.
Человеческие данные обеспечивают множество различных моделей поведения. Это разнообразие может очень помочь, поскольку агенты могут научиться становиться более надежными.
Агенты учатся более похожему на человеческое поведение по мере того, как данные поступают от людей, в отличие от ботов, основанных на правилах/скриптах, которые кажутся более жесткими и, следовательно, менее правдоподобными.

Также можно использовать существующих ботов на основе правил (если они доступны) для генерации данных. Писать хороших скриптовых ботов сложно, а иногда и почти невозможно, поэтому мы работаем с ботами на основе машинного обучения, но написание простых часто возможно, даже если увидеть их в действии и погрузиться в их реальную производительность, очевидно, выдаст их природу. Использование данных, сгенерированных таким образом, конечно, будет иметь более низкое качество, чем человеческие данные, но боты, основанные на правилах, все же могут улучшить самое начало обучения, помочь в исследовании или использоваться в качестве противников для тренировок в соревновательных играх.

Нас часто спрашивают о технологии, которую мы используем. Машинное обучение предлагает нам ряд инструментов, которые мы можем выбирать в зависимости от типа игры, того, чему должен научиться ИИ и как разрабатывается игра. Мы все знаем, что каждая игра уникальна, поэтому лучший способ узнать больше и узнать, как мы можем помочь, — это связаться по адресу [email protected].

Или вы также можете подписаться на нас в Twitter или LinkedIn!

WildMeta, ИИ для видеоигр.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning