Команда вернулась с Develop:Brighton 2021, крупной конференции разработчиков игр в Великобритании, где у нас была возможность встретиться в реальной жизни со многими студиями и провести техническую презентацию. Хотя мы могли бы просто поделиться слайдами Алекса после его выступления, мы поняли, что это может быть немного пресно, поэтому решили вместо этого изучить некоторые элементы, кратко упомянутые в презентации, в нескольких сообщениях в блоге, начав сегодня с имитационного обучения.

В нашем предыдущем техническом блоге мы в основном говорили о нашей системе обучения с подкреплением. Имитационное обучение — еще один мощный инструмент в нашем распоряжении для обучения ботов видеоиграм. Действительно, некоторые игры имеют доступ к большому количеству игрового процесса, созданного их игроками, например, игры RTS и MOBA, чтобы иметь возможность воспроизводить прошлые матчи. Это создает возможность использовать эти данные для обучения ботов и обучения их методам, разработанным игроками. Конечно, наличие набора данных, созданного таким образом, может создавать свои собственные проблемы, поскольку два игрока могут по-разному реагировать на одну и ту же ситуацию, некоторые действия или наблюдения могут быть недостаточно представлены, качество данных может сильно различаться… но как мы увидим, есть много преимуществ использования человеческих данных.

Два разных подхода к имитационному обучению — это поведенческое клонирование и обучение с подкреплением и демонстрацией. Проще говоря, первый состоит в использовании обучения с учителем для обучения нейронной сети, которая преобразует наблюдение в действие, а второй предполагает использование данных человека в качестве ориентира в процессе обучения RL (с использованием как человеческих образцов, так и образцов, сгенерированных агентом), чтобы помочь в обучении. быстрее, чем чистый RL. В обоих случаях эти подходы производят агентов, которые превосходят по производительности их демонстрации. Чтобы узнать больше об RL с демонстрациями, ознакомьтесь со следующими статьями: Глубокое Q-обучение на демонстрациях и Оптимизация политики с помощью демонстраций.

В чистом RL мы обычно начинаем со случайной инициализации нейронной сети (точнее, каждая операция/уровень имеет набор весов, инициализированных с использованием эвристики, которая включает выборку из определенного распределения вероятностей). Это означает, что начальное поведение агента неустойчиво и плохо исследует окружающую среду, поэтому обучение может быть особенно медленным в самом начале. Использование обучения с учителем для предварительной подготовки модели для RL — это способ обучения намного быстрее. Этот подход лежит в основе AlphaStar, ИИ, обученного DeepMind для игры StarCraft II.

Кроме того, существует несколько других преимуществ использования человеческих данных по сравнению с чистым RL:

  • Генерируемые человеком данные могут помочь избежать патологического поведения. Действительно, иногда RL может обнаружить неоптимальные политики и застрять.
  • Человеческие данные обеспечивают множество различных моделей поведения. Это разнообразие может очень помочь, поскольку агенты могут научиться становиться более надежными.
  • Агенты учатся более похожему на человеческое поведение по мере того, как данные поступают от людей, в отличие от ботов, основанных на правилах/скриптах, которые кажутся более жесткими и, следовательно, менее правдоподобными.

Также можно использовать существующих ботов на основе правил (если они доступны) для генерации данных. Писать хороших скриптовых ботов сложно, а иногда и почти невозможно, поэтому мы работаем с ботами на основе машинного обучения, но написание простых часто возможно, даже если увидеть их в действии и погрузиться в их реальную производительность, очевидно, выдаст их природу. Использование данных, сгенерированных таким образом, конечно, будет иметь более низкое качество, чем человеческие данные, но боты, основанные на правилах, все же могут улучшить самое начало обучения, помочь в исследовании или использоваться в качестве противников для тренировок в соревновательных играх.

Нас часто спрашивают о технологии, которую мы используем. Машинное обучение предлагает нам ряд инструментов, которые мы можем выбирать в зависимости от типа игры, того, чему должен научиться ИИ и как разрабатывается игра. Мы все знаем, что каждая игра уникальна, поэтому лучший способ узнать больше и узнать, как мы можем помочь, — это связаться по адресу [email protected].

Или вы также можете подписаться на нас в Twitter или LinkedIn!

WildMeta, ИИ для видеоигр.