Обучение с подкреплением и имитация - две естественные модели мощных систем искусственного интеллекта. Обе модели имеют недостатки:
- Если мы не знаем, какие части поведения «важны», имитатору необходимо смоделировать каждую часть поведения, прежде чем будет гарантировано получение хороших результатов. Более того, мы не можем сосредоточить возможности нашей модели или вычислительные ресурсы на важных аспектах поведения, поэтому нам нужно использовать более крупную модель, чтобы получить хорошую производительность.
- Обучение с подкреплением чрезвычайно сложно. Исследование может занять экспоненциально много времени и работает только тогда, когда проблема достаточно хороша (например, если награда представляет собой след из хлебных крошек, ведущих к хорошей политике).
Еще одна очень естественная проблема ИИ - это пересечение имитации и RL: учитывая политику эксперта и функцию вознаграждения, постарайтесь получить вознаграждение, равное политике эксперта. Эксперт дает общее представление о том, что вам следует делать, а функция вознаграждения позволяет сосредоточиться на наиболее важных аспектах поведения.
Точно так же, как мы можем рассуждать об управлении ИИ, принимая как данность мощную систему RL или мощное генеративное моделирование, мы можем принять как данность мощное решение для имитации RL +. Я думаю, что это, вероятно, лучшее предположение для работы.
Управление AI с помощью RL + Imitation
Имитация RL + - более слабое предположение, чем RL или имитация. Чтобы получить от этого хоть какую-то работу, нам нужен доступ как к функции вознаграждения, так и к демонстрациям. Таким образом, схемы управления, которые работают с имитацией RL +, сложнее разработать и более широко применимы - конечно, они могут быть применены, если у нас есть либо агент RL, либо к имитационному ученику, но я также ожидаю, что они более вероятно, что они будут применимы к некоторым пока неизвестным альтернативным возможностям.
Обратите внимание, что система имитации + RL будет конкурировать с экспертом, но мы не можем предположить, что она на самом деле будет напоминать человеческое поведение или что она получит высокие награды. Чтобы утверждать, что наш ИИ научится делать X, нам нужно установить три утверждения:
- Экспертная политика делает X.
- Выполнение X приводит к более высокому вознаграждению.
- ИИ может научиться делать X. (И выполнение X дает больше вознаграждения, чем другое использование его модельных возможностей.)
Если мы хотим утверждать, что наш ИИ не выполняет X, тогда нам нужно установить все три противоположных свойства: наш ИИ может научиться избегать X, эксперт избегает X, а выполнение X ведет к низкому вознаграждению.
Примеры
Человеческие дети часто решают задачи с имитацией + RL, используя имитацию, чтобы понять, что делать, но используя обратную связь, чтобы улучшить свое поведение и понять, какие аспекты важны.
AlphaGo решает проблему имитации + RL, используя как человеческие демонстрации, так и обширную самостоятельную игру.
Evolution решает чистую проблему RL; у него нет доступа к демонстрациям, и он должен разобраться во всем на собственном горьком опыте.
Разное
Уверен, что imitation + RL изучен формально, и прошу прощения за то, что не цитирую источники. Это не то, над чем я работал с технической точки зрения, и я не знаю о предыдущей работе.
Обратите внимание, что имитация + RL - это более легкая проблема, чем RL, и более определенная проблема, чем имитация. Трудно сказать, «легче» ли это, чем подражание, потому что это зависит от того, как мы измеряем успех подражания.
Обратите внимание, что имитация + RL согласуется с подходом к RL, основанным на модели или без нее.
Как и в случае с имитацией, любая схема получения сверхчеловеческой производительности из имитации + RL потребует усиления возможностей или чего-то подобного.
Пути к ИИ
Я думаю, что имитация + RL - вероятный путь к созданию ИИ человеческого уровня. Это путь, который пытается увести от работы биологической эволюции и культурного накопления, продолжая траекторию технологического и социального развития человека.
Обучение с подкреплением без имитации - это другой вероятный путь к мощному ИИ. Я ожидаю, что чистый RL требует более высоких вычислительных затрат и будет подразумевать несколько более поздний AI. Я также предполагаю, что чистый RL - это немного худшие новости с точки зрения контроля, хотя я не думаю, что попытка подтолкнуть поле так или иначе является полезным упражнением с точки зрения контроля.
Открытие
На первый взгляд это может выглядеть как имитация + RL не может открыть ничего нового, поскольку может выполнять только поведение, которое может продемонстрировать эксперт. Но мы можем прямо рассматривать исследования и открытия как отдельную проблему и научиться преследовать эти цели так же эффективно, как это делают люди. Это действительно требует обобщения для множества различных актов открытий, поскольку мы хотим построить систему, которая находит новые вещи, а не имитирует открытие старых вещей, но такое обобщение в любом случае кажется важным для мощного ИИ.
(По сути, это то, что происходит, когда мы получаем новое поведение от усиления политики.)
Я особенно неравнодушен к этому взгляду на исследование / открытие, потому что он в основном необходим для моего подхода к управлению ИИ - даже если бы у меня был доступ к агенту RL, я бы попытался научить его исследовать таким образом, чтобы люди одобряют, а не пытаются, например, находите новые способы мышления в рамках исследования, основанного на новизне.
Заключение
В дальнейшем я буду предпочтительно разрабатывать схемы управления ИИ, используя имитацию + RL, а не имитацию, эпизодический RL или какое-либо другое предположение. Я думаю, что это поднимет некоторые интересные новые вопросы, поможет сделать теорию более согласованной с реальностью и сделает схемы управления более широко применимыми.