Обучение с подкреплением относится к обучению методом проб и ошибок, а не к обучению в явном виде, чтобы максимизировать вероятность наилучших действий. Как и любое другое хорошее определение, давайте разберем это слово. «Усилить» означает усилить/дополнить что-либо. Итак, если ученик прилагает много усилий, чтобы улучшить свои оценки, является ли это поощрением? Ну, зависит. Технически RL предполагает получение агентом (нашим героем) количественного вознаграждения в качестве кодировки успеха своих действий, а затем максимизацию шансов на получение лучшего числового вознаграждения с помощью оптимальной политики.
Вы, вероятно, читали об RL в новостном блоге о технологиях, в статье об ИИ-стартапе или в научно-фантастическом фильме. Итак, давайте рассмотрим за и против RL:
Плюсы: нет повторяемости ошибок. В отличие от моделей машинного обучения с учителем, модели RL учатся сами и с меньшей вероятностью повторят ошибку дважды. Более того, они поддерживают баланс между исследованием и использованием производительности. В отличие от других алгоритмов, RL может проводить идеальную политику, которая открывает новые территории, а также извлекает выгоду из правильных действий прошлого.
Минусы: модели RL не могут быстро сходиться к политике, поэтому им нужна среда, которая не меняется быстро. Это не относится к реальному миру, где они могут быть развернуты. Задержка вознаграждения нашему агенту может привести к плохой конвергенции в нашей политике, которая не идеальна.
Когда следует рассмотреть возможность применения обучения с подкреплением? а когда нет?
RL находит отличное применение в ситуациях, когда вы хотите смоделировать определенный процесс. Как бизнес, пытающийся выяснить реакцию потребителей на новый пользовательский интерфейс своего продукта. Кроме того, оптимизировать операции любой задачи вручную сложно из-за большого пространства состояния (статуса нашего агента) и множества вариантов на выбор. Алгоритмы RL могут облегчить работу здесь.
Теперь в некоторых случаях очень сложно определить функцию вознаграждения для вашего агента, так как требуется числовое значение. например самоуправляемый автомобиль может получать вознаграждение каждый раз, когда он обнаруживает препятствие и останавливается. Но что, если кто-то уберет это препятствие до того, как машина остановится? Должна ли числовая награда за этот частичный успех оставаться прежней? Несмотря на то, что эта проблема может быть решена с помощью обратного RL, туманные функции вознаграждения — не лучшая территория RL. Наконец, если вы не можете позволить себе делать ошибки в моделировании, то модели RL могут стоить вам дорого, поскольку они обречены на ошибки во время обучения.
В чем разница между контролируемым обучением и обучением с подкреплением?
Контролируемое машинное обучение использует набор данных для обучения, чтобы изучить определенную концепцию с учетом аналогичной концепции, в то время как RL использует прямое взаимодействие со средой, чтобы определить наилучшие действия для выполнения заданных базовых критериев вознаграждения. Это означает, что алгоритмы RL не имеют представления об окружающей среде до того, как начнут совершать действия, но с большей вероятностью улучшатся по мере обучения. Фактически, нейронные сети в сочетании с RL продемонстрировали большой успех в получении соответствующих значений Q (функции вознаграждения).
Офлайн-обучение с подкреплением
Это относится к агенту, который изучает все путем приема данных в большом количестве, а не по одному наблюдению за раз. Данные зарегистрированных взаимодействий (состояния, действия и вознаграждения) должны отправляться вместе, а не непрерывно. Это делает автономный RL значительно дешевле и работает лучше. Этот подход часто называют «управляемым данными».
За и против. Одной из важных возможностей, которую офлайн-обучение обещает по сравнению с другими подходами, является обработка больших и разнообразных наборов данных и создание решений, широко применимых к новым ситуациям. Например, политики, которые эффективны при рекомендации видео на Youtube новым пользователям, или политики, которые могут выполнять роботизированные задачи в странных ситуациях. Способность «обобщать» важна почти для любой системы машинного обучения, которую мы можем построить, но типичные задачи тестирования RL не проверяют это свойство. Это делает оффлайн RL более «здравым смыслом». Из-за ошибок экстраполяции стандартные алгоритмы глубокого обучения с подкреплением, такие как DQN и DDPG, не способны обучаться с данными, не коррелированными с распределениями состояний, наград и действий текущей политики. Таким образом, исправление пакета может вызвать проблемы с отсутствием репрезентативности/разнообразия в собранных данных.
Когда использовать или не использовать автономный RL?
Роботам и беспилотным автомобилям для приобретения навыков требуется большой объем данных, поэтому автономный RL с предварительно обученной моделью и пакетными данными отлично подходит. Автономное RL может хорошо подходить для операторов роботов, где нельзя ставить под угрозу точность и аккуратность действий. Online RL использует частично обученную политику или специализированные данные для задач, которые могут привести к снижению производительности нашего агента из-за чувствительности к онлайн-данным. Таким образом, автономные модели RL обеспечивают более надежных агентов.
Интересный пример офлайн-рекламы рекомендуется в новостях, что сегодня является горячей темой, где мы можем предсказать поведение определенных пользователей с их информацией о чтении, новостными функциями, такими как издатель, длина статьи и т. д. Контекстные характеристики, такие как время, связь с другими новостями и порядок отображения новостей, также можно настроить, чтобы рекомендовать статьи, которые положительно влияют на взаимодействие и уменьшают дезинформацию. Помните, информация хороша настолько, насколько она интерпретируется. Таким образом, автономный RL становится надежным методом развертывания на новостных платформах.
На данный момент - все. Надеюсь, это вас достаточно взволновало, чтобы узнать больше об обучении с подкреплением на https://ai.googleblog.com/2021/04/evolving-reinforcement-learning.html.