Обучение с подкреплением — что вознаграждает вас, делает вас сильнее

Обучение с подкреплением относится к обучению методом проб и ошибок, а не к обучению в явном виде, чтобы максимизировать вероятность наилучших действий. Как и любое другое хорошее определение, давайте разберем это слово. «Усилить» означает усилить/дополнить что-либо. Итак, если ученик прилагает много усилий, чтобы улучшить свои оценки, является ли это поощрением? Ну, зависит. Технически RL предполагает получение агентом (нашим героем) количественного вознаграждения в качестве кодировки успеха своих действий, а затем максимизацию шансов на получение лучшего числового вознаграждения с помощью оптимальной политики.

Вы, вероятно, читали об RL в новостном блоге о технологиях, в статье об ИИ-стартапе или в научно-фантастическом фильме. Итак, давайте рассмотрим за и против RL:

Плюсы: нет повторяемости ошибок. В отличие от моделей машинного обучения с учителем, модели RL учатся сами и с меньшей вероятностью повторят ошибку дважды. Более того, они поддерживают баланс между исследованием и использованием производительности. В отличие от других алгоритмов, RL может проводить идеальную политику, которая открывает новые территории, а также извлекает выгоду из правильных действий прошлого.

Минусы: модели RL не могут быстро сходиться к политике, поэтому им нужна среда, которая не меняется быстро. Это не относится к реальному миру, где они могут быть развернуты. Задержка вознаграждения нашему агенту может привести к плохой конвергенции в нашей политике, которая не идеальна.

Когда следует рассмотреть возможность применения обучения с подкреплением? а когда нет?

RL находит отличное применение в ситуациях, когда вы хотите смоделировать определенный процесс. Как бизнес, пытающийся выяснить реакцию потребителей на новый пользовательский интерфейс своего продукта. Кроме того, оптимизировать операции любой задачи вручную сложно из-за большого пространства состояния (статуса нашего агента) и множества вариантов на выбор. Алгоритмы RL могут облегчить работу здесь.

Теперь в некоторых случаях очень сложно определить функцию вознаграждения для вашего агента, так как требуется числовое значение. например самоуправляемый автомобиль может получать вознаграждение каждый раз, когда он обнаруживает препятствие и останавливается. Но что, если кто-то уберет это препятствие до того, как машина остановится? Должна ли числовая награда за этот частичный успех оставаться прежней? Несмотря на то, что эта проблема может быть решена с помощью обратного RL, туманные функции вознаграждения — не лучшая территория RL. Наконец, если вы не можете позволить себе делать ошибки в моделировании, то модели RL могут стоить вам дорого, поскольку они обречены на ошибки во время обучения.

В чем разница между контролируемым обучением и обучением с подкреплением?

Контролируемое машинное обучение использует набор данных для обучения, чтобы изучить определенную концепцию с учетом аналогичной концепции, в то время как RL использует прямое взаимодействие со средой, чтобы определить наилучшие действия для выполнения заданных базовых критериев вознаграждения. Это означает, что алгоритмы RL не имеют представления об окружающей среде до того, как начнут совершать действия, но с большей вероятностью улучшатся по мере обучения. Фактически, нейронные сети в сочетании с RL продемонстрировали большой успех в получении соответствующих значений Q (функции вознаграждения).

Офлайн-обучение с подкреплением

Это относится к агенту, который изучает все путем приема данных в большом количестве, а не по одному наблюдению за раз. Данные зарегистрированных взаимодействий (состояния, действия и вознаграждения) должны отправляться вместе, а не непрерывно. Это делает автономный RL значительно дешевле и работает лучше. Этот подход часто называют «управляемым данными».

За и против. Одной из важных возможностей, которую офлайн-обучение обещает по сравнению с другими подходами, является обработка больших и разнообразных наборов данных и создание решений, широко применимых к новым ситуациям. Например, политики, которые эффективны при рекомендации видео на Youtube новым пользователям, или политики, которые могут выполнять роботизированные задачи в странных ситуациях. Способность «обобщать» важна почти для любой системы машинного обучения, которую мы можем построить, но типичные задачи тестирования RL не проверяют это свойство. Это делает оффлайн RL более «здравым смыслом». Из-за ошибок экстраполяции стандартные алгоритмы глубокого обучения с подкреплением, такие как DQN и DDPG, не способны обучаться с данными, не коррелированными с распределениями состояний, наград и действий текущей политики. Таким образом, исправление пакета может вызвать проблемы с отсутствием репрезентативности/разнообразия в собранных данных.

Когда использовать или не использовать автономный RL?

Роботам и беспилотным автомобилям для приобретения навыков требуется большой объем данных, поэтому автономный RL с предварительно обученной моделью и пакетными данными отлично подходит. Автономное RL может хорошо подходить для операторов роботов, где нельзя ставить под угрозу точность и аккуратность действий. Online RL использует частично обученную политику или специализированные данные для задач, которые могут привести к снижению производительности нашего агента из-за чувствительности к онлайн-данным. Таким образом, автономные модели RL обеспечивают более надежных агентов.

Интересный пример офлайн-рекламы рекомендуется в новостях, что сегодня является горячей темой, где мы можем предсказать поведение определенных пользователей с их информацией о чтении, новостными функциями, такими как издатель, длина статьи и т. д. Контекстные характеристики, такие как время, связь с другими новостями и порядок отображения новостей, также можно настроить, чтобы рекомендовать статьи, которые положительно влияют на взаимодействие и уменьшают дезинформацию. Помните, информация хороша настолько, насколько она интерпретируется. Таким образом, автономный RL становится надежным методом развертывания на новостных платформах.

На данный момент - все. Надеюсь, это вас достаточно взволновало, чтобы узнать больше об обучении с подкреплением на https://ai.googleblog.com/2021/04/evolving-reinforcement-learning.html.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning