Исследование и письмо Яшванта - ISA, Manipal.
Что такое обучение с подкреплением
Обучение с подкреплением - это метод обучения машинному обучению. Он состоит из Агента (того, что может воспринимать свое окружение и принимать решения), фактического окружения и интерпретатора.
Обучение с подкреплением используется для обучения модели выполнению последовательности действий. Это полезно, когда мы хотим обучить модели, чтобы превзойти человеческий уровень компетенции, или если действие слишком сложно для описания человеком. Например, как мы можем объяснить другому человеку, как ходить? Как видите, это невероятно сложная задача. Здесь на сцену выходит обучение с подкреплением.
Обучение начинается со случайных решений, принимаемых агентом методом проб и ошибок. Когда цель достигнута, интерпретатор награждает агента, а когда цель не достигается (или достигается неправильно), агент наказывается. Таким образом, агент принимает оптимальные решения, чтобы получить максимальное вознаграждение, и, следовательно, «учится», как эффективно выполнять задачу. «Состояние» - это текущая ситуация агента, которая создает контекст, необходимый агенту для принятия следующего решения в последовательности.
Приложения
Армирование стало значительно более популярным после появления современных вычислительных мощностей. Вот некоторые из популярных приложений для обучения с подкреплением:
Робототехника: большинство беспилотных автомобилей или автономных машин используют некоторые аспекты обучения с подкреплением. Например, в беспилотных автомобилях модели предоставляется видеопоток и другие данные. Затем его обучают безопасному вождению по дороге с оптимальной скоростью. При этом необходимо учитывать скорость, близость к другим автомобилям, трафик, тип дороги, безопасность водителя и многие другие факторы. Проблемы обучения такой модели очевидны.
Игры: Обучение с подкреплением также используется в видеоиграх, обычно в форме Q-обучения и поиска политик. Он используется при поиске пути, действиях NPC (неигровых персонажей) и создании противников, управляемых ИИ.
Q-обучение - это независимый от модели алгоритм обучения с подкреплением, который используется для определения ценности любого конкретного действия.
Поиск политики - это систематический подход к внедрению экспертных знаний на начальных этапах обучения модели. По сути, это процесс выбора хороших параметров для начала, чтобы обеспечить более быстрое обучение и более высокую точность.
Биомеханика: биологические функции сложно моделировать и обучать машины. Обучение с подкреплением позволяет изучать сложные биологические действия, такие как бег. Прекрасным примером является проект «Учимся бегать», проводимый Стэнфордской лабораторией нейромышечной биомеханики. Обучение с подкреплением также используется при моделировании нового протезирования.
Проблемы
Среда: создать точную среду моделирования очень сложно. Даже если модель очень хорошо работает в окружающей среде, нет гарантии, что она будет столь же эффективной в реальном мире. Это большая проблема для беспилотных автомобилей из-за необходимости высокой надежности и высокой стоимости поломки.
Проблема присвоения кредитов: традиционно модели обучения с подкреплением вознаграждают агента только в том случае, если он успешно выполняет задачу, следовательно, игнорируются все шаги, ведущие к ней. Даже если большинство шагов верны, интерпретатор дает агенту такое же вознаграждение / наказание, как если бы он полностью потерпел неудачу. Следовательно, каждому действию, которое приводит к более высокому совокупному вознаграждению, необходимо придавать большее значение, или «кредит». Определение ценности каждого действия также известно как формирование вознаграждения.
Награда важнее цели: часто вы увидите, как модели, использующие обучение с подкреплением, находят лазейки для получения большего вознаграждения, но не достигают желаемой цели. Например, машина постоянно собирает монеты в игре, но не завершает гонку. Это одна из причин, по которой обучение с подкреплением сложно реализовать.
Путь вперед
Обучение с подкреплением чрезвычайно важно и может применяться для решения многих сложных проблем. Мы наблюдаем, что средства массовой информации часто изображают приложения обучения с подкреплением как что-то из научно-фантастического фильма. На самом деле эти сложные проблемы были решены благодаря самоотверженности и упорному труду самых ярких инженерных умов. Важно знать ограничения сегодняшнего обучения с подкреплением и работать над дальнейшим изучением этой области.
Однажды мы можем достичь точки, когда сможем развертывать полностью автономных роботов. Конечно, технологии развиваются намного быстрее, чем законы, и важно создать и обеспечить соблюдение необходимого законодательства для защиты людей.
Ссылки
2. Введение в обучение с подкреплением от Arxiv Insights.
3. https://deepsense.ai/learning-to-run-an-example-of-reinforcement-learning/