Проще говоря, политика — это функция, которая указывает агенту, какое действие следует предпринять в любом заданном состоянии. Таким образом, очевидно, чем лучше политика, которую следует нашему агенту, тем быстрее и больше вознаграждение получит наш агент. Но проблема здесь в том, как агент узнает, какой политике следовать?

Давайте возьмем самый популярный пример в мире ИИ, мировую проблему Wumpus, но в упрощенной версии. Итак, у нас есть мир с сеткой 4x4, в котором есть коробка, полная блестящего золота, но также есть ямы и есть монстр по имени ВУМПУС, который любит есть агенты! Теперь цель вашего агента:

  1. Не упасть в Ямы.
  2. Чтобы не быть съеденным вампусом.

Не обращая внимания на вонь и ветер, наш агент должен найти лучший способ добраться до золота. Теперь, следуя так называемому «обучению с подкреплением на основе политик», агент начнет свое путешествие в мире Wumpus со случайно инициированной политикой. Вампус несколько раз съест его, несколько раз упадет в яму и, в конце концов, узнает лучший и наиболее оптимальный способ добраться до золота. Математически мы говорим, что политика это:

𝜋(a|s, 𝜽)

Политика (𝜋) — это вероятность того, что наш агент выполнит Действие (a) в состоянии (s), когда заданные параметры 𝜽.

Типы изучения политики:

Теперь мы поняли, что наш агент будет совершать ошибки и улучшать свою траекторию к золоту, а это означает, что текущая политика нашего агента P1 не является лучшим методом для достижения золота, но наш агент в конечном итоге желает достичь оптимизированная политика P2. Есть два основных способа, которыми наш агент выполняет эту коррекцию:

  1. Обучение политике:

Агент, следуя обучению на основе политики, будет постепенно работать только со своей первоначальной политикой P1 и постепенно вносить в нее изменения. Обычно агент будет следовать жадным алгоритмам, а это означает, что этот алгоритм будет выбирать только шаг, который принесет немедленное вознаграждение, но в обучении на основе политики также вводится очень высокая степень случайности, так что он не всегда следует только жадным шагам. но также и те шаги, которые могут не дать немедленных результатов, но могут дать лучшие результаты с течением времени.

2. Обучение вне политики:

При следовании обучению вне политики агент будет использовать свою текущую политику P1 для исследования, принятия мер по совершению ошибок и т. д., но будет использовать политику P2. для улучшения политики, а также обновления весов. Почему? Поскольку P1 не оптимизирован, он лучше всего подходит для изучения и получения информации о мире Wumpus, а политика P2 оптимизирована, поэтому она знает, где агент пойдет не так, и где его нужно улучшить.

Типы политик:

  1. Детерминированная политика
  2. Стохастическая политика

Детерминированная политика:

В этой политике действия заданы заранее, а это означает, что когда агент находится в состоянии(ях), политика(𝜋)определяет только одно единственное действие(а). всегда. Из названия политики вы, вероятно, можете понять, что действия уже предопределены политикой.

Стохастическая политика:

В этой политике агент получает распределение вероятностей нескольких действий в пространстве действий для данного состояния. В зависимости от вероятностей действий каждый раз при посещении состояния будет выполняться другое действие.

Типы стохастической политики:

  1. Категориальная стохастическая политика:

Когда действия в состоянии носят дискретный характер, мы можем назвать его категоричным. Шахматная фигура может двигаться только в счетном стиле в зависимости от фигуры. Агент в мире Wumpus может двигаться только вверх/вниз/влево/вправо. Все они категоричны.

2. Стохастическая политика Гаусса:

Если наши доступные действия не категоричны, а находятся в диапазоне или спектре, мы называем это стохастической политикой Гаусса. Автомобилю с автоматической коробкой передач необходимо вычислять множество показателей, чтобы определить, когда нужно замедлиться и ускориться, чтобы не столкнуться с препятствием.

Надеюсь, что эта статья помогла вам лучше понять политику. Если вы хотите лучше понять использование политики, попробуйте проверить, что такое марковский процесс принятия решений и функции значений. Эти темы должны развеять любые оставшиеся сомнения. Для любых разъяснений и запросов статьи, не стесняйтесь обращаться ко мне. Я обязательно пойду немного выше и скромнее, чтобы позаботиться о них.

До встречи в следующей статье!!!