Введение

Всем привет, это второй пост из серии о моих экспериментах с обучением с подкреплением. Если вы не знаете, что такое RL, искренне рекомендую вам взглянуть на мой предыдущий пост. Если вы хотите ознакомиться с полной серией, загляните в мой репозиторий Github, где вы найдете все мои блоги и эксперименты с алгоритмами RL.

Чтобы понять RL в его основе, нам нужны некоторые термины в нашем наборе инструментов, чтобы понять все алгоритмы RL. Я считаю, что такой жаргон является одним из основных препятствий, с которыми сталкивается любой новичок в RL. Ниже я объясняю каждый термин простым языком. Надеюсь, это поможет нарисовать картину традиционной терминологии RL. После этого вы сможете самостоятельно читать большинство алгоритмов подкрепления :)

Условия

Агент: его можно представить как обучающегося агента, сущность, которая пытается изучить феномен, взаимодействуя с миром. Например, компьютерное программное обеспечение, пытающееся победить чемпиона мира по го, узнав все об игре, является агентом.

Окружающая среда: мир, с которым агент взаимодействует, чтобы он мог что-то почувствовать и чему-то научиться.

Иногда между агентом и окружающей средой существует очень тонкое физическое разделение или даже полное отсутствие разделения. Учитывая даже такие случаи, разделение более логично, чем физическое. Все, на что агент может воздействовать, становится частью агента и на что он не может стать средой.

Действие (а): Способы, которыми агент может влиять на окружающую среду. Иногда их также называют выходными сигналами. Действие агента на шаге по времени t обозначается At.

Состояние(я): Наблюдаемая часть среды от агента. Состояние среды на шаге по времени t обозначается St.

Награда (r): сигнал, подаваемый средой агенту для поощрения или наказания за поведение агента. Например, питание и поражение электрическим током в случае эксперимента Павлова. Вознаграждение, полученное агентом на временном шаге t, обозначается Rt.

Задача: пример всей проблемы RL, которую агент должен решить.

Модель: описывает реакцию среды на каждое действие. Мы можем иметь или не иметь его для данной задачи, ведущей к обучению на основе моделей и без моделей.

Задачи на основе моделей могут быть оптимально решены с использованием динамического программирования (DP), хотя они требуют больших вычислительных ресурсов. Планирование — это компонент искусственного интеллекта, который интенсивно работал над такими задачами.

Обучение без моделей использует неполную информацию, чтобы изучить модель и одновременно максимизировать вознаграждение. В следующих статьях мы больше сосредоточимся на обучении без моделей.

Функция перехода вероятности (P):компонент среды. Вероятность перехода из состояния s в s’ совершение действия a

Функция вознаграждения (R):компонент среды. Дает сигнал вознаграждения, полученный агентом, выполняющим действие a в состоянии s среды. Ниже приведена функция с двумя аргументами для вознаграждения.

У нас также есть другие формулировки функции вознаграждения r(s, a, s’) и r(s, a, s’, t)

Возврат (Gt): общее кумулятивное вознаграждение со скидкой, полученное агентом после заданного временного шага.

Коэффициент дисконтирования (γ): фактор, по которому будущие вознаграждения должны быть настроены таким образом, чтобы их влияние на текущую доходность было правильно оценено (0 ‹ γ‹ 1).

Если он равен нулю , это недальновидно с учетом только немедленного вознаграждения. Если это так, то это дальновидно, учитывая, что будущие вознаграждения намного превышают текущий временной шаг. Это также помогает доходности сходиться, будучи положительной и меньшей 1.

Свойство Маркова: все на шаге по времени t+1 может быть оценено по информации на шаге по времени t, т.е. имеет всю информацию о прошлом, необходимую для оценки любого поведения в t+1. Более конкретно, оно известно как Свойство Маркова первого порядка.

Пространство состояний (S): все возможные состояния, в которых может находиться проблема, некоторые из которых могут никогда не восприниматься агентом.

Пространство действий (A): все возможные действия, выполняемые агентом.

Процесс: временная последовательность случайных результатов.

Марковский процесс: процесс марковских состояний, т. е. состояние, следующее марковскому свойству.

Марковский процесс вознаграждения (MRP): марковский процесс с функцией вознаграждения, связанной с переходом состояния.

Марковский процесс принятия решений (MDP): марковское вознаграждение за действия, т. е. способность агента влиять на вознаграждение.

Эпизод: один полный запуск процесса от начального состояния до конечного состояния.

Политика: сопоставление действий с состояниями. Он сообщает агенту, что делать с учетом текущего состояния системы RL. Он может быть либо детерминированным π(s), либо стохастическим π(a|s).

Функция "состояние-значение": ожидаемое общее дисконтированное вознаграждение агента в текущем состоянии в соответствии с заданной политикой.

Функция «действие-ценность»: ожидаемое общее дисконтированное вознаграждение агента в текущем состоянии после выполнения данного действия.

Оптимальность: существует по крайней мере одна политика π*, которая лучше или равна всем остальным политикам. Все они имеют одни и те же уникальные функции ценности V* и Q*, но не являются уникальной оптимальной политикой.

Уравнения

Уравнение ожидания Беллмана:

Рекурсивное определение функции значения состояния

Можно легко записать уравнение ожидания Беллмана для функции значения состояния и функции значения действия с помощью приведенной выше резервной схемы.

Уравнение оптимальности Беллмана:

Следующий

Я уверен, что у нас есть четкое понимание всей базовой терминологии в контексте RL. В следующем посте мы рассмотрим решение проблемы обучения, т. е. как агент может изучить политику для достижения максимального вознаграждения в среде с обучением на основе моделей в качестве основного направления.

Рекомендации