Введение
Всем привет, это второй пост из серии о моих экспериментах с обучением с подкреплением. Если вы не знаете, что такое RL, искренне рекомендую вам взглянуть на мой предыдущий пост. Если вы хотите ознакомиться с полной серией, загляните в мой репозиторий Github, где вы найдете все мои блоги и эксперименты с алгоритмами RL.
Чтобы понять RL в его основе, нам нужны некоторые термины в нашем наборе инструментов, чтобы понять все алгоритмы RL. Я считаю, что такой жаргон является одним из основных препятствий, с которыми сталкивается любой новичок в RL. Ниже я объясняю каждый термин простым языком. Надеюсь, это поможет нарисовать картину традиционной терминологии RL. После этого вы сможете самостоятельно читать большинство алгоритмов подкрепления :)
Условия
Агент: его можно представить как обучающегося агента, сущность, которая пытается изучить феномен, взаимодействуя с миром. Например, компьютерное программное обеспечение, пытающееся победить чемпиона мира по го, узнав все об игре, является агентом.
Окружающая среда: мир, с которым агент взаимодействует, чтобы он мог что-то почувствовать и чему-то научиться.
Иногда между агентом и окружающей средой существует очень тонкое физическое разделение или даже полное отсутствие разделения. Учитывая даже такие случаи, разделение более логично, чем физическое. Все, на что агент может воздействовать, становится частью агента и на что он не может стать средой.
Действие (а): Способы, которыми агент может влиять на окружающую среду. Иногда их также называют выходными сигналами. Действие агента на шаге по времени t обозначается At.
Состояние(я): Наблюдаемая часть среды от агента. Состояние среды на шаге по времени t обозначается St.
Награда (r): сигнал, подаваемый средой агенту для поощрения или наказания за поведение агента. Например, питание и поражение электрическим током в случае эксперимента Павлова. Вознаграждение, полученное агентом на временном шаге t, обозначается Rt.
Задача: пример всей проблемы RL, которую агент должен решить.
Модель: описывает реакцию среды на каждое действие. Мы можем иметь или не иметь его для данной задачи, ведущей к обучению на основе моделей и без моделей.
Задачи на основе моделей могут быть оптимально решены с использованием динамического программирования (DP), хотя они требуют больших вычислительных ресурсов. Планирование — это компонент искусственного интеллекта, который интенсивно работал над такими задачами.
Обучение без моделей использует неполную информацию, чтобы изучить модель и одновременно максимизировать вознаграждение. В следующих статьях мы больше сосредоточимся на обучении без моделей.
Функция перехода вероятности (P):компонент среды. Вероятность перехода из состояния s в s’ совершение действия a
Функция вознаграждения (R):компонент среды. Дает сигнал вознаграждения, полученный агентом, выполняющим действие a в состоянии s среды. Ниже приведена функция с двумя аргументами для вознаграждения.
У нас также есть другие формулировки функции вознаграждения r(s, a, s’) и r(s, a, s’, t)
Возврат (Gt): общее кумулятивное вознаграждение со скидкой, полученное агентом после заданного временного шага.
Коэффициент дисконтирования (γ): фактор, по которому будущие вознаграждения должны быть настроены таким образом, чтобы их влияние на текущую доходность было правильно оценено (0 ‹ γ‹ 1).
Если он равен нулю , это недальновидно с учетом только немедленного вознаграждения. Если это так, то это дальновидно, учитывая, что будущие вознаграждения намного превышают текущий временной шаг. Это также помогает доходности сходиться, будучи положительной и меньшей 1.
Свойство Маркова: все на шаге по времени t+1 может быть оценено по информации на шаге по времени t, т.е. имеет всю информацию о прошлом, необходимую для оценки любого поведения в t+1. Более конкретно, оно известно как Свойство Маркова первого порядка.
Пространство состояний (S): все возможные состояния, в которых может находиться проблема, некоторые из которых могут никогда не восприниматься агентом.
Пространство действий (A): все возможные действия, выполняемые агентом.
Процесс: временная последовательность случайных результатов.
Марковский процесс: процесс марковских состояний, т. е. состояние, следующее марковскому свойству.
Марковский процесс вознаграждения (MRP): марковский процесс с функцией вознаграждения, связанной с переходом состояния.
Марковский процесс принятия решений (MDP): марковское вознаграждение за действия, т. е. способность агента влиять на вознаграждение.
Эпизод: один полный запуск процесса от начального состояния до конечного состояния.
Политика: сопоставление действий с состояниями. Он сообщает агенту, что делать с учетом текущего состояния системы RL. Он может быть либо детерминированным π(s), либо стохастическим π(a|s).
Функция "состояние-значение": ожидаемое общее дисконтированное вознаграждение агента в текущем состоянии в соответствии с заданной политикой.
Функция «действие-ценность»: ожидаемое общее дисконтированное вознаграждение агента в текущем состоянии после выполнения данного действия.
Оптимальность: существует по крайней мере одна политика π*, которая лучше или равна всем остальным политикам. Все они имеют одни и те же уникальные функции ценности V* и Q*, но не являются уникальной оптимальной политикой.
Уравнения
Уравнение ожидания Беллмана:
Рекурсивное определение функции значения состояния
Можно легко записать уравнение ожидания Беллмана для функции значения состояния и функции значения действия с помощью приведенной выше резервной схемы.
Уравнение оптимальности Беллмана:
Следующий
Я уверен, что у нас есть четкое понимание всей базовой терминологии в контексте RL. В следующем посте мы рассмотрим решение проблемы обучения, т. е. как агент может изучить политику для достижения максимального вознаграждения в среде с обучением на основе моделей в качестве основного направления.
Рекомендации
- Обучение с подкреплением, введение — Ричард С. Саттон и Эндрю Г. Барто (ссылка)
- Гитхаб — https://github.com/HG1112/Reinforcement-Learning