Мой эксперимент с RL: формальные определения

Введение

Всем привет, это второй пост из серии о моих экспериментах с обучением с подкреплением. Если вы не знаете, что такое RL, искренне рекомендую вам взглянуть на мой предыдущий пост. Если вы хотите ознакомиться с полной серией, загляните в мой репозиторий Github, где вы найдете все мои блоги и эксперименты с алгоритмами RL.

Чтобы понять RL в его основе, нам нужны некоторые термины в нашем наборе инструментов, чтобы понять все алгоритмы RL. Я считаю, что такой жаргон является одним из основных препятствий, с которыми сталкивается любой новичок в RL. Ниже я объясняю каждый термин простым языком. Надеюсь, это поможет нарисовать картину традиционной терминологии RL. После этого вы сможете самостоятельно читать большинство алгоритмов подкрепления :)

Условия

Агент: его можно представить как обучающегося агента, сущность, которая пытается изучить феномен, взаимодействуя с миром. Например, компьютерное программное обеспечение, пытающееся победить чемпиона мира по го, узнав все об игре, является агентом.

Окружающая среда: мир, с которым агент взаимодействует, чтобы он мог что-то почувствовать и чему-то научиться.

Иногда между агентом и окружающей средой существует очень тонкое физическое разделение или даже полное отсутствие разделения. Учитывая даже такие случаи, разделение более логично, чем физическое. Все, на что агент может воздействовать, становится частью агента и на что он не может стать средой.

Действие (а): Способы, которыми агент может влиять на окружающую среду. Иногда их также называют выходными сигналами. Действие агента на шаге по времени t обозначается At.

Состояние(я): Наблюдаемая часть среды от агента. Состояние среды на шаге по времени t обозначается St.

Награда (r): сигнал, подаваемый средой агенту для поощрения или наказания за поведение агента. Например, питание и поражение электрическим током в случае эксперимента Павлова. Вознаграждение, полученное агентом на временном шаге t, обозначается Rt.

Задача: пример всей проблемы RL, которую агент должен решить.

Модель: описывает реакцию среды на каждое действие. Мы можем иметь или не иметь его для данной задачи, ведущей к обучению на основе моделей и без моделей.

Задачи на основе моделей могут быть оптимально решены с использованием динамического программирования (DP), хотя они требуют больших вычислительных ресурсов. Планирование — это компонент искусственного интеллекта, который интенсивно работал над такими задачами.

Обучение без моделей использует неполную информацию, чтобы изучить модель и одновременно максимизировать вознаграждение. В следующих статьях мы больше сосредоточимся на обучении без моделей.

Функция перехода вероятности (P):компонент среды. Вероятность перехода из состояния s в s’ совершение действия a

Функция вознаграждения (R):компонент среды. Дает сигнал вознаграждения, полученный агентом, выполняющим действие a в состоянии s среды. Ниже приведена функция с двумя аргументами для вознаграждения.

У нас также есть другие формулировки функции вознаграждения r(s, a, s’) и r(s, a, s’, t)

Возврат (Gt): общее кумулятивное вознаграждение со скидкой, полученное агентом после заданного временного шага.

Коэффициент дисконтирования (γ): фактор, по которому будущие вознаграждения должны быть настроены таким образом, чтобы их влияние на текущую доходность было правильно оценено (0 ‹ γ‹ 1).

Если он равен нулю , это недальновидно с учетом только немедленного вознаграждения. Если это так, то это дальновидно, учитывая, что будущие вознаграждения намного превышают текущий временной шаг. Это также помогает доходности сходиться, будучи положительной и меньшей 1.

Свойство Маркова: все на шаге по времени t+1 может быть оценено по информации на шаге по времени t, т.е. имеет всю информацию о прошлом, необходимую для оценки любого поведения в t+1. Более конкретно, оно известно как Свойство Маркова первого порядка.

Пространство состояний (S): все возможные состояния, в которых может находиться проблема, некоторые из которых могут никогда не восприниматься агентом.

Пространство действий (A): все возможные действия, выполняемые агентом.

Процесс: временная последовательность случайных результатов.

Марковский процесс: процесс марковских состояний, т. е. состояние, следующее марковскому свойству.

Марковский процесс вознаграждения (MRP): марковский процесс с функцией вознаграждения, связанной с переходом состояния.

Марковский процесс принятия решений (MDP): марковское вознаграждение за действия, т. е. способность агента влиять на вознаграждение.

Эпизод: один полный запуск процесса от начального состояния до конечного состояния.

Политика: сопоставление действий с состояниями. Он сообщает агенту, что делать с учетом текущего состояния системы RL. Он может быть либо детерминированным π(s), либо стохастическим π(a|s).

Функция "состояние-значение": ожидаемое общее дисконтированное вознаграждение агента в текущем состоянии в соответствии с заданной политикой.

Функция «действие-ценность»: ожидаемое общее дисконтированное вознаграждение агента в текущем состоянии после выполнения данного действия.

Оптимальность: существует по крайней мере одна политика π*, которая лучше или равна всем остальным политикам. Все они имеют одни и те же уникальные функции ценности V* и Q*, но не являются уникальной оптимальной политикой.

Уравнения

Уравнение ожидания Беллмана:

Рекурсивное определение функции значения состояния

Можно легко записать уравнение ожидания Беллмана для функции значения состояния и функции значения действия с помощью приведенной выше резервной схемы.

Уравнение оптимальности Беллмана:

Я уверен, что у нас есть четкое понимание всей базовой терминологии в контексте RL. В следующем посте мы рассмотрим решение проблемы обучения, т. е. как агент может изучить политику для достижения максимального вознаграждения в среде с обучением на основе моделей в качестве основного направления.

Рекомендации

Обучение с подкреплением, введение — Ричард С. Саттон и Эндрю Г. Барто (ссылка)
Гитхаб — https://github.com/HG1112/Reinforcement-Learning

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning