Публикации по теме 'markov-decision-process'
Обучение с подкреплением для начинающих
Как новичок, когда я начал погружаться в RL, мне потребовалось некоторое время, чтобы понять, что происходит под капотом, поскольку это, как правило, отличается от традиционных методов машинного обучения. Этот пост поможет вам понять компоненты алгоритма RL и то, как мы можем использовать их для решения проблемы RL.
Проблема RL состоит из агента и среды . У агента есть набор действий на выбор. Агент взаимодействует со средой, выбирая действия. Разработанная среда должна..
Основные элементы обучения с подкреплением
Простое для понимания объяснение важнейших элементов обучения с подкреплением
Если вы пытаетесь освоить новый навык, например катание на роликах, вы, вероятно, несколько раз упадете, прежде чем овладеете искусством катания на коньках. Вы будете вознаграждены успешным приземлением каждый раз, когда научитесь балансировать. Каждый раз, когда вы не можете сбалансировать …
Множество разновидностей обучения с подкреплением
Почему-то у меня сложилось неправильное представление о том, что обучение с подкреплением (RL) — это все о контроле. Наверное, потому, что мирянам обычно объясняют в терминах кнута и пряника. Действительно, многие методы RL направлены на улучшение политик, то есть на обучение действию более эффективно/выгодно в конкретной ситуации. Тем не менее, есть также достаточно тех, кто предсказывает (оценочные) преимущества пребывания в конкретной ситуации.
Еще одно заблуждение состоит в том,..
FinRL для количественных финансов: Учебное пособие по распределению портфеля
Учебное пособие по использованию FinRL для выполнения распределения портфелей в одном блокноте Jupyter | Представлено на NeurIPS 2020: Deep RL Workshop
Примечание редакторам Data Science. Хотя мы разрешаем независимым авторам публиковать статьи в соответствии с нашими правилами и рекомендациями , мы не поддерживаем вклад каждого автора. Не стоит полагаться на работы автора без консультации с профессионалами. См. Подробности в наших Условиях для читателей .
Этот блог представляет..
Основополагающая RL: решение марковского процесса принятия решений
Дорога к обучению с подкреплением
В первой части я обсудил некоторые основные концепции для создания основы для обучения с подкреплением (RL), такие как состояния Маркова, цепь Маркова и процесс принятия решений Маркова (MDP). Задачи обучения с подкреплением строятся поверх MDP.
Основы RL: состояния Маркова, цепь Маркова и процесс принятия решений по Маркову Путь к обучению с подкреплением towardsdatascience.com
MDP — это..
Новые материалы
Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка.
Во время предварительного обучения модель обучается на неразмеченных данных с помощью..
Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать
С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..
Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv)
Автор : Бар Лайт
Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..
Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята?
В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..
Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение.
В этом процессе мы будем использовать неконтролируемое обучение, чтобы..
Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm.
Оглавление
Глоссарий
I. Новый пакет
1.1 советы по инициализации..
Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных.
Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..