Публикации по теме 'reinforcement-learning'
Множество разновидностей обучения с подкреплением
Почему-то у меня сложилось неправильное представление о том, что обучение с подкреплением (RL) — это все о контроле. Наверное, потому, что мирянам обычно объясняют в терминах кнута и пряника. Действительно, многие методы RL направлены на улучшение политик, то есть на обучение действию более эффективно/выгодно в конкретной ситуации. Тем не менее, есть также достаточно тех, кто предсказывает (оценочные) преимущества пребывания в конкретной ситуации.
Еще одно заблуждение состоит в том,..
Альфа-генерация (прогнозирование движения цен) и торговля с использованием обучения с подкреплением - Кирнс…
« Это не из легких »
Майкл Кернс и Юрий Невмывака опубликовали немало статей на тему алгоритмической торговли и имеют значительное присутствие как в академических кругах, так и в финансовой индустрии (алгоритм поиска ликвидности Aqua от JP Morgan, который выполняет сделки по всему миру на 60 биржах, 30 темных пулов и 50 стран частично основан на их алгоритме RL).
В части этой статьи ( 4 - Прогнозирование движения цены на основе состояния книги заказов ) обсуждается потенциал..
Обучение с подкреплением Глава 5 — Методы Монте-Карло (Часть 2: Контроль Монте-Карло)
Глава 5 Серия:
Часть 1 — Прогноз Монте-Карло Часть 2 — Контроль Монте-Карло Часть 3 — MC без изучения стартов Часть 4 — Вне политики посредством выборки по важности
Код: https://github.com/nums11/rl
В предыдущей статье мы узнали о методах Монте-Карло, о том, чем они отличаются от методов динамического программирования и как их можно использовать для оценки значений состояния для политики. В этой статье мы узнаем, как их можно использовать для оценки ценности действий, а..
Технический взгляд на наших ботов на основе машинного обучения для видеоигр
Хотя мы уже выпустили сообщение в блоге с демонстрацией видео по Dota 2, у нас не было возможности подробно рассказать о технологии, над которой мы работаем, и о том, как мы используем машинное обучение для создания ИИ для видео. игры.
Dota 2 как среда RL
Мы внедрили ботов на основе машинного обучения для Dota 2, MOBA-игры, разработанной Valve для демонстрации наших систем обучения с подкреплением и имитационного обучения. Мы выбрали Dota 2, так как она доступна в Linux, имеет..
Основополагающая RL: решение марковского процесса принятия решений
Дорога к обучению с подкреплением
В первой части я обсудил некоторые основные концепции для создания основы для обучения с подкреплением (RL), такие как состояния Маркова, цепь Маркова и процесс принятия решений Маркова (MDP). Задачи обучения с подкреплением строятся поверх MDP.
Основы RL: состояния Маркова, цепь Маркова и процесс принятия решений по Маркову Путь к обучению с подкреплением towardsdatascience.com
MDP — это..
Временные различия с Python — «Первый алгоритм обучения с подкреплением на основе образцов»
Кодирование и понимание алгоритма TD(0) с использованием Python
Это продолжение моей предыдущей статьи:
Первые шаги в мире обучения с подкреплением с использованием Python Оригинальная реализация на Python того, как найти лучшие места в одном из фундаментальных миров подкрепления… в направлении datascience.com
В этой статье я хочу познакомить читателя с логикой алгоритма на основе примеров в Reinforcement Learning ( RL ). Для..
На 100% более быстрая среда обучения с подкреплением с Cygym
Более быстрая замена для тренажерного зала с помощью cygym
Любой, кто хоть немного занимается обучением с подкреплением, скорее всего, скажет вам, что он использовал пакет OpenAI’s Gym (ссылка ниже), и не зря! Это простой в использовании, расширяемый и хорошо поддерживаемый пакет, который снижает значительную часть накладных расходов при настройке проекта RL.
Однако при выполнении крупномасштабного проекта с минимальными ресурсами важно, чтобы каждая капля производительности была..
Новые материалы
Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать
С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..
Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv)
Автор : Бар Лайт
Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..
Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята?
В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..
Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение.
В этом процессе мы будем использовать неконтролируемое обучение, чтобы..
Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm.
Оглавление
Глоссарий
I. Новый пакет
1.1 советы по инициализации..
Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных.
Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..
ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..