WedX - журнал о программировании и компьютерных науках

Публикации по теме 'reinforcement-learning'


Множество разновидностей обучения с подкреплением
Почему-то у меня сложилось неправильное представление о том, что обучение с подкреплением (RL) — это все о контроле. Наверное, потому, что мирянам обычно объясняют в терминах кнута и пряника. Действительно, многие методы RL направлены на улучшение политик, то есть на обучение действию более эффективно/выгодно в конкретной ситуации. Тем не менее, есть также достаточно тех, кто предсказывает (оценочные) преимущества пребывания в конкретной ситуации. Еще одно заблуждение состоит в том,..

Альфа-генерация (прогнозирование движения цен) и торговля с использованием обучения с подкреплением - Кирнс…
« Это не из легких » Майкл Кернс и Юрий Невмывака опубликовали немало статей на тему алгоритмической торговли и имеют значительное присутствие как в академических кругах, так и в финансовой индустрии (алгоритм поиска ликвидности Aqua от JP Morgan, который выполняет сделки по всему миру на 60 биржах, 30 темных пулов и 50 стран частично основан на их алгоритме RL). В части этой статьи ( 4 - Прогнозирование движения цены на основе состояния книги заказов ) обсуждается потенциал..

Обучение с подкреплением Глава 5 — Методы Монте-Карло (Часть 2: Контроль Монте-Карло)
Глава 5 Серия: Часть 1 — Прогноз Монте-Карло Часть 2 — Контроль Монте-Карло Часть 3 — MC без изучения стартов Часть 4 — Вне политики посредством выборки по важности Код: https://github.com/nums11/rl В предыдущей статье мы узнали о методах Монте-Карло, о том, чем они отличаются от методов динамического программирования и как их можно использовать для оценки значений состояния для политики. В этой статье мы узнаем, как их можно использовать для оценки ценности действий, а..

Технический взгляд на наших ботов на основе машинного обучения для видеоигр
Хотя мы уже выпустили сообщение в блоге с демонстрацией видео по Dota 2, у нас не было возможности подробно рассказать о технологии, над которой мы работаем, и о том, как мы используем машинное обучение для создания ИИ для видео. игры. Dota 2 как среда RL Мы внедрили ботов на основе машинного обучения для Dota 2, MOBA-игры, разработанной Valve для демонстрации наших систем обучения с подкреплением и имитационного обучения. Мы выбрали Dota 2, так как она доступна в Linux, имеет..

Основополагающая RL: решение марковского процесса принятия решений
Дорога к обучению с подкреплением В первой части я обсудил некоторые основные концепции для создания основы для обучения с подкреплением (RL), такие как состояния Маркова, цепь Маркова и процесс принятия решений Маркова (MDP). Задачи обучения с подкреплением строятся поверх MDP. Основы RL: состояния Маркова, цепь Маркова и процесс принятия решений по Маркову Путь к обучению с подкреплением towardsdatascience.com MDP — это..

Временные различия с Python  — «Первый алгоритм обучения с подкреплением на основе образцов»
Кодирование и понимание алгоритма TD(0) с использованием Python Это продолжение моей предыдущей статьи: Первые шаги в мире обучения с подкреплением с использованием Python Оригинальная реализация на Python того, как найти лучшие места в одном из фундаментальных миров подкрепления… в направлении datascience.com В этой статье я хочу познакомить читателя с логикой алгоритма на основе примеров в Reinforcement Learning ( RL ). Для..

На 100% более быстрая среда обучения с подкреплением с Cygym
Более быстрая замена для тренажерного зала с помощью cygym Любой, кто хоть немного занимается обучением с подкреплением, скорее всего, скажет вам, что он использовал пакет OpenAI’s Gym (ссылка ниже), и не зря! Это простой в использовании, расширяемый и хорошо поддерживаемый пакет, который снижает значительную часть накладных расходов при настройке проекта RL. Однако при выполнении крупномасштабного проекта с минимальными ресурсами важно, чтобы каждая капля производительности была..

Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]