WedX - журнал о программировании и компьютерных науках

Публикации по теме 'reinforcement-learning'


Обучение с подкреплением: Часть 4: Поиск оптимального решения — Динамическое программирование
В предыдущем блоге мы узнали, как вычислить значение состояния и функцию значения действия. Используя эти функции, мы можем оценить, насколько хороша политика. Мы видели в предыдущем блоге, что · Используя уравнение Беллмана, мы можем получить N уравнений для решения переменной N, но в реальном мире N может быть огромным (например, в шахматах), и для его вычисления потребуются годы. · Оптимальная политика не может быть рассчитана с нелинейной настройкой. Решение — динамическое..

Заметки о модели глубокого подкрепления для абстрактного обобщения - Исследование Salesforce AI (документ…
Оригинал статьи принадлежит Ромену Паулюсу, Каймингу Сюнгу и Ричарду Сошеру из Salesforce.com. Первоначальное название - Глубоко усиленная модель для абстрактного обобщения . Он был опубликован 19 мая 2017 года. Оригинал статьи можно найти здесь . Оригинальная запись в блоге автора о статье находится здесь . Постановка проблемы, которая движет бумагой, не нова, но все же важна, поскольку становится все более актуальной: Большая тенденция : контент создается каждый день...

Смотрите: Введение в обучение с подкреплением
Обучение с подкреплением (RL), область последовательного принятия решений, значительно эволюционировала за последние несколько лет, достигнув сверхчеловеческой производительности при решении сложных настольных игр, 2D-игр Atari и 3D-игр (Doom, Quake, StarCraft). Но это не просто игры, это решение произвольных задач с помощью действительно общих алгоритмов. Полностью посвятив себя этому поиску, существует огромное исследовательское сообщество, которое занимается конечной целью создания..

[RL] Программно интерпретируемое обучение с подкреплением (ICML18)
Ссылка на статью: 1804.02477.pdf (arxiv.org) Ключевые идеи В документе предлагается новая структура обучения с подкреплением, называемая программно интерпретируемым обучением с подкреплением (PIRL). Цель состоит в том, чтобы изучить политики, которые представлены на высокоуровневом, понятном человеку языке программирования, а не на непрозрачных нейронных сетях. PIRL позволяет указать эскиз политики, который ограничивает пространство для поиска программ. Это действует как..

Обучение с подкреплением: CPU или GPU?
Когда следует использовать процессор, а когда — графический процессор для подкрепления и других алгоритмов обучения? В следующем посте будут обсуждаться преимущества и недостатки различных подходов. Во-первых, дается общий обзор CPU GPU и TPU. . Во-вторых, будут обсуждаться архитектуры и реализации Q-Learning и DQN с OpenAI Taxi Environment. Наконец, можно найти сравнение и заключение. Будут обсуждаться следующие моменты: Различия между GPU и CPU. Когда и как его использовать?..

Обучение с подкреплением с A3C
Мотивация этой статьи проистекает из недавнего соревнования, в котором я участвовал, где нам нужно было обучить модель в игре Atari SpaceInvaders и максимально увеличить количество очков, набранных агентом за 100 запусков. Учитывая, что это был мой первый опыт обучения с подкреплением, я начал с Deep Q Networks и его вариаций. Хотя результат теста был очень приятным для новичка, он был довольно нестабильным и требовал значительного количества тренировок, чтобы получить хороший..

Насколько жадным должен быть ваш алгоритм подкрепления? Рабочий пример на Ruby
Это часть постов по изучению алгоритма подкрепления. Часть 1 доступна здесь: Напишите на Ruby ИИ, который не проиграет в крестики-нолики 5 декабря OpenAI и DeepMind выпустили свою платформу для более динамичной среды обучения с подкреплением. http… medium.com Представляем бандитскую машину с К-образным вооружением Итак, когда вы знаете основы построения простого ИИ, который учится на действиях, что дальше? Мы должны взглянуть на..

Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]