WedX - журнал о программировании и компьютерных науках

Публикации по теме 'reinforcement-learning'


Написание среды RL в JAX
Как запустить CartPole со скоростью 1,25 миллиарда шагов в секунду JAX — это относительно новая и захватывающая среда машинного обучения с открытым исходным кодом. Вот некоторые из замечательных особенностей: Скомпилирован с использованием XLA, поэтому он может поддерживать процессоры, графические процессоры и TPU. С помощью функции jit он может точно в срок компилировать несколько операций и оптимизировать график вычислений. Автоматическая векторизация через vmap ...

Изучите AWS DeepRacer (хитрости по оптимизации функции вознаграждения)
Представьте себя родителем, проводящим своего ребенка через жизненные трудности и наблюдающим его невероятный рост. А теперь представьте себе такое же путешествие в области искусственного интеллекта через обучение с подкреплением. Как и при воспитании ребенка, агент ИИ учится методом проб и ошибок, что в конечном итоге приводит к умопомрачительным результатам. В этой статье мы узнаем о функциях вознаграждения AWS DeepRacer и о том, как оно работает на самом деле, а также развеем..

Четыре политических класса обучения с подкреплением
Четыре политических класса обучения с подкреплением Исчерпывающая классификация стратегий решения для обучения с подкреплением Политика обучения с подкреплением (RL) окутана определенной мистикой. Проще говоря, политика π: s → a - это любая функция, которая возвращает возможное действие для проблемы. Ни меньше, ни больше. Например, вы можете просто выполнить первое действие, которое придет в голову, выбрать действие наугад или запустить эвристику. Однако то, что делает RL..

Обучение с подкреплением для начинающих
Как новичок, когда я начал погружаться в RL, мне потребовалось некоторое время, чтобы понять, что происходит под капотом, поскольку это, как правило, отличается от традиционных методов машинного обучения. Этот пост поможет вам понять компоненты алгоритма RL и то, как мы можем использовать их для решения проблемы RL. Проблема RL состоит из агента и среды . У агента есть набор действий на выбор. Агент взаимодействует со средой, выбирая действия. Разработанная среда должна..

Обучение с подкреплением  — что вознаграждает вас, делает вас сильнее
Обучение с подкреплением относится к обучению методом проб и ошибок , а не к обучению в явном виде, чтобы максимизировать вероятность наилучших действий. Как и любое другое хорошее определение, давайте разберем это слово. «Усилить» означает усилить/дополнить что-либо. Итак, если ученик прилагает много усилий, чтобы улучшить свои оценки, является ли это поощрением? Ну, зависит. Технически RL предполагает получение агентом (нашим героем) количественного вознаграждения в качестве кодировки..

Исследовательские работы о разработках в обучении с подкреплением, часть 2
Глубокое обучение с подкреплением с использованием низкоразмерного фильтра наблюдения для визуальной сложной видеоигры ( arXiv ) Автор: Виктор Аугусто Кич , Хуниор Коста де Хесус , Рикардо Бедин Грандо , Алиссон Энрике Коллинг , Габриэль Винисиус Хейслер , Родриго да Силва Герра Аннотация : Глубокое обучение с подкреплением (DRL) принесло большие достижения с тех пор, как было предложено, включая возможность обработки необработанных входных данных зрения. Однако..

Политика: основы обучения с подкреплением
Проще говоря, политика — это функция, которая указывает агенту, какое действие следует предпринять в любом заданном состоянии. Таким образом, очевидно, чем лучше политика, которую следует нашему агенту, тем быстрее и больше вознаграждение получит наш агент. Но проблема здесь в том, как агент узнает, какой политике следовать? Давайте возьмем самый популярный пример в мире ИИ, мировую проблему Wumpus, но в упрощенной версии. Итак, у нас есть мир с сеткой 4x4, в котором есть коробка, полная..

Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]