Публикации по теме 'reinforcement-learning'
Написание среды RL в JAX
Как запустить CartPole со скоростью 1,25 миллиарда шагов в секунду
JAX — это относительно новая и захватывающая среда машинного обучения с открытым исходным кодом. Вот некоторые из замечательных особенностей:
Скомпилирован с использованием XLA, поэтому он может поддерживать процессоры, графические процессоры и TPU. С помощью функции jit он может точно в срок компилировать несколько операций и оптимизировать график вычислений. Автоматическая векторизация через vmap ...
Изучите AWS DeepRacer (хитрости по оптимизации функции вознаграждения)
Представьте себя родителем, проводящим своего ребенка через жизненные трудности и наблюдающим его невероятный рост. А теперь представьте себе такое же путешествие в области искусственного интеллекта через обучение с подкреплением. Как и при воспитании ребенка, агент ИИ учится методом проб и ошибок, что в конечном итоге приводит к умопомрачительным результатам.
В этой статье мы узнаем о функциях вознаграждения AWS DeepRacer и о том, как оно работает на самом деле, а также развеем..
Четыре политических класса обучения с подкреплением
Четыре политических класса обучения с подкреплением
Исчерпывающая классификация стратегий решения для обучения с подкреплением
Политика обучения с подкреплением (RL) окутана определенной мистикой. Проще говоря, политика π: s → a - это любая функция, которая возвращает возможное действие для проблемы. Ни меньше, ни больше. Например, вы можете просто выполнить первое действие, которое придет в голову, выбрать действие наугад или запустить эвристику. Однако то, что делает RL..
Обучение с подкреплением для начинающих
Как новичок, когда я начал погружаться в RL, мне потребовалось некоторое время, чтобы понять, что происходит под капотом, поскольку это, как правило, отличается от традиционных методов машинного обучения. Этот пост поможет вам понять компоненты алгоритма RL и то, как мы можем использовать их для решения проблемы RL.
Проблема RL состоит из агента и среды . У агента есть набор действий на выбор. Агент взаимодействует со средой, выбирая действия. Разработанная среда должна..
Обучение с подкреплением — что вознаграждает вас, делает вас сильнее
Обучение с подкреплением относится к обучению методом проб и ошибок , а не к обучению в явном виде, чтобы максимизировать вероятность наилучших действий. Как и любое другое хорошее определение, давайте разберем это слово. «Усилить» означает усилить/дополнить что-либо. Итак, если ученик прилагает много усилий, чтобы улучшить свои оценки, является ли это поощрением? Ну, зависит. Технически RL предполагает получение агентом (нашим героем) количественного вознаграждения в качестве кодировки..
Исследовательские работы о разработках в обучении с подкреплением, часть 2
Глубокое обучение с подкреплением с использованием низкоразмерного фильтра наблюдения для визуальной сложной видеоигры ( arXiv )
Автор: Виктор Аугусто Кич , Хуниор Коста де Хесус , Рикардо Бедин Грандо , Алиссон Энрике Коллинг , Габриэль Винисиус Хейслер , Родриго да Силва Герра
Аннотация : Глубокое обучение с подкреплением (DRL) принесло большие достижения с тех пор, как было предложено, включая возможность обработки необработанных входных данных зрения. Однако..
Политика: основы обучения с подкреплением
Проще говоря, политика — это функция, которая указывает агенту, какое действие следует предпринять в любом заданном состоянии. Таким образом, очевидно, чем лучше политика, которую следует нашему агенту, тем быстрее и больше вознаграждение получит наш агент. Но проблема здесь в том, как агент узнает, какой политике следовать?
Давайте возьмем самый популярный пример в мире ИИ, мировую проблему Wumpus, но в упрощенной версии. Итак, у нас есть мир с сеткой 4x4, в котором есть коробка, полная..
Новые материалы
Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать
С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..
Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv)
Автор : Бар Лайт
Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..
Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята?
В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..
Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение.
В этом процессе мы будем использовать неконтролируемое обучение, чтобы..
Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm.
Оглавление
Глоссарий
I. Новый пакет
1.1 советы по инициализации..
Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных.
Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..
ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..