WedX - журнал о программировании и компьютерных науках

Публикации по теме 'reinforcement-learning'


Обучение с подкреплением
Обучение с подкреплением (RL) — это тип машинного обучения, который включает в себя обучение агента принимать решения в среде, взаимодействуя с ней и получая обратную связь в виде вознаграждений или штрафов. Алгоритмы RL учатся методом проб и ошибок и стремятся максимизировать общее вознаграждение, получаемое с течением времени. Среда, агент и система вознаграждения составляют три части алгоритма RL. Агент получает информацию от окружающей среды, которая является внешней системой, в..

Под присмотром и без присмотра, под присмотром и подкреплением, о боже!
Или как подготовиться к апокалипсису машинного обучения В наше время все мы знаем, что компьютеры захватят мир. Если не полностью, то наше общество, по крайней мере, будет сильно полагаться на них. Итак, чтобы дать вам представление о нашем будущем диктате — я имею в виду руководителей, вот руководство для начинающих по четырем распространенным методам машинного обучения: обучение с учителем, обучение без учителя, обучение с полуучителем и обучение с подкреплением. Какое тебе дело?..

Это не должно быть просто чувство неуверенности, когда вы имеете в виду исследование как неуверенность (негатив)…
Это не должно быть просто чувство неуверенности, когда вы имеете в виду исследование как неопределенность (отрицательное) и эксплуатацию как уверенность (положительное). В психологии хороши все эмоции, как положительные, так и отрицательные. Чувство неуверенности — это всего лишь частный (отрицательный) случай № 1 исследования (действия) ради исследования (целевого состояния) — эмоции чего-то нового и удивительного, с положительным или отрицательным вознаграждением. Есть еще №2,..

Типы машинного обучения
В этой статье представлены типы машинного обучения и используемые методы. Машинное обучение включает в себя показ большого объема данных машине, чтобы она могла учиться и делать прогнозы, находить закономерности или классифицировать данные. Три типа машинного обучения: контролируемое, неконтролируемое и обучение с подкреплением. Эти алгоритмы машинного обучения помогают решать различные бизнес-задачи, такие как регрессия, классификация, прогнозирование, кластеризация, ассоциации и..

Обучение с подкреплением.
Исследование и письмо Яшванта - ISA, Manipal. Что такое обучение с подкреплением Обучение с подкреплением - это метод обучения машинному обучению. Он состоит из Агента (того, что может воспринимать свое окружение и принимать решения), фактического окружения и интерпретатора. Обучение с подкреплением используется для обучения модели выполнению последовательности действий. Это полезно, когда мы хотим обучить модели, чтобы превзойти человеческий уровень компетенции, или если действие..

Учебное пособие NeurIPS 2020 по автономному RL  — сводная статья
Это краткая сводная статья по учебнику NeurIPS 2020 по автономному RL , представленному Авиралом Кумаром и Сергеем Левиным. Все содержание этой статьи взято из обучающего видео, слайдов и веб-сайта. Более подробную информацию можно найти по следующим ссылкам, Официальный сайт учебника Обучающие слайды Обучающее видео, часть 1 и Обучающее видео, часть 2 Представляем RL — обучение с подкреплением Основная цель обучения с подкреплением — обучить агента , способного..

Посадка ракеты с помощью простого обучения с подкреплением
Посадка ракеты с помощью простого обучения с подкреплением Что я узнаю? В этой статье мы собираемся создать простой агент обучения с подкреплением (RL), который сможет успешно приземлить ракету в видеоигре Lunar Lander. RL - обширная тема, и я не собираюсь здесь подробно останавливаться на достигнутом. Вместо этого цель этого проекта - запачкать руки практическим обучением с подкреплением и прочувствовать его. Более подробные статьи по различным темам будут опубликованы в будущем...

Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]