Обучение с подкреплением (RL), область последовательного принятия решений, значительно эволюционировала за последние несколько лет, достигнув сверхчеловеческой производительности при решении сложных настольных игр, 2D-игр Atari и 3D-игр (Doom, Quake, StarCraft). Но это не просто игры, это решение произвольных задач с помощью действительно общих алгоритмов. Полностью посвятив себя этому поиску, существует огромное исследовательское сообщество, которое занимается конечной целью создания «общего искусственного интеллекта».
[Статья по теме: Обучение с подкреплением против дифференцируемого программирования]
В этом выступлении будет представлен обзор основных достижений, парадигм, формулировок и препятствий в рамках RL, чтобы вы могли быстро понять, где в настоящее время находится поле и куда оно движется.