1. Взвешивание на уровне выборки для многозадачного обучения со вспомогательными задачами (arXiv)

Автор: Эмили Грегуар, Хафиз Чаудхари, Сэм Вербовен.

Аннотация: Многозадачное обучение (MTL) может повысить эффективность обобщения нейронных сетей за счет совместного использования представлений со связанными задачами. Тем не менее, MTL также может снижать производительность из-за вредных помех между задачами. В недавней работе в качестве решения этой проблемы рассматривалась взвешивание потерь для конкретных задач. Однако существующие алгоритмы рассматривают задачи как атомарные, не имея возможности явно разделить вредные и полезные сигналы за пределами уровня задачи. С этой целью мы предлагаем SLGrad, алгоритм взвешивания на уровне выборки для многозадачного обучения со вспомогательными задачами. С помощью весов задач, специфичных для выборки, SLGrad изменяет распределение задач во время обучения, чтобы исключить вредные вспомогательные сигналы и увеличить полезные сигналы задач. Существенный прирост производительности при обобщении наблюдается на (полу-) синтетических наборах данных и общих контролируемых многозадачных задачах.

2. Сети Proto-Value: масштабирование обучения представлению с помощью вспомогательных задач (arXiv)

Автор: Джесси Фэйрбразер, Джошуа Гривз, Ришаб Агарвал, Шарлин Ле Лан, Росс Горошин, Пабло Самуэль Кастро, Марк Г. Беллемаре.

Аннотация: Вспомогательные задачи улучшают представления, изученные агентами глубокого обучения с подкреплением. Аналитически их эффект достаточно хорошо изучен; на практике, однако, их основное использование остается для поддержки основной цели обучения, а не в качестве метода обучения репрезентациям. Это, возможно, удивительно, учитывая, что многие вспомогательные задачи определены процедурно и, следовательно, могут рассматриваться как практически бесконечный источник информации об окружающей среде. Основываясь на этом наблюдении, мы изучаем эффективность вспомогательных задач для изучения богатых представлений, ориентируясь на настройку, в которой одновременно увеличивается количество задач и размер сети агента. Для этого выведем новое семейство вспомогательных задач, основанное на последующей мере. Эти задачи просты в реализации и имеют привлекательные теоретические свойства. В сочетании с подходящим правилом обучения вне политики результатом является алгоритм обучения представлению, который можно понимать как расширение протоценностных функций Mahadevan & Maggioni (2007) до глубокого обучения с подкреплением — соответственно, мы называем результирующий объект протоценностью. сети. С помощью серии экспериментов в Arcade Learning Environment мы продемонстрировали, что протоценностные сети обладают широким набором функций, которые можно использовать для достижения производительности, сравнимой с уже известными алгоритмами, используя только линейное приближение и небольшое количество (~ 4 М) взаимодействий с окружением. функция вознаграждения