Лаборатория искусственного интеллекта Criteo рада представить PRINCE (PRomoting INvariance для классификации просмотров в разных средах), внедистрибутивную вызов по обобщению в сотрудничестве с ECML-PKDD'22, которая продлится до 6 июня 2022 года.
Уже зарегистрированные участники более месяца боролись за изучение моделей с максимально возможной эффективностью обобщения в средах, которые не использовались при обучении.
Обобщение вне распределения
Алгоритмы машинного обучения в настоящее время используются для широкого спектра приложений, например, для обнаружения заболеваний, отбора студентов или выделения кредитов. Это может быть очень проблематично, если в их механизмах прогнозирования присутствуют предубеждения. В частности, успех методов глубокого обучения зависит от ключевого предположения о том, что распределения обучающих и тестовых данных аналогичны. Однако на практике это не всегда так, и различные исследования показали, что глубокие нейронные сети не работают в настройках Out-of-Distribution (OOD). В OOD могут изменяться маргинальные распределения P(X), а также апостериорные распределения P(Y|X).
Наглядный пример: верблюды против коров
Известный пример — задача верблюд против коров: представьте себе модель, пытающуюся отличить верблюдов от коров, которой дается обучающий набор, содержащий изображения коров на фоне травы и верблюдов на фоне пустыни. Неосведомленная модель почти всегда учится использовать фон в качестве прогностического признака, несмотря на то, что он является результатом ложной корреляции. Если такую модель протестировать на отдельном тестовом наборе, содержащем изображения верблюдов на фоне травы и коров в пустыне, ее производительность будет намного хуже, чем на обучающем наборе.
Наглядный пример: положительный отклик на рекламу
Чтобы проиллюстрировать понятия сдвигов в распределении (сдвиги корреляции и разнообразия) в контексте онлайн-рекламы, мы представляем игрушечный пример, в котором мы наблюдаем 6 человек, происходящих из двух разных доменов (A и B), и все они описываются двумя простыми особенности (X): (1) тот факт, что они носят шляпу или нет, и (2) цвет их рубашки.
Интересующий результат (который может соответствовать клику по рекламному баннеру, посещению веб-сайта и т. д.) является бинарным и обозначается переменной Y.
В этом иллюстративном примере мы предполагаем, что система такова, что только люди без головных уборов отвечают положительно (примерно в 2/3 случаев).
Для обеих областей мы представляем таблицу, суммирующую совместную вероятность P(X) и условную вероятность P(Y=1|X), оцененную эмпирически на доступной выборке каждой совокупности.
В домене A все люди без головных уборов носят оранжевые рубашки (ложная корреляция), в результате чего неосведомленная модель узнает, что ношение оранжевой рубашки предсказывает положительный результат. — что в общем случае не так.
В домене B людей в оранжевых рубашках меньше, и все они носят шляпы(изменение разнообразия), напротив, все люди без головных уборов носят синие рубашки. (ложная корреляция), из-за чего неосведомленная модель узнает, что ношение синей рубашки предсказывает положительный результат(смещение корреляции).
Единственный «неизменный» признак — это тот, для которого связанная условная вероятность одинакова в обоих доменах: признак «шляпы». Это действительно единственная по-настоящему прогностическая функция в нашем примере, обнаружение которой затруднено из-за наличия как разнообразия, так и сдвигов корреляции между областями A и B.
Обзор испытаний
Данные. Наборы обучающих и тестовых данных состоят из категориальных признаков, собранных на основе трассировки компьютерной рекламы. Записи этих наборов данных были сгенерированы из двенадцати различных сред (три в процессе обучения и девять в тесте), между которыми существуют интересные сдвиги (сдвиг ковариации/разнообразия и сдвиг концепции/корреляции), что усложняет эту задачу для существующих методов.
Задача. Целью задания является использование обучающих данных (сгенерированных из двух разных сред) для изучения надежной функции прогнозирования, которая сопоставляет функции (X) с двоичной меткой. (Y), и хорошо обобщается для условий, которые не наблюдались при обучении. Претенденты могут отправлять до тридцати прогнозов в день и получать соответствующие потери в проверочной подвыборке тестового набора данных. Чтобы получить наилучшее окончательное решение для тестового набора данных, крайне важно использовать эту потерю проверки в рамках эффективной стратегии выбора модели.
Оценка
Метрика
Для количественной оценки эффективности изученных моделей в разных средах мы используем нормализованную перекрестную энтропию (NCE): (H(Y|f(X)) — H(Y))/H(Y), с f предиктором и H энтропией Шеннона. Эту метрику можно интерпретировать как величину энтропии меток, объясняемую моделью, и она более переносима в разных средах, чем обычная бинарная кросс-энтропия, поскольку она учитывает различия в частоте положительных меток.
Вычисления NCE на этапе разработки и на заключительном этапе
В исходном наборе данных присутствует 12 различных сред, из которых 3 доступны в обучающих данных. Единая (проверочная) среда из 9 ранее не встречавшихся сред будет использоваться для расчета производительности OOD на этапе «Разработка», что позволит претендентам выбрать предпочтительные модели для финальной фазы. Другая одиночная (тестовая) среда будет использоваться для вычисления производительности OOD на «финальном» этапе (см. Приз за обобщение ниже).
Кроме того, на заключительном этапе будет вычислено и сообщено о наихудшем NCE среди оставшихся, никогда не встречавшихся сред (см. Приз за устойчивость ниже).
Таблицы лидеров
Первые/вторые/третьи места в финальном списке лидеров (рассчитанные по производительности в финальной, никогда не появлявшейся тестовой среде) будут награждены призами:
где ft — это модель, представленная командой t, Xtest и ytest, функции и метки большой удерживаемой среды, а NCE — нормализованная кросс-энтропия.
Чтобы поощрить решения, которые хорошо обобщаются во многих неизвестных средах, специальный приз за надежность будет также вручен команде с наилучшей худшей производительностью в оставшихся тестовых средах:
где Dtest — набор оставшихся, никогда не виденных сред.
Примечание по выбору модели
Поскольку производительность сильно зависит от выбора гиперпараметров, стратегия выбора модели, вероятно, будет иметь решающее значение, см., например, Гулраджани и др. (2020) и тест DomainBed.
Таким образом, претенденты смогут запрашивать NCE для любой отправленной модели в невиданной ранее среде проверки тридцать раз в день и смогут соответствующим образом изменить свое решение.
Ссылки
- Ишаан Гулраджани и Давид Лопес-Пас. В поисках утраченного обобщения домена. arXiv:2007.01434, июль 2020 г.
- Йоав Вальд, Амир Федер, Даниэль Гринфельд и Ури Шалит. О калибровке и обобщении вне предметной области. В Нейрипс, 2021 г.