- Обнаружение вне распределения с помощью моделей на основе энергии (arXiv)
Автор : Свен Эльфлейн
Аннотация :: Сегодня глубокое обучение все чаще применяется в ситуациях, критических с точки зрения безопасности, таких как автономное вождение и медицинская диагностика. Несмотря на успех, поведение и надежность глубоких сетей еще не полностью изучены, что создает значительный риск. В частности, исследователи недавно обнаружили, что нейронные сети слишком уверены в своих прогнозах даже на данных, которые они никогда раньше не видели. Для решения этого вопроса в литературе можно выделить два подхода. Один учитывает неопределенность в прогнозах, а второй оценивает базовую плотность обучающих данных, чтобы решить, близок ли данный ввод к обучающим данным, и, таким образом, сеть может работать так, как ожидалось. В этом тезисе мы исследуем возможности EBM в задаче настройки распределения обучающих данных для обнаружения входных данных вне распределения (OOD). Мы обнаружили, что в большинстве наборов данных EBM по своей природе не превосходит другие средства оценки плотности при обнаружении данных OOD, несмотря на их гибкость. Таким образом, мы дополнительно исследуем влияние наблюдения, уменьшения размерности и архитектурных модификаций на производительность EBM. Кроме того, мы предлагаем сеть Energy-Prior Network (EPN), которая позволяет оценивать различные неопределенности в EBM для классификации, устраняя разрыв между двумя подходами к решению проблемы обнаружения OOD. Выявлена связь между концентрационными параметрами распределения Дирихле и совместной энергией в ЭЛМ. Кроме того, это позволяет проводить оптимизацию без удерживаемого набора данных OOD, сбор которого может быть недоступен или дорогостоящим в некоторых приложениях. Наконец, мы эмпирически демонстрируем, что сеть Energy-Prior (EPN) способна обнаруживать входные данные OOD, сдвиги наборов данных и враждебные примеры. Теоретически EPN предлагает благоприятные свойства для асимптотического случая, когда входные данные далеки от обучающих данных.
2. Сокращение, повторное использование, переработка: композиционная генерация с моделями диффузии на основе энергии и MCMC (arXiv)
Автор: Йилун Ду, Конор Дуркан, Робин Штрудель, Джошуа Б. Тененбаум, Сандер Дилеман, Роб Фергус, Яша Золь-Дикштейн, Арно Дусе, Уилл Гратвол.
Аннотация: С момента своего появления диффузионные модели быстро стали преобладающим подходом к генеративному моделированию во многих областях. Их можно интерпретировать как изучение градиентов изменяющейся во времени последовательности функций плотности логарифмической вероятности. Эта интерпретация мотивировала руководство на основе классификаторов и без классификаторов в качестве методов постфактум контроля моделей распространения. В этой работе мы основываемся на этих идеях, используя интерпретацию моделей диффузии на основе оценок, и исследуем альтернативные способы формирования, изменения и повторного использования моделей диффузии для задач, связанных с композиционным созданием и руководством. В частности, мы исследуем, почему определенные типы композиций не работают с использованием современных методов, и представляем ряд решений. Мы заключаем, что сэмплер (а не модель) несет ответственность за эту неудачу, и предлагаем новые сэмплеры, вдохновленные MCMC, которые обеспечивают успешное композиционное генерирование. Кроме того, мы предлагаем основанную на энергии параметризацию моделей диффузии, которая позволяет использовать новые композиционные операторы и более сложные пробоотборники с поправкой на Метрополис. Интересно, что мы обнаружили, что эти сэмплеры приводят к заметным улучшениям в композиционной генерации для широкого круга задач, таких как моделирование ImageNet на основе классификатора и композиционная генерация текста в изображение.