#CVPR2022 Учебное пособие «Неофициальные» протоколы
Следующее эссе представляет собой своего рода протокол неофициальной встречи, в котором записаны (на высоком уровне) обсуждения, представленные на конференции IEEE по компьютерному зрению и распознаванию образов Denoising Diffusion-based Generative Modeling: Foundations and Applications Tutorial. (Да, я знаю, что это слишком много, мне потребовалось целых две минуты, чтобы напечатать это предложение.) Я записал эти заметки как участник и, учитывая, насколько выдающимся оказался семинар, хотел поделиться с сообществом в качестве вклада в онлайн. участники. Если кто-либо из выступающих желает, чтобы я удалил этот контент, пожалуйста, не стесняйтесь обращаться ко мне по своему усмотрению. Обратите внимание, что изображения включены с разрешения оригинальных докладчиков. Эти выдержки из изображений представляют собой слайды этих авторов, как и большинство тем для обсуждения, представленных здесь, которые в некоторых случаях были записаны почти дословно, а в других случаях значительно сокращены. Все ошибки в грамматике и содержании сделаны этим автором, все материалы предоставлены участниками оригинального семинара или предыдущей работой. Мы отметим несколько цитат рядом с выдержками из слайдов, для дополнительных релевантных цитат также будет предоставлена ссылка на домашнюю страницу учебника в ближайшее время.
Да, мелкий шрифт закончен, здесь представлены протоколы неофициальных встреч для вашей эрудиции и развлечения. Наслаждаться.
Генеративное моделирование на основе шумоподавления: основы и приложения
Первоначально представлено в живых презентациях Карстеном Крайсом, Руици Гао и Арахом Вахдатом (сотрудники Nvidia и Google AI).
Ссылка на домашнюю страницу учебника
Общий подход к генеративным моделям заключается в том, что обучающие данные следуют некоторому базовому распределению, и при генерации мы пытаемся сделать выборку из этого распределения для создания уникальных композиций, которые соответствуют распределениям обучающих данных. Расширения генеративного моделирования могут включать в себя обучение представлению, в котором семантические признаки извлекаются только с ограниченной маркировкой. Генеративные модели также могут служить художественными инструментами.
Модели шумоподавления (DDM) — это новая структура, которая, вероятно, произведет революцию в генеративном глубоком обучении в ближайшем будущем. Как мы опишем ниже, модели диффузии шумоподавления могут обеспечить более высокие уровни «сверхвысокого разрешения» и лежат в основе новых платформ генераторов преобразования текста в изображение, как это было продемонстрировано OpenAI «Dall-E2» или, возможно, еще более впечатляющие модели Google «Imagen».
Часть 1. Шумоподавление вероятностных моделей диффузии
По материалам презентации Араша Вахдата
В широком смысле обучение моделей шумоподавления следует за прямым и обратным процессом шумоподавления. В процессе прямой «диффузии» к входным обучающим изображениям постепенно добавляется шум. В процессе обратного шумоподавления модель учится генерировать данные посредством последовательного и итеративного шумоподавления для восстановления незатененной формы.
Традиционно на каждом шаге добавления шума шум извлекается из гауссовского распределения, но среднее значение масштабируется до предыдущей версии изображения, а масштаб устанавливается на какое-то очень маленькое значение.
Поскольку этот тип перевода можно рассматривать как марковский процесс, можно получить совместное распределение коллективного набора изображений с прогрессивным шумом на основе условий каждого шага, которые в каждом случае следуют гауссовой прогрессии. Можно даже создать репараметризацию, используемую для пропуска вперед между этапами добавления шума, если это необходимо, путем кадрирования как произведение входного распределения, умноженного на диффузионное ядро, которое само по себе является гауссовой сверток.
Как показано здесь, каждое дополнительное приложение шума приводит к более гладкой версии входного распределения, делая распределение, генерирующее данные, более гладким и более гладким, с асимптотой, приближающейся к точке, где распределение рассеянных данных соответствует распределению шума.
Применение дискретизированного шума таким образом очень эффективно с точки зрения вычислений, особенно потому, что процесс обратного шумоподавления не требует доступа к промежуточным этапам, их можно вернуться назад для восстановления при обучении.
На первый взгляд, шумоподавляющие дистрибутивы следует считать неразрешимыми. Один из трюков заключается в том, что они становятся управляемыми, когда передние шумовые проходы применяются с очень небольшой шкалой дисперсии, что с дальнейшими предположениями, которые мы отметим ниже, позволит аппроксимировать само шумоподавление как распределение Гаусса. .
Таким образом, шумоподавление просто пытается предсказать среднее изображение, соответствующее более зашумленной версии самого себя, что проводится путем обучения архитектуры, которую мы называем «U-net», в которой мы представляем вложения времени и позиционных представлений узкому месту Блоки ResNet и слои самоконтроля для моделирования шума, обученного по меткам соответствующей выборки. Затем обучение этой сети прогнозирования шума будет перепрофилировано для представления модели шумоподавления для нашего синтеза генерации.
Этот процесс также можно описать как модель скрытых переменных, аналогичную тому, что изучается в вариационных автокодировщиках (VAE), поскольку мы отображаем данные в другое пространство, чтобы сделать шумоподавление податливым. Поскольку и зашумление, и шумоподавление аппроксимируются нормально, оценка результирующей KL-дивергенции имеет упрощенную форму.
Другой способ думать об этом состоит в том, что в процессе прямого распределения происходит через призму преобразования Фурье, а в области Фурье существуют различные ответы, связанные с входным изображением и шумом — вспомним, что преобразование Фурье гауссовой выборки равно сама гауссова. В процессе прямого шумоподавления высокочастотный контент искажается быстрее, а затем в процессе шумоподавления каждый шаг специализируется на восстановлении характеристик изображения с постепенно увеличивающейся частотой.
Часть 2. Генеративное моделирование на основе оценок с помощью дифференциальных уравнений
По материалам презентации Карстен Крайс
Хорошо, честное предупреждение, во второй части будет немного больше теории. Пора надеть очки для чтения.
Рассмотрим наш процесс прямой диффузии, но на этот раз приближающийся к пределу все меньшего и меньшего масштабирования шума. Мы реализуем кадрирование для сэмплирования, в котором мы можем рассматривать изображение после шума как функцию предыдущего изображения с сэмплированием, параметризованным как Бета, умноженное на размер временного шага, также известное как β(t)*Δt
, которое затем может пройти через разложение Тейлора. В бесконечно малом пределе мы можем заменить Δt на dt и получить эврику: мы установили дифференциальное уравнение, которое можно решить с помощью простого правила выборки и обновления, и, таким образом, мы представили наш процесс шумоподавления как стохастическое дифференциальное уравнение (СДЕ).
Хорошо, давайте вернемся на секунду. Кто из нас помнит дифференциальные уравнения, могу ли я увидеть поднятие рук? Хорошо, те, кто поднял руку, могут пропустить несколько шагов вперед.
Рассмотрим обыкновенное дифференциальное уравнение (ОДУ). Если мы не знаем x(t), но знаем dx/dt, в простых случаях мы можем получить аналитическое решение путем интегрирования. На практике обычно будет слишком сложно выполнить аналитическое интегрирование, но, к счастью, вместо этого мы можем выполнить численное интегрирование итеративно.
Расширяя до стохастического дифференциального уравнения, мы можем сформулировать решение как состоящее из двух аддитивных характеристик, коэффициента дрейфа и отдельного коэффициента диффузии, который вводит шум на каждом временном шаге. Через итерации член дрейфа будет «подтягивать» обновления к базовой модели, в то время как член диффузии будет привносить стохастичность. Этот тип аддитивного построения дрейфа/диффузии на самом деле является частным случаем более обобщенного построения стохастических дифференциальных уравнений.
Таким образом, у нас есть кадр SDE для процесса прямого введения шума, преобразуется ли он в обратное направление шумоподавления? Докладчик назвал удивительным результат Сонга и др., что на самом деле мы можем адаптироваться, просто добавив «функцию оценки» к члену дрейфа, чтобы реализовать процесс генерации данных на основе выборки шума для шумоподавления.
Это оставляет нас с вопросом о том, как мы получаем эту функцию оценки. Одна наивная идея может состоять в том, чтобы обучить нейронную сеть функции оценки, к сожалению, переменная qt(xt)
, которая является оценкой незначительно рассеянной плотности, сама по себе не является управляемым распределением. Предпочтительный метод известен как «сопоставление оценок с шумоподавлением» с небольшим и важным отличием: вместо этого, формируя условное распределение qt(xt|x0)
по отношению к отдельным точкам данных x0
, можно получить моделирование нейронной сети. И достаточно забавно, что после этого и еще нескольких шагов, которые не показаны, результирующие ожидания для условного предложения в конечном итоге приближаются к полному маргиналу, тому самому, который мы только что считали неразрешимым. Как насчет этого?
(В качестве дополнительного пояснения в поддержку этого доказательства, докладчик говорил довольно быстро, и я решил сделать несколько глотков кофе, так что да, не уследил за всем, включая те слайды, где он вывел три разных способа реализации сопоставление очков для стохастических дифференциальных уравнений.Вы знаете, человек не машина и т. д.)
Важное различие, которое можно учитывать при построении шумоподавления, связано с разницей между синтезом SDE и генеративным потоком вероятностей, поскольку SDE реализует стохастический вывод, а поток вероятностей представляет собой детерминированный тип синтеза. Благодаря переводу в детерминированную форму он позволяет использовать усовершенствованные и более быстрые решатели ОДУ и открывает двери для расширенных вариантов использования, таких как семантическая интерполяция между изображениями. Этот диффузионный режим можно рассматривать как своего рода непрерывный нормализующий поток, что делает его гораздо более масштабируемым (как при обучении на гигантских объемах данных), и докладчик отметил несколько различных типов решателей ОДУ, которые можно было бы применять к «непрерывно-временным решателям». ” кадрирование, в котором модели диффузии в основном изучают градиенты функции энергии.
(Традиционно модели, основанные на энергии, трудно обучать и требуют выборки из динамики Ланжевена, но здесь нам нужны только градиенты энергии, а не сама энергия, и так далее. Для максимальной производительности стохастическая форма синтеза все же может быть предпочтительнее. )
Часть 3. Усовершенствованные методы в моделях распространения: ускоренная выборка, условная генерация и не только
По материалам презентации Руци Гао
При сравнении диффузионных моделей с предшествующим уровнем техники для генеративного моделирования диффузионные модели демонстрируют превосходную производительность по сравнению с генеративно-состязательными сетями в отношении охвата и разнообразия режимов, а также превосходят вариационные автокодировщики в отношении качества выборок. Однако можно выявить важный компромисс, связанный с задержкой выборки синтеза.
Несколько направлений исследований связаны с выявлением ускорений выборки. Как мы можем продвигать вперед распространение? Как мы можем ускорить шумоподавление? Догоняющий GAN будет сигнализировать о том, что диффузионные модели можно считать подходящими для любого генеративного приложения.
Наивным способом ускорить шумоподавление может быть уменьшение количества временных шагов шумоподавления в синтезе (текущий уровень техники находится в диапазоне от 4 до 10 шагов), однако меньшее количество временных шагов приводит к ухудшению производительности. Докладчик отметил несколько типов стратегий, которые были рассмотрены вместо этого, в том числе добавление функций Фурье к входным данным U-сети для улучшения оценки логарифмического правдоподобия, применение немарковского процесса прямой диффузии, применение метода Эйлера для первого уравнения ОДУ, критическое демпфирование Диффузия Ланжевена (она же диффузия быстрого перемешивания) и диффузия на основе импульса. (Если вы не поняли ни слова из того, что я только что сказал, то нас двое.)
Чтобы попытаться ускорить распространение, докладчик отметил такие подходы, как применение GAN с шумоподавлением, преобразование обученной модели распространения во встраивание или предварительное обучение VAE для оценки скрытого пространства. (В каждом случае докладчик приводил цитаты из предыдущих работ, в которых эта тактика исследовалась более подробно.)
Докладчик подробно остановился на некоторых из этих продвинутых методов, которые почти всегда пролетали мимо головы этого автора, поэтому вместо них я представляю читателю здесь треугольник Пенроуза, потому что на него приятно смотреть.
Приложения
Хватит слов. Давайте позволим генеративным моделям говорить самим за себя. Здесь представлены несколько репрезентативных демонстраций для вашей эрудиции и развлечения.
Это все люди.
Рекомендации
Дхаривал П. и Николь А. Модели диффузии превзошли результаты синтеза изображений. В Ранзато, М., Бейгельзимер, А., Дофин, Ю., Лян, П., и Воан, Дж. В. (ред.), Достижения в системах обработки нейронной информации, том 34, стр. 8780 –8794. Curran Associates, Inc., 2021. URL-адрес https://proceedings.neurips.cc/paper/2021/file/49ad23d1ec9fa4bd8d77d02681df5cfa-Paper.pdf.
Крайс К., Гао Р. и Вахдат А. Генеративное моделирование на основе шумоподавления: основы и приложения, 2022 г. URL https://cvpr2022-tutorial-diffusion-models.github .ио/.
Мэн, К., Хе, Ю., Сонг, Ю., Сонг, Дж., Ву, Дж., Чжу, Дж.-Ю. и Эрмон, С. Sdedit: Управляемый синтез изображений и редактирование с помощью стохастического анализа дифференциальные уравнения, 2021. URL https://arxiv.org/abs/2108.01073.
Рамеш А., Дхаривал П., Никол А., Чу С. и Чен М. Генерация иерархического текстового условного изображения со скрытыми клипами, 2022. URL https:// arxiv.org/abs/2204.06125.
Сахария, К., Чан, В., Чанг, Х., Ли, К.А., Хо, Дж., Салиманс, Т., Флит, Д.Дж. и Норузи, М. Палитра: модели распространения изображений в изображения , 2021. URL https://arxiv.org/abs/2111.05826.
Сонг Ю., Золь-Дикштейн Дж., Кингма Д. П., Кумар А., Эрмон С. и Пул Б. Генеративное моделирование на основе оценок с помощью стохастических дифференциальных уравнений. В Международной конференции по образовательным представлениям, 2021 г. URL https://openreview.net/forum?id=PxTIG12RRHS.
Для дальнейшего чтения, пожалуйста, ознакомьтесь с Оглавлением, Рекомендациями по книгам и Рекомендациями по музыке. Подробнее об Automunge: automunge.com