Meta недавно представила свою новую исследовательскую работу о генерации T2V (текст-в-видео), где 76-кадровое видео генерируется для заданной текстовой подсказки.

Несмотря на то, что были предыдущие работы по генерации T2V, эта модель выделяется своим неконтролируемым механизмом обучения с использованием неразмеченных видеоданных. (без маркировки = только видеоданные и никаких текстовых данных. Это вызывает интересные вопросы о схемах оценки, используемых в выходных видео), хотя в нем используются помеченные данные преобразования текста в изображение. Обучение и точная настройка модели без размеченных видеоданных позволили авторам использовать большие общедоступные наборы видеоданных и использовать тот факт, что для неконтролируемого обучения чем больше данных, тем выше производительность большой/большой модели.

Итак, как они достигают такого высокого разрешения и богатого контента фантастических видео без каких-либо помеченных данных? Серьезно, собака летит в человеческом плаще в видео высокого качества для подсказки «Собака в костюме супергероя с красным плащом летит по небу». Они делают это, создавая вложения изображений из вложений текста (из входного текста) с помощью проверенной и эффективной модели Prior, DALLE-2. Подробнее об этом в следующих разделах статьи. Они эффективно используют эти вложения изображений для создания вложений видео благодаря своей уникальной архитектуре. (Вложения = не совсем полностью разработанные векторы заданных входных данных, но эти векторы несут полезную информацию и работают как хорошее представление.)

Другое преимущество этой модели, как утверждается в документе, заключается в том, что их модель «псевдо-3D, основанная на пространственно-временной диффузии» (не сбивайтесь с толку этим термином, мы разберем его по ходу дела). Архитектура ускоряет процесс обучения, а также предоставляет более качественную временную информацию по сравнению с другими существующими моделями на основе диффузии для создания видео. Прежде чем понять, как это делается, давайте взглянем на его архитектуру.

Архитектура:

Архитектура модели Make-A-Video состоит из модели типа U-Net (Prior-Decoder), за которой следуют несколько других пространственно-временных слоев, которые используются намного позже в конвейере для увеличения разрешения получаемых видео.

Я собираюсь абстрагироваться от трех основных компонентов, формирующих их архитектуру, и попытаться обобщить статью как можно лучше, надеясь, что это даст достаточно информации пользователю, который еще не читал статью.

Три компонента: предварительная версия, декодер и сети сверхвысокого разрешения.

Основной поток архитектуры

входной текст(x) -> Предыдущий(P) -> Декодер(D) -> Суперразрешение(SR_l, SRh) -> Вывод(y)

Запомните этот поток, он значительно облегчит вам понимание этой статьи.

Генерация видео (вывод модели) для заданного текстового ввода состоит из двух этапов: Обучение и Точная настройка.

Целью этапа обучения является создание изображения с высоким разрешением при вводе текста, поэтому архитектура на этом этапе представляет собой модель генерации T2I (текст-в-изображение). Подробнее об этом в следующем разделе.

Целью этапа тонкой настройки является изучение набора видеоданных для захвата временной информации о видео. На этом этапе вносятся несколько архитектурных изменений, чтобы включить «информацию о временном измерении» видео, которое имеет дополнительное временное измерение по сравнению с размером изображения на этапе обучения.

Во время тренировки используются все три компонента. Во время тонкой настройки Prior(P) остается позади. Теперь давайте посмотрим, что представляет собой каждый из этих компонентов и чем они отличаются на обеих фазах:

Обучение и архитектура

Все компоненты — P, D, SR — являются моделями на основе диффузии. Модель, основанная на диффузии, представляет собой генеративную модель, основанную на постепенном процессе зашумления входного изображения и постепенном восстановлении исходного изображения из зашумленного изображения. Было доказано, что такой генеративный процесс полезен при создании изображений и других задачах, связанных со зрением. Обратитесь к этой статье для получения дополнительной информации о моделях распространения (Отказ от ответственности — подход, ориентированный на сложную математику, хотя и интересный). Таким образом, Prior(P) будет диффузионным кодировщиком, а Decoder(D), Super Resolution(SR) будет диффузионным декодером.

Архитектура обучения во многом вдохновлена ​​документом DALLE-2, в котором предлагается новая структура генерации T2I (текст-в-изображение). Теперь вспомните, что во время обучения целью Make-A-Video является T2I, как и DALLE-2. Таким образом, в них используются те же основные компоненты — P, D, SR — что и в DALLE-2.

Бумага DALLE-2 вводит встраивание текста CLIP (см. краткие примечания о CLIP в конце статьи) входного текста в Prior(P) диффузионная сеть для создания зашумленных изображений. Эти зашумленные вложения изображений проходят через Decoder(D) для воспроизведения незашумленных вложений изображений, как показано на рисунке ниже. Окончательное изображение, полученное DALLE-2, имеет форму 16 * 16, что является слишком малым разрешением, и поэтому оно проходит через диффузионные повышающие дискретизаторы (SRl, SRh — эти слои не показаны на изображении архитектуры ниже) для создания изображений размер 256*256 и выше.

Сама архитектура (Prior-Decoder) DALLE-2 оказалась вычислительно эффективной, что привело к трехкратному сокращению параметров архитектуры Transformer, используемой в Decoder, по сравнению с другими моделями на основе диффузии для генерации изображений. Это было результатом многих принятых ими решений — например, рассмотрение только подмножества текстовых вложений CLIP в качестве входных данных.

Теперь результаты, полученные DALLE-2, доказали эффективность знаменитых вложений CLIP, значит ли это, что условие на CLIP является единственной причиной таких сильно стилизованных и насыщенных цветов выходных изображений? Нет, они проводили различные эксперименты со своей архитектурой, чтобы доказать ее возможности за пределами CLIP. Пара из них следующая:

Во-первых, они показали, что CLIP не справляется с классификацией враждебных входных данных. Посмотрите на картинку ниже, где яблоко Гренни Смит частично покрыто белой бумагой со сбивающим с толку текстом «ipod». Классификатор CLIP ошибочно классифицирует это изображение как класс «iPod» с высокой вероятностью и класс «бабушка Смит» с почти нулевой вероятностью. При подаче этого встраивания CLIP-изображения непосредственно в декодер DALLE-2 (без участия Prior) он каждый раз реконструирует изображение почти правильно. Это подчеркивает более высокие семантические возможности и вариативный характер декодера DALLE-2.

Во-вторых, чтобы подчеркнуть важность моделирования DALLE-2’s Prior, они настроили декодер на три разных параметра — заголовок, встраивание текста и встраивание изображения. Это означает, что ввод декодера представляет собой либо кодировку ввода (сам x), либо встраивание текста CLIP ввода (который содержит богатую информацию на естественном языке), либо вложение изображения, предоставленное их Prior (Prior + Decoder = unCLIP) для ввода. , результаты которого показаны на изображении ниже в первой, второй и третьей строках соответственно. Ясно, что unCLIP дал более достоверный результат для данного текста, чем в двух других случаях. Например, подсказка «Ежик использует калькулятор», выходное изображение unCLIP качественно более актуально, чем остальные. А для подсказки «картина корги маслом в праздничной шапке» вывод декодера, основанный только на подписи, является худшим, поскольку в нем нет ни корги ни шапка для вечеринки. Точно так же для подсказки, содержащей 2 припаркованных мотоцикла, встраивание текста захватывает какие-то автомобили, а также мотоцикл вместо 2 мотоциклов, в то время как unCLIP(Prior+Decoder) делает это идеально, а также изображает, что они снова припаркован.

Таким образом, способность их Prior к генеративному моделированию играет жизненно важную роль и, по-видимому, является причиной того, почему эта модель работает.

Успех DALLE-2 также оценивался количественно, и при оценке человека ему отдавалось предпочтение в 57% случаев за фотореализм и в 53% случаев за сходство заголовков. Возможно, эта причина была достаточно уважительной и побудила наших авторов использовать те же компоненты Prior, Decoder и Super Resolution в модели Make-A-Video (исходная тема обсуждения: P) на этапе обучения, опять же, целью которого является T2I.

Таким образом, этап обучения в модели Make-A-Video осуществляется аналогичным образом, если не точно так же!

Точная настройка:

Как указывалось ранее, целью этапа тонкой настройки является получение информации о временном измерении из набора видеоданных. Поэтому, естественно, можно было бы подумать о тонкой настройке 3D-сетей, а не существующей диффузионной архитектуры, состоящей из слоев 2D-преобразования и слоев внимания. Но это было бы дорого в вычислительном отношении. Итак, авторы прибегли к проверенной модели факторизованной диффузии — операция одномерной свертки выполняется после двумерной свертки в каждом скрытом кадре, создавая временное измерение для всех кадров, как показано на рисунке ниже.

По сути, после каждой операции 2D-свертки для каждого кадра отдельно выполняется операция 1D-свертки между кадрами и каждым пикселем, создавая ощущение третьего измерения.

Поскольку пространственная информация сначала захватывается с помощью 2D-преобразования, а затем вводится временная информация с помощью 1D-преобразования, эта методология называется факторизованной пространственно-временной моделью. обучение. Этот метод, по-видимому, как упоминалось в статье, помогает в плавном слиянии временной информации, а также в сохранении пространственной структуры из предыдущего слоя. Аналогичным образом внесены архитектурные изменения в сеть Attention (как показано на рисунке ниже). Одномерный временной слой внимания добавляется после двумерного пространственного слоя внимания.

Оба этих дополнительных временных слоя добавляются и инициализируются с помощью функции идентификации на этом этапе. Поскольку фильтры, задействованные в этих слоях, не являются трехмерными, но обслуживают набор данных трехмерного видео (Г, Ш, время/кадр). , они называются псевдотрехмерными пространственно-временными слоями. Надеюсь, это объясняет название модели, как описано ранее в статье.

Следующим важным шагом на этапе тонкой настройки является увеличение частоты кадров. Выборка кадров выполняется непосредственно перед точной настройкой декодера с использованием гиперпараметра fps, т. е. производится выборка только подмножества кадров входного видео, на котором выполняется точная настройка декодера . Таким образом, интерполяция кадров после декодера имеет смысл только для увеличения количества кадров, а также для создания информации об анимации/движении между кадрами. Следовательно, за выходом декодера следует сеть интерполяции кадров, где частота кадров увеличивается. Это делается путем добавления 5 маскированных кадров между каждыми двумя последовательными кадрами вывода декодера, как показано на рисунке ниже.

Чтобы сэкономить на ограничениях памяти и вычислений, эта реализация маскированного повышения дискретизации была перенесена при точной настройке самого декодера и, таким образом, избегая дополнительной сети. Итак, после этого шага вывод состоит из 76 кадров ((16–1)*5+1) для каждого видео, состоящего из 16 кадров.

Эти выходные кадры имеют такое же низкое разрешение, как форма 16 * 16, поэтому следующим шагом является создание кадров с высоким разрешением. Модель Make-A-Video использует аналогичную модель диффузии для зашумленных кадров с повышением дискретизации через слои SR_l и SR_h, обеспечивая разрешение до формы 768*768.

Оценка:

Make-A-Video использовала два общедоступных набора видеоданных для точной настройки своей архитектуры — WebVid-10M и подмножество HD-VILA-100M — каждый из 10 М видео. Позже модель была оценена на двух других наборах данных — UCF101 и MSR-VTT при настройке нулевого выстрела (прогноз без какого-либо обновления градиента). UCF101 — это набор данных для распознавания действий с 13 000 видео в 101 категории. MSR-VTT — это набор видеоданных, опубликованный Microsoft research (MSR) изначально для целей моделирования преобразования видео в текст. Он содержит 10 тысяч видеоклипов, каждый из которых снабжен аннотациями из 20 естественных предложений.

Следующим непосредственным вопросом будут метрики, используемые для оценки модели, а именно FVD, FID и CLIPSIM (показатель сходства клипов). Каждый из них определяет качество создаваемого видео. В частности, FVD (расстояние до видео по Фреше) и FID (расстояние по Фреше до начала) измеряют расстояние между прогнозируемым распределением и реальным распределением. Основываясь на моих ограниченных знаниях (все еще узнаю больше об этих показателях), они, вероятно, для видеоданных являются тем же, чем MSE (среднеквадратическая ошибка) для числовых данных. Тогда как CLIPSIM говорит сам за себя — CLIP сходство между видеокадрами и текстом.

Авторы также провели оценку человека. Они объединили набор подсказок по 5 популярным категориям (животные, фэнтези, люди, природа и сцены, еда и напитки) и подготовили образцы видео для каждой подсказки. 5 человек-аннотаторов попросили выбрать между парой видео для качественного анализа. Их также попросили выбрать между парой видео для заданного текста для верности. Было замечено, что в 64% случаев выход Make-A-video выбирался по сравнению с другими. Они также пришли к выводу, что их модель превосходна, когда есть большая разница между последовательными кадрами, что объясняет ее более высокую производительность по сравнению с другими.

Мы заметили, что наш метод превосходен, когда есть большие различия между кадрами, где решающее значение имеет реальное знание того, как движутся объекты.

*Обратите внимание, что это не исчерпывающее изложение Оценки экспериментов, проведенных авторами, в документе содержится дополнительная информация об экспериментах.

Вывод:

Make-A-Video предлагает структуру модели неконтролируемого поколения для задачи T2V (текст-в-видео). Возможно, это самый современный уровень в создании видео, поскольку оценка проводится с нулевым кадром, в то время как другие существующие разработки, такие как GODIVA и NUWA, точно настраиваются на категориально размеченном наборе видеоданных, который может быть недостаточно обобщаемым.

Газета также гордится тем, что использует общедоступные наборы данных ради прозрачности и воспроизводимости. Они также удаляют образцы NSFW из помеченного набора данных текстового изображения, используемого во время обучения. Тем не менее, признайте, что эта большая/большая модель может иметь предвзятость, основанную на стереотипной информации, которая может быть частью общедоступного набора данных, который они использовали.

Насколько я понял из статьи, она в значительной степени опирается на ранее опубликованные работы — DALLe и CLIP — для построения рабочей модели. В то же время работа только с размеченными данными текстового изображения и неразмеченными видеоданными до сих пор является единственной в своем роде. Надеемся, что, как предлагается в документе, он заложит основу для дальнейших исследований, таких как длинноформатные видео.

Сноски на CLIP:

Хотя в этой статье невозможно разобрать весь CLIP, вот несколько советов по CLIP:

  1. CLIP — это модель на основе Transformer, состоящая из кодировщика текста и кодировщика изображений, которые обучаются совместно. Во время вывода текстовый кодировщик синтезирует нулевой линейный классификатор для классов целевого набора данных и соответствующим образом классифицирует входное изображение.

2. CLIP является передовым решением задачи классификации естественного языка, а также устойчивым к различным дистрибутивным изменениям. Доказано, что это современный нулевой классификатор для классов естественного языка. И он последовательно работал в разных распределениях данных одного и того же класса в разных наборах данных, т. Е. На изображении ниже банан идентифицируется независимо от стиля / цвета входного изображения.

3. DALL-E и другие модели генерации изображений используют совместное встраивание текста и изображений CLIP для моделирования своих высокопроизводительных архитектур T2I.