Интересный подход, основанный на внимании, в обучении совместному представлению текста и видео.

В этом посте я хочу обсудить следующую статью:

Джинг, Саймон и др. «Coot: кооперативный иерархический преобразователь для обучения представлению видеотекста». препринт arXiv arXiv:2011.00597 (2020 г.).

который я нашел в одной из особенно интересных статей на NeurIPS 2020. Итак, давайте начнем просматривать документ и выделять части, которые я считаю важными, чтобы дать полное изложение.

Абстрактный

  • Мотивация: при работе с видеотекстовыми задачами часто требуется много разных уровней детализации.
  • Они предлагают иерархическую модель, состоящую из трех основных компонентов:
  • 1) основанный на внимании способ агрегирования функций
  • 2) обучение представлению на основе трансформатора
  • 3) потеря согласованности кросс-модального цикла (чтобы соединить изучение представлений для видео и текста)
  • Код доступен

Введение

  • Представьте, что у вас есть видео и текст действия, такого как «заваривание чая». Такое действие состоит из разных компонентов (например, «наливание чая в чашку»), каждое из которых может быть выполнено по-разному, однако, чтобы понять это общее действие, следует разбить запись на эти компоненты и уловить суть этих действий. . Именно благодаря этому естественному способу мышления авторы придумали иерархическую систему.
  • Учитывая, что областью, которую они рассматривают, является видео И текст, они следуют последним тенденциям использования потерь выравнивания (пожалуйста, обратитесь к статье для получения полного списка ссылок).
  • Давайте посмотрим на схемы их модели:

  • В приведенном выше примере у них есть временные преобразователи (в которых они используют позиционное кодирование на основе синуса/косинуса в соответствии с их кодовой базой для кодирования времени).
  • Для объединения функций у них есть «объединение функций на основе внимания», которое в конвейере называется Attention-FA. Это лучше, чем, например, среднее объединение в том смысле, что такая общая агрегация потенциально может привести к включению большого количества бессмысленной информации в окончательное представление, ослабляя эффект и влияние основных точек фокусировки.

Предварительные

  • Первая часть посвящена потерям семантического выравнивания. Ну, они в основном сосредоточены на Zhang et al. [21], что вносит следующие потери:

  • Чтобы лучше понять это, вы можете рассмотреть положительную пару и отрицательную пару, состоящую из 3 экземпляров. Учитывая, что x и y являются положительными образцами, эта потеря представляет собой добавление двух тройных потерь запаса, один раз с x в качестве точки привязки и один раз с y.
  • В этой части статьи есть четкое введение в метод Zhang et al. [21]. По сути, это многократное использование вышеупомянутых контрастных потерь для разных целей и в общем пространстве встраивания.
  • Остальная часть части 2 довольно ясна и в основном объясняет основной конвейер использования глобальной и локальной информации для получения представлений на разных уровнях иерархии.

Согласованность межмодального цикла

Это потеря, которую они привносят, что очень интересно. Идея состоит в том, что, имея представление о локальных сегментах (предложение или клип), я от представления предложения иду и нахожу («мягко») ближайшее к нему представление клипа. Теперь используйте это представление клипа, чтобы найти ближайшее представление предложения. Вы вернулись к тому, с чего начали? Если да, то хорошо, если нет, то не очень.

Эмпирические результаты также подтверждают их методологию, и я действительно предлагаю прочитать о наборах данных, задачах и механизмах оценки, которые они использовали в статье (ссылка на их статью: здесь).

Спасибо.