Интересный подход, основанный на внимании, в обучении совместному представлению текста и видео.
В этом посте я хочу обсудить следующую статью:
Джинг, Саймон и др. «Coot: кооперативный иерархический преобразователь для обучения представлению видеотекста». препринт arXiv arXiv:2011.00597 (2020 г.).
который я нашел в одной из особенно интересных статей на NeurIPS 2020. Итак, давайте начнем просматривать документ и выделять части, которые я считаю важными, чтобы дать полное изложение.
Абстрактный
- Мотивация: при работе с видеотекстовыми задачами часто требуется много разных уровней детализации.
- Они предлагают иерархическую модель, состоящую из трех основных компонентов:
- 1) основанный на внимании способ агрегирования функций
- 2) обучение представлению на основе трансформатора
- 3) потеря согласованности кросс-модального цикла (чтобы соединить изучение представлений для видео и текста)
- Код доступен
Введение
- Представьте, что у вас есть видео и текст действия, такого как «заваривание чая». Такое действие состоит из разных компонентов (например, «наливание чая в чашку»), каждое из которых может быть выполнено по-разному, однако, чтобы понять это общее действие, следует разбить запись на эти компоненты и уловить суть этих действий. . Именно благодаря этому естественному способу мышления авторы придумали иерархическую систему.
- Учитывая, что областью, которую они рассматривают, является видео И текст, они следуют последним тенденциям использования потерь выравнивания (пожалуйста, обратитесь к статье для получения полного списка ссылок).
- Давайте посмотрим на схемы их модели:
- В приведенном выше примере у них есть временные преобразователи (в которых они используют позиционное кодирование на основе синуса/косинуса в соответствии с их кодовой базой для кодирования времени).
- Для объединения функций у них есть «объединение функций на основе внимания», которое в конвейере называется Attention-FA. Это лучше, чем, например, среднее объединение в том смысле, что такая общая агрегация потенциально может привести к включению большого количества бессмысленной информации в окончательное представление, ослабляя эффект и влияние основных точек фокусировки.
Предварительные
- Первая часть посвящена потерям семантического выравнивания. Ну, они в основном сосредоточены на Zhang et al. [21], что вносит следующие потери:
- Чтобы лучше понять это, вы можете рассмотреть положительную пару и отрицательную пару, состоящую из 3 экземпляров. Учитывая, что x и y являются положительными образцами, эта потеря представляет собой добавление двух тройных потерь запаса, один раз с x в качестве точки привязки и один раз с y.
- В этой части статьи есть четкое введение в метод Zhang et al. [21]. По сути, это многократное использование вышеупомянутых контрастных потерь для разных целей и в общем пространстве встраивания.
- Остальная часть части 2 довольно ясна и в основном объясняет основной конвейер использования глобальной и локальной информации для получения представлений на разных уровнях иерархии.
Согласованность межмодального цикла
Это потеря, которую они привносят, что очень интересно. Идея состоит в том, что, имея представление о локальных сегментах (предложение или клип), я от представления предложения иду и нахожу («мягко») ближайшее к нему представление клипа. Теперь используйте это представление клипа, чтобы найти ближайшее представление предложения. Вы вернулись к тому, с чего начали? Если да, то хорошо, если нет, то не очень.
Эмпирические результаты также подтверждают их методологию, и я действительно предлагаю прочитать о наборах данных, задачах и механизмах оценки, которые они использовали в статье (ссылка на их статью: здесь).
Спасибо.