В этом сообщении в блоге я поделюсь с вами некоторыми знаниями и уроками, извлеченными из нашей недавней идеи исследования, которая должна работать в теории (т. е. BERT + GloVe), но на практике она не работает в нашем сценарии.

Недавний современный прогресс в предварительно обученных моделях зрения, языка и субтитров к изображениям в значительной степени зависит от длительного обучения на обильных данных. Однако эти улучшения точности зависят от длительных итераций обучения и наличия вычислительных ресурсов (например, GPU, TPU и т. д.), что приводит к затратам времени и энергии (Strubell al., 2019). В некоторых случаях улучшения после переобучения составляют менее 1 балла в эталонном наборе данных. В этой работе мы представляем подход, который можно применить к любой системе титров в качестве метода, основанного на постобработке, который нужно обучить только один раз. В частности, мы предлагаем подход к улучшению систем генерации титров путем выбора наиболее тесно связанного с изображением вывода, а не наиболее вероятного вывода, создаваемого моделью. Наша модель пересматривает поиск выходного луча генерации языка с точки зрения визуального контекста.

Во-первых, позвольте мне объяснить, почему эта проблема важна, с некоторыми предысториями и связанной с ней работой.

Введение

Система субтитров к изображениям. Автоматические субтитры — это фундаментальная задача, которая включает в себя видение и язык. Задача может быть решена в два этапа: сначала извлечение образно-визуальной информации, а затем формирование лингвистического описания. Большинство моделей связывают отношения между визуальной и лингвистической информацией с помощью сверточной нейронной сети (CNN) для кодирования входного изображения и долговременной памяти для генерации языка (LSTM) (Vinyals al., 2015; Andersonet al., 2018). ). В последнее время внимание к себе использовалось для изучения этих отношений с помощью трансформеров (Huanget al., 2019; Cornia et al., 2020) или моделей на основе Transformer, таких как Vision and Language BERT (Lu et al., 2020). »). Эти системы показывают многообещающие результаты на эталонных наборах данных, таких как COCO (Lin et al., 2014). Тем не менее, генерируемое лексическое разнообразие субтитров остается относительно неисследованной исследовательской проблемой. Лексическое разнообразие относится к тому, насколько точным является сгенерированное описание для данного изображения. Точная подпись должна содержать подробную информацию о конкретных и важных аспектах изображения. Лексическое разнообразие субтитров можно разделить на три уровня: уровень слов (разные слова), синтаксический уровень (порядок слов) и семантический уровень (релевантные понятия) (Wang and Chan, 2019). В этой работе мы приближаемся к разнообразию на уровне слов, изучая семантическую корреляцию между заголовком и его визуальным контекстом, как показано на рисунке 1 (ниже), где визуальная информация из изображения используется для изучения семантического отношения из заголовка в слово и манера предложения.

Система подписей к изображениям визуального контекста. Современные сложные системы субтитров к изображениям в значительной степени ориентированы на визуальную основу для захвата реальных сценариев. Ранние работы (Fang et al., 2015) создали визуальный детектор для направления и переранжирования подписей к изображениям с глобальным сходством. В работе (Wang et al., 2018) исследуется информативность информации об объекте (например, частота объекта) при сквозной генерации титров. Корниа и др. (2019) предлагает заземлить язык контролируемых титров через визуальные области изображения. Чен и др. (2020) полагаются на абстрактную концепцию сцены (объект, связь и атрибут), основанную на изображении, чтобы изучить точную семантику без меток для подписи к изображению. Совсем недавно Zhang et al. (2021a) включает различные концепции, такие как граф сцены, объект и атрибут, чтобы изучить правильную лингвистическую и визуальную релевантность для лучшего понимания языка субтитров.

Вдохновленный этими работами (Fang et al. 2015), в которых используется повторное ранжирование с помощью визуальной информации (Wang, Madhyastha и Specia, 2018; Cornia, Baraldi и Cucchiara, 2019; Chenet al. 2020), в которых исследовались преимущества объектной информации. в субтитрах к изображениям (Гупта и др., 2020), что преимущества языкового моделирования для извлечения контекстуализированных представлений слов и использования семантической согласованности в языковых субтитрах (Чжан и др., 2021a), мы предлагаем основанное на визуальном обосновании средство оценки объектов для повторного ранжирования наиболее тесно связанной подписи со статическим и контекстуальным семантическим сходством.

Извлечение заголовка поиска луча — базовые показатели. Мы используем три наиболее распространенные архитектуры для создания субтитров для извлечения верхнего луча поиска. Первая базовая линия основана на стандартной неглубокой модели CNN-LSTM (Vinyals et al., 2015). Второй, VilBERT (Lu et al., 2020), точно настроен на 12 различных наборов данных о зрении и языке, таких как поиск титров. Наконец, третья базовая линия — специализированный генератор титров на базе Transformer (Cornia et al., 2020).

Изучение визуальной семантики от слова до предложения

Формулировка проблемы. Поиск по лучу — это основной метод приблизительного декодирования в задачах структурированного прогнозирования, таких как машинный перевод, распознавание речи и субтитры к изображениям. Больший размер луча позволяет модели лучше исследовать пространство поиска по сравнению с жадным декодированием. Наша цель — использовать информацию визуального контекста изображения для повторного ранжирования последовательностей-кандидатов, полученных в результате поиска луча, тем самым перемещая наиболее визуально релевантных кандидатов вверх в списке, а также перемещая неправильные кандидаты вниз.

Сходство на уровне слов. Чтобы изучить семантическую связь между заголовком и его визуальным контекстом на уровне слов: во-первых, мы используем двунаправленный экстрактор ключевых фраз CopyRNN на основе LSTM (Meng et al., 2017) для извлечения ключевых фраз из предложения. как контекст. Модель обучается на комбинированных предварительно обработанных наборах данных (1) wikidump (то есть ключевое слово, короткое предложение) и (2) SemEval 2017 Task 10 (Ключевые фразы из научных публикаций) (Augenstein et al., 2017). Во-вторых, GloVe используется для вычисления косинусного сходства между визуальным контекстом и связанным с ним контекстом. Например, женщина в красномплатье и черной юбкеидет по тротуару, модель извлечет платье и прогулки, которые являются основными ключевыми словами заголовка.

Сходство на уровне предложений. Мы настраиваем базовую модель BERT, чтобы получить информацию о визуальном контексте. Модель изучает парадигму отношения слова к предложению, подобную словарю. Мы используем визуальные данные в качестве контекста для предложения через косинусное расстояние.

  • БЕРТ (Девлин и др., 2019). BERT достигает замечательных результатов во многих задачах на уровне предложений, особенно в задаче на семантическое сходство текста (STS-B) (Cer et al., 2017). Поэтому мы точно настроили BERT_base на обучающем наборе данных (текстовая информация, 460 000 заголовков: 373 000 для обучения и 87 000 для проверки), т. е. визуальное изображение, заголовок, метка [семантически связанная или не связанная]), с кросс-энтропийной бинарной классификацией. функция потерь [0,1], где целью является семантическое сходство между визуальным элементом и заголовком-кандидатом.
  • Приговор РоБЕРТа (Реймерс и Гуревич, 2019). RoBERTa — это улучшенная версия BERT, и, поскольку RoBERTa Large более надежен, мы полагаемся на предварительно обученные SentenceRoBERTa-sts, поскольку они дают лучшую оценку косинуса.

Эксперт по сходству Fusion. Продукт экспертов (PoE) (Хинтон, 1999) подразумевает попытку объединить опыт каждого эксперта (модели) в духе сотрудничества. Это позволяет каждому эксперту специализироваться на анализе одного конкретного аспекта проблемы и вынесении суждения на основе этого аспекта. Вдохновленные PoE, мы объединили два экспертных уровня слов и предложений в виде позднего слияния, как показано на рисунке 1. PoE использует преимущества каждого эксперта и может создавать гораздо более четкие распределения, чем одна модель. PoE рассчитывается следующим образом:

где w — вектор данных в дискретном пространстве, θm — параметры каждой модели m, pm(w|θm) — вероятность w в модели m, а c — индексы всех возможных векторов в пространстве данных.

Поскольку этот подход заинтересован в получении наиболее релевантной подписи с наибольшей вероятностью после повторного ранжирования, шаг нормализации не требуется:

где p_m (w|θm) — это вероятности, присвоенные каждым экспертом слову-кандидату или предложению w.

Набор данных

Мы оцениваем предлагаемый подход на двух наборах данных разного размера. Идея состоит в том, чтобы оценить наш метод на наиболее распространенном наборе данных подписей в двух сценариях: (1) неглубокая модель CNN-LSTM (т. е. меньше данных), а также система, обученная на огромном количестве данных (т. е. Transformer) .

  • Flicker 8K (Rashtchian et al., 2010). Набор данных содержит 8K-изображения, каждое изображение имеет пять подписей с человеческими метками. Мы используем эти данные для обучения неглубокой модели (6270 поездов/1730 тестов).
  • COCO (Lin et al., 2014). Он содержит около 120 000 изображений, и каждое изображение снабжено пятью различными надписями в виде человеческих меток. Мы используем наиболее часто используемое разделение, предоставленное (Karpathy and Fei-Fei, 2015), где 5k изображений используются для тестирования и 5k для проверки, а остальные — для обучения модели для базовой линии Transformer.

Набор данных визуального контекста. Поскольку существует множество общедоступных наборов данных для подписей, они не содержат текстовой визуальной информации, такой как объекты на изображении. Мы обогащаем два набора данных, упомянутых выше, текстовой визуальной контекстной информацией. В частности, для автоматизации генерации визуального контекста и без необходимости маркировки человеком мы используем ResNet152 (He et al., 2016) для извлечения топ-k 3 информации о визуальном контексте для каждого изображения в наборе данных подписи.

Метрика оценки. Мы используем официальный Комплект офлайн-оценки COCO, который позволяет получить несколько широко используемых показателей качества субтитров: BLEU (Papineniet al., 2002), METEOR (Banerjee and Lavie, 2005), ROUGE (Lin, 2004). »), CIDEr (Vedantam et al., 2015) и BERTscore или (B-S) (Zhang et al., 2020).

Результаты и анализ

Мы используем визуальную семантическую информацию для повторного ранжирования подписей-кандидатов, созданных готовыми современными генераторами подписей. Мы извлекаем 20 лучших заголовков-кандидатов для поиска луча из трех разных архитектур (1) стандартной модели CNN + LSTM (Vinyals et al., 2015), (2) предварительно обученной модели языка и зрения VilBERT (Lu et al., 2020). , точно настроенный в общей сложности на 12 различных наборах данных о зрении и языке, таких как поиск изображений подписей и (3) специализированный преобразователь на основе подписей (Cornia et al., 2020).

|------------------------------------------------------------------|
|        Baseline Result with/without Semantic Re-ranking          |
|------------------------------------------------------------------|
| Model        |   B-1 |   B-4 |   M   |   R   |   C   | BERTscore |
|--------------+-------+-------+-------+-------+-------+-----------|
| Shallow model Show and Tell (Vinyals et al., 2015) ♠             |       
|--------------+-------+-------+-------+-------+-------+-----------|                                                  | BeamS        | 0.331 | 0.035 | 0.093 | 0.270 | 0.035 |  0.8871   |
|--------------+-------+-------+-------+-------+-------+-----------|
| BERT+GloVe  top-k Visual 1 and 2                                 |
|--------------+-------+-------+-------+-------+-------+-----------|
| +VR_V1 B-G   | 0.330 | 0.035 | 0.095 | 0.273 | 0.036 |  0.8855   |
| +VR_V2 B-G   | 0.320 | 0.037 | 0.099 | 0.277 | 0.041 |  0.8850   |
|--------------+-------+-------+-------+-------+-------+-----------|
| RoBERT+GloVe  (SBERT) top-k Visual 1 and 2                       |            
|--------------+-------+-------+-------+-------+-------+-----------|
| +VR_V1 R+G   | 0.313 | 0.037 | 0.101 | 0.273 | 0.036 |  0.8839   | 
| +VR_V2 R+G   | 0.330 | 0.035 | 0.095 | 0.273 | 0.036 |  0.8869   |
|------------------------------------------------------------------|
|------------------------------------------------------------------|
| Pre-trained model VilBERT (Lu et al., 2020) ♣                    |
|--------------+-------+-------+-------+-------+-------+-----------|
| BeamS        | 0.739 | 0.336 | 0.271 | 0.543 | 1.027 |  0.9363   |   |--------------+-------+-------+-------+-------+-------+-----------|
| BERT+GloVe  top-k Visual 1 and 2                                 |
|--------------+-------+-------+-------+-------+-------+-----------|
|+VR_V1 B-G    | 0.739 | 0.334 | 0.273 | 0.544 | 1.034 |  0.9365   | |+VR_V2 B-G    | 0.740 | 0.334 | 0.273 | 0.545 | 1.034 |  0.9365   |
|--------------+-------+-------+-------+-------+-------+-----------|
| RoBERT+GloVe  (SBERT) top-k Visual 1 and 2                       |            
|--------------+-------+-------+-------+-------+-------+-----------|
| +VR_V1 R+G   | 0.738 | 0.335 | 0.273 | 0.544 | 1.036 |  0.9365   |
| +VR_V2 R+G   | 0.740 | 0.338 | 0.272 | 0.545 | 1.040 |  0.9366   |
|------------------------------------------------------------------|
|--------------+-------+-------+-------+-------+-------+-----------|
| Specialized model Transformer (Cornia et al., 2020) ♣            |
|--------------+-------+-------+-------+-------+-------+-----------|
| BeamS        | 0.780 | 0.374 | 0.278 | 0.569 | 1.153 |  0.9399   |
|--------------+-------+-------+-------+-------+-------+-----------|
| BERT+GloVe  top-k Visual 1 and 2                                 |
|--------------+-------+-------+-------+-------+-------+-----------|
| +VR_V1 B+G   | 0.780 | 0.371 | 0.278 | 0.567 | 1.149 |  0.9398   |
| +VR_V2 B+G   | 0.780 | 0.371 | 0.278 | 0.568 | 1.150 |  0.9399   |
|--------------+-------+-------+-------+-------+-------+-----------|
| RoBERT+GloVe  (SBERT) top-k Visual 1 and 2                       |
|--------------+-------+-------+-------+-------+-------+-----------|
| +VR_V2 R+G   | 0.779 | 0.370 | 0.277 | 0.567 | 1.145 |  0.9395   |
| +VR_V2 R+G   | 0.779 | 0.370 | 0.277 | 0.567 | 1.145 |  0.9395   |
|--------------+-------+-------+-------+-------+-------+-----------|
Table 1. Performance of compared baselines on the Karpathy test split ♣ (for Transformer baselines) and 8K Flicker ♠(for show and tell CNN-LSTM baseline) with/withoutVisual semantic re-ranking. At inference, we use only top-k-2 object visual context once at a time.
               (better read this in the PC version)

Эксперименты с применением различных реранжеров к каждой базовой системе показаны в таблице 1 (выше). Протестированные средства повторного ранжирования: (1) VR_BERT+GloVe, который использует сходство BERT и GloVe между заголовком-кандидатом и визуальным контекстом (top-k V_1 и V_2 во время логического вывода) для получения оценки с повторным ранжированием. (2) VR_RoBERTa+GloVe, который выполняет ту же процедуру, используя сходство, созданное Предложением RoBERTa.

Наш инструмент повторного ранжирования дал смешанные результаты, поскольку модель испытывает трудности, когда поиск луча менее разнообразен. Поэтому модель не может выбрать заголовок, наиболее тесно связанный с контекстом окружающей среды, как показано на рисунке 2/2_zoom (ниже), который представляет собой визуализацию окончательного изменения ранжирования визуального луча.

Оценка лексического разнообразия. Как показано в таблице 2 (ниже), мы оцениваем модель с точки зрения лексического разнообразия. Мы можем сделать вывод, что у нас (1) больше словарного запаса и (2) уникальное слово на заголовок также улучшилось, даже при более низком TTR отношения типа к токену (Браун, 2005). (TTR — это количество уникальных слов или типов, деленное на общее количество токенов в текстовом фрагменте.).

Несмотря на то, что этот подход повторно ранжирует заголовок с более высоким разнообразием, улучшение недостаточно сильное, чтобы положительно повлиять на результат теста, как показано в таблице 1.

        |-------------------------------------------|
        |            Lexical Diversity              |
        |----------------+-----+------+------+------|
        | Model          | Voc |  TTR | Uniq |  WPC |
        |----------------+-----+------+------+------|
        | Show and tell ♠                           |
        |----------------+-----+------+------+------|
        | Tell BeamS     | 304 | 0.79 | 10.4 | 12.7 |
        | Tell+VR RoBERTa| 310 | 0.82 | 9.42 | 13.5 |
        |----------------+-----+------+------+------|
        | VilBERT ♣                                 |
        |----------------+-----+------+------+------|
        | Vil BeamS      | 894 | 0.87 | 8.05 | 10.5 |
        | Vil+VR RoBERTa | 953 | 0.85 | 8.86 | 10.8 |
        |----------------+-----+------+------+------|
        | Transformer ♣                             |
        |----------------+-----+------+------+------| 
        | Trans BeamS    | 935 | 0.86 | 7.44 | 9.62 |
        | Trans+VR BERT  | 936 | 0.86 | 7.48 | 8.68 |
        |----------------+-----+------+------+------|
Table 2. Measuring the lexical diversity of caption before and after re-ranking. Uniq and WPC columns indicate the average of unique/total Words Per Caption, respectively. (The ♠ refers to the Fliker 1730 test set, and ♣ refers to the COCO Karpathy 5K test set). (better read this in the PC version)

Исследование абляции. Мы провели исследование абляции, чтобы изучить эффективность каждой модели. Что касается предложенной архитектуры, каждый эксперт пытался выучить различные представления в словесной и предложной манере. В этом эксперименте мы обучали каждую модель отдельно, как показано в таблице 3 (ниже). GloVe как отдельная модель показала себя лучше, чем комбинированная модель (и, таким образом, комбинированная модель нарушает точность). Чтобы исследовать это еще глубже, мы визуализировали каждого эксперта перед слоями слияния, как показано на рисунке 3.

  |-------------------+-------+-------+-------+-------+--------|
  |                       Ablation Study                      |
  |-------------------+-------+-------+-------+-------+--------|
  | Trans BeamS       | 0.374 | 0.278 | 0.569 | 1.153 | 0.9399 |
  |-------------------+-------+-------+-------+-------+--------|
  | +VR_RoBERT-GloVe  | 0.370 | 0.277 | 0.567 | 1.145 | 0.9395 |
  | +VR_BERT-GloVe    | 0.371 | 0.278 | 0.567 | 1.149 | 0.9398 |
  |-------------------+-------+-------+-------+-------+--------|
  | +VR_RoBERT+BERT   | 0.369 | 0.278 | 0.567 | 1.144 | 0.9395 |
  |-------------------+-------+-------+-------+-------+--------|
  | +VR_V1 GloVe      | 0.371 | 0.278 | 0.568 | 1.148 | 0.9398 |
  | +VR_V2 GloVe      | 0.371 | 0.278 | 0.568 | 1.149 | 0.9398 |
  |-------------------+-------+-------+-------+-------+--------|
Table 2. Ablation study using different model compared to GloVe alone visual re-ranker on the Transformer baseline. (♣ Bottom Figure 3) shows that BERT is not contributing, as GloVe, to the final score for two reasons:(1) short caption, and (2) less diverse beam.

Ограничение. В отличие от CNN-LSTM ♠ вверху на рисунке 3, где каждый эксперт вносит свой вклад в окончательные решения, мы заметили, что более короткая подпись (с меньшим количеством контекста) может негативно повлиять на оценку сходства BERT. Таким образом, GloVe доминирует в качестве основного эксперта, как показано на рисунке 3 (♣ внизу).

Наконец, ниже приведены несколько примеров визуального семантического переранжирования с нашим VR_BERT+GloVe, Baseline Beam Search и Greedy (сценарии, когда жадный поиск более разнообразен, чем лучевой поиск).

Заключение

В этой работе мы представляем подход, который преодолевает ограничение поиска луча и позволяет избежать повторного обучения для повышения точности. Мы предложили комбинированный инструмент для повторного ранжирования визуального луча по словам и предложениям. Однако мы обнаруживаем, что сходство слов и предложений противоречит друг другу, когда лучевой поиск менее разнообразен. Наши эксперименты также подчеркивают полезность модели, демонстрируя успешные случаи.

Извлеченные уроки и временное решение

Глядя на исследование абляции (рис. 3 и таблица 2), мы заметили, что эксперт по титрам через BERT нарушает точность. Кроме того, мы можем сделать два наблюдения после ручной проверки некоторых образцов (1) общего или повторяющегося заголовка (2) зашумленного визуального контекста. Мы предлагаем решение двух проблем следующим образом:

  • (1) Необходимо принятие решений на основе понимания естественного языка, вдохновленное человеком. Например, имеет ли заголовок какой-либо семантический/грамматический смысл до применения нашего визуального переранжирования? Например, используя языковую модель, т. е. GPT2 (Рэдфорд и др., 2019), чтобы отфильтровать нечеловеческое описание подписи, как показано ниже.

Подпись 1: бело-голубой автобус, припаркованный на автобусной остановке (0,14)

Подпись 2: белыйавтобус с синим и белым на обочине улицы (0,10)✗

  • (2) Выходным данным визуального классификатора также требуется программная метка визуального заземления (т. е. косинусное расстояние) с заголовком, как показано ниже, с первым заголовком Косинус (визуальный, заголовок):

Изображение: авиалайнер, Подпись: бело-сине-желтый реактивный авиалайнер на взлетно-посадочной полосе, мягкая этикетка0,6223

Визуально:заглавная буква, заголовок: мобильный телефон, стоящий на столе со стаканом воды.мягкая этикетка0,058 ✗

Теперь давайте применим эти две идеи (1) красный → (языковая модель GPT-2) и (2) темно-зеленый → (мягкая метка) и изменим рисунок 1, как показано ниже на рисунке 2.

Теперь давайте снова обучим модель с новой модификацией и используем те же изображения выше для вывода (🚨).

Хотя этот подход лучше, поскольку на точность базовой линии это не влияет отрицательно, средство повторного ранжирования все же должно превосходить поиск луча, чтобы его можно было использовать, что является хорошей отправной точкой. Кроме того, это невозможно в качестве постобработки (это требует больших вычислительных ресурсов с тремя кодировщиками), что является основной целью этой работы. В дальнейшей работе мы будем следовать тому же направлению, но в сквозной манере. В частности, полагаясь на стратегию совместного использования кодировщика для уменьшения параметров и вычислительных ресурсов.

Наконец, я надеюсь, что мы узнаем что-то новое из этого анализа отрицательных результатов и помним, что хорошая идея не всегда работает на практике.

Не стесняйтесь цитировать нашу статью, если это понимание и эксперимент будут вам полезны.

Базовая ссылка на Github:

(1) Преобразователь подписи: https://github.com/aimagelab/meshed-memory-transformer

(2) Вилберт: https://github.com/facebookresearch/vilbert-multi-task

Инструменты:

(1) Редактор таблиц

(2) Рисунки OmniGraffle Pro

(3) Схемные инструменты LaTeX