1. В чем разница между визуальным ответом на вопрос для машинного «понимания» и для доступности? (arXiv)

Автор: Ян Триста Цао, Кайл Силман, Кёнджун Ли, Хал Дауме III.

Аннотация: В визуальном ответе на вопрос (VQA) машина должна ответить на вопрос, учитывая связанное изображение. Недавно исследователи доступности изучили, можно ли развернуть VQA в реальных условиях, когда пользователи с нарушениями зрения узнают об окружающей среде, фиксируя свое визуальное окружение и задавая вопросы. Тем не менее, большинство существующих наборов данных для сравнительного анализа для VQA сосредоточены на «понимании» машин, и остается неясным, как прогресс в этих наборах данных соответствует улучшениям в этом реальном сценарии использования. Мы стремимся ответить на этот вопрос, оценив расхождения между наборами данных машинного «понимания» (VQA-v2) и наборами данных доступности (VizWiz) путем оценки различных моделей VQA. Основываясь на наших выводах, мы обсуждаем возможности и проблемы доступности VQA и предлагаем направления для будущей работы.

2.VLC-BERT: визуальные ответы на вопросы с контекстуализированными знаниями здравого смысла (arXiv)

Автор: Сахитья Рави, Адитья Чинчуре, Леонид Сигал, Ренджи Ляо, Веред Шварц.

Аннотация: Растет интерес к решению задач визуальных ответов на вопросы (VQA), которые требуют от модели рассуждений, выходящих за рамки содержимого, представленного на изображении. В этой работе мы сосредоточимся на вопросах, которые требуют рассуждений на основе здравого смысла. В отличие от предыдущих методов, которые вводят знания из статических баз знаний, мы исследуем включение контекстуализированных знаний с помощью Commonsense Transformer (COMET), существующей модели знаний, обученной на базах знаний, созданных человеком. Мы предлагаем метод генерации, выбора и кодирования внешних знаний здравого смысла наряду с визуальными и текстовыми подсказками в новой предварительно обученной модели преобразования Vision-Language-Commonsense, VLC-BERT. Благодаря нашей оценке наборов данных OK-VQA и A-OKVQA, требующих большого объема знаний, мы показываем, что VLC-BERT способен превзойти существующие модели, использующие статические базы знаний. Кроме того, посредством подробного анализа мы объясняем, какие вопросы приносят пользу, а какие нет, контекстуализированные знания здравого смысла от COMET.