- Трансформаторы с подсказками для сквозного обнаружения объектов с открытым словарем (arXiv)
Автор: Hwanjun Song, Jihwan Bang.
Аннотация: Prompt-OVD — это эффективная и действенная структура для обнаружения объектов с открытым словарем, которая использует вложения классов из CLIP в качестве подсказок, направляя декодер Transformer для обнаружения объектов как в базовых, так и в новых классах. Кроме того, наши новые методы маскированного внимания на основе области интереса и отсечения областей области видимости помогают использовать возможности нулевой классификации CLIP на основе Vision Transformer, что приводит к повышению производительности обнаружения при минимальных вычислительных затратах. Наши эксперименты с наборами данных OV-COCO и OVLVIS демонстрируют, что Prompt-OVD обеспечивает впечатляющую скорость вывода в 21,2 раза выше, чем первый сквозной метод обнаружения открытого словаря (OV-DETR), а также достигает более высоких AP, чем четыре два. -этапные методы, работающие в одинаковых временных диапазонах вывода. Код будет доступен в ближайшее время
2. Обнаружение объектов с открытым словарем с использованием меток псевдозаголовков (arXiv)
Автор: Хан-Чхоль Чо, Вон Ён Джу, Уён Кан, Бёнсок Ро.
Аннотация: последние методы обнаружения с открытым словарем направлены на обнаружение новых объектов путем извлечения знаний из моделей языка зрения (VLM), обученных на огромном количестве пар изображение-текст. Чтобы повысить эффективность этих методов, исследователи использовали наборы данных с большим словарем, содержащим большое количество классов объектов, исходя из предположения, что такие данные позволят моделям извлекать всесторонние знания об отношениях между различными объектами и лучше обобщать невидимые объекты. классы. В этом исследовании мы утверждаем, что необходимы более подробные метки для извлечения более полных знаний о новых объектах, включая атрибуты объектов и отношения, в дополнение к их именам. Чтобы решить эту проблему, мы предлагаем простой и эффективный метод под названием Pseudo Caption Labeling (PCL), который использует модель подписей к изображениям для создания подписей, описывающих экземпляры объектов с разных точек зрения. Полученные метки псевдозаголовков предлагают плотные образцы для дистилляции знаний. В тесте LVIS наша лучшая модель, обученная на дедуплицированном наборе данных VisualGenome, достигает AP 34,5 и APr 30,6, что сравнимо с современной производительностью. Простота и гибкость PCL являются другими примечательными особенностями, поскольку это простой метод предварительной обработки, который можно использовать с любой моделью подписей к изображениям без каких-либо ограничений на архитектуру модели или процесс обучения.