1. PSNet: параллельная симметричная сеть для обнаружения заметных объектов на видео(arXiv)

Автор: Рунмин Конг, Вэйю Сун, Цзяньцзюнь Лэй, Гуанхуэй Юэ, Яо Чжао, Сэм Квонг.

Аннотация. Для задачи обнаружения заметных объектов видео (VSOD) вопрос о том, как извлечь информацию из модальности внешнего вида и модальности движения, всегда вызывал серьезную озабоченность. Двухпоточная структура, включающая поток внешнего вида RGB и поток движения оптического потока, широко используется в качестве типичного конвейера для задач VSOD, но существующие методы обычно используют только функции движения для однонаправленного управления функциями внешнего вида или адаптивно, но слепо объединяют два потока. Особенности модальности. Однако эти методы неэффективны в различных сценариях из-за неполных и неспецифических схем обучения. В этой статье, следуя философии более безопасного моделирования, мы более подробно исследуем важность модальности внешнего вида и модальности движения и предлагаем сеть VSOD с параллельной симметрией вверх и вниз, названную PSNet. Две параллельные ветви с различными доминирующими модальностями настроены для достижения полного декодирования видео заметности при сотрудничестве модуля Gather Diffusion Reinforcement (GDR) и модуля Cross-modality Refine and Complement (CRC). Наконец, мы используем модуль слияния восприятия важности (IPF), чтобы объединить функции из двух параллельных ветвей в соответствии с их разной важностью в разных сценариях. Эксперименты с четырьмя эталонными наборами данных показывают, что наш метод обеспечивает желаемую и конкурентоспособную производительность.

2. Действительно ли тепловое излучение всегда имеет значение для обнаружения заметных объектов RGB-T?(arXiv)

Автор: Рунмин Конг, Кепу Чжан, Чэнь Чжан, Фэн Чжэн, Яо Чжао, Цинмин Хуан, Сэм Квонг

Аннотация: В последние годы система обнаружения заметных объектов RGB-T (SOD) привлекает постоянное внимание, что позволяет идентифицировать выделяющиеся объекты в таких условиях, как слабое освещение, путем введения теплового изображения. Тем не менее, большинство существующих моделей RGB-T SOD сосредоточены на том, как выполнить слияние признаков кросс-модальности, игнорируя, действительно ли тепловое изображение всегда имеет значение в задаче SOD. Начиная с определения и характера этой задачи, в этой статье переосмысливается значение тепловой модальности и предлагается сеть с именем TNet для решения задачи RGB-T SOD. В этой статье мы вводим модуль оценки глобальной освещенности для прогнозирования глобальной оценки освещенности изображения, чтобы регулировать роль, которую играют две модальности. Кроме того, принимая во внимание роль тепловой модальности, мы устанавливаем различные механизмы кросс-модального взаимодействия на этапе кодирования и на этапе декодирования. С одной стороны, мы вводим поставщика семантических ограничений для обогащения семантики тепловых изображений на этапе кодирования, что делает тепловую модальность более подходящей для задачи SOD. С другой стороны, мы вводим двухэтапный модуль локализации и дополнения на этапе декодирования, чтобы передать сигнал локализации объекта и сигнал внутренней целостности в тепловых характеристиках в модальность RGB. Обширные эксперименты с тремя наборами данных показывают, что предложенный TNet обеспечивает конкурентоспособную производительность по сравнению с 20 современными методами.

3. CIR-Net: межмодальное взаимодействие и уточнение для обнаружения существенных объектов RGB-D(arXiv)

Автор: Руньминь Конг, Циньвэй Линь, Чэнь Чжан, Чонги Ли, Сяочунь Цао, Цинмин Хуан, Яо Чжао

Аннотация. Сосредоточив внимание на том, как эффективно собирать и использовать кросс-модальную информацию в задаче обнаружения существенных объектов RGB-D (SOD), мы представляем модель сверточной нейронной сети (CNN) под названием CIR- Net, основанный на новом кросс-модальном взаимодействии и усовершенствовании. Для межмодального взаимодействия: 1) предлагается прогрессивный блок интеграции, управляемый вниманием, для достаточной интеграции представлений признаков RGB-D на этапе кодирования, и 2) предлагается структура агрегации конвергенции, которая передает функции декодирования RGB и глубины в кодировщик. соответствующие потоки декодирования RGB-D через блок слияния со стробированием по важности на этапе декодера. Для уточнения кросс-модальности мы вставляем структуру промежуточного программного обеспечения уточнения между кодером и декодером, в которой функции кодировщика RGB, глубины и RGB-D дополнительно уточняются путем последовательного использования модуля уточнения самомодального внимания и кросс-модальности. блок уточнения взвешивания модальности. Наконец, с постепенно уточняемыми функциями мы предсказываем карту важности на этапе декодера. Обширные эксперименты с шестью популярными тестами RGB-D SOD демонстрируют, что наша сеть превосходит современные детекторы заметности как качественно, так и количественно.