- IMP: итеративное сопоставление и оценка позы с адаптивным объединением (arXiv)
Автор: Фэй Сюэ, Игнас Будвитис, Роберто Чиполла.
Аннотация: Предыдущие методы решают сопоставление признаков и оценку позы, используя двухэтапный процесс: сначала находят совпадения, а затем оценивают позу. Поскольку они игнорируют геометрические отношения между двумя задачами, они сосредотачиваются либо на улучшении качества совпадений, либо на фильтрации потенциальных выбросов, что приводит к ограниченной эффективности или точности. Напротив, мы предлагаем итеративную структуру сопоставления и оценки позы (IMP), использующую геометрические связи между двумя задачами: нескольких хороших совпадений достаточно для примерно точной оценки позы; примерно точную позу можно использовать для сопоставления, обеспечивая геометрические ограничения. С этой целью мы реализуем рекуррентный модуль внимания с учетом геометрии, который совместно выводит разреженные совпадения и позы камеры. В частности, для каждой итерации мы сначала неявно встраиваем геометрическую информацию в модуль через потерю согласованности позы, что позволяет ему постепенно прогнозировать совпадения с учетом геометрии. Во-вторых, мы представляем эффективный \textbf{e}IMP, называемый EIMP, для динамического отбрасывания ключевых точек без потенциальных совпадений, избегая избыточного обновления и значительно уменьшая квадратичную временную сложность вычисления внимания в преобразователях. Эксперименты с наборами данных YFCC100m, Scannet и Aachen Day-Night показывают, что предлагаемый метод превосходит предыдущие подходы с точки зрения точности и эффективности.
2. Улучшение визуально-семантического встраивания с помощью адаптивного объединения и цели оптимизации (arXiv)
Автор: Цзыцзянь Чжан, Чан Шу, Я Сяо, Юань Шэнь, Ди Чжу, Цзин Сяо, Юсин Чен, Джей Хань Лау, Цянь Чжан, Чжэн Лу
Аннотация: Визуально-семантическое встраивание (VSE) направлено на изучение пространства встраивания, в котором связанные визуальные и семантические экземпляры близки друг к другу. Последние модели VSE, как правило, проектируют сложные структуры для объединения визуальных и семантических функций в векторы фиксированной длины и используют жесткую потерю триплетов для оптимизации. Однако мы находим, что: (1) сочетание простых методов объединения не хуже, чем эти сложные методы; и (2) рассмотрение только наиболее трудно различимой отрицательной выборки приводит к медленной сходимости и плохому улучшению Recall@K. С этой целью мы предлагаем стратегию адаптивного объединения, которая позволяет модели научиться объединять функции с помощью комбинации простых методов объединения. Мы также представляем стратегию динамического выбора группы отрицательных выборок, чтобы оптимизация сходилась быстрее и работала лучше. Экспериментальные результаты на Flickr30K и MS-COCO демонстрируют, что стандартная VSE, использующая наши стратегии объединения и оптимизации, превосходит текущие современные системы (по крайней мере, 1,0% по показателям отзыва) в преобразованиях изображения в текст и текста в текст. -поиск изображения. Исходный код наших экспериментов доступен по адресу https://github.com/96-Zachary/vse_2ad.