- StreamYOLO: Обнаружение объектов в реальном времени для потокового восприятия (arXiv)
Автор:Цзинжун Ян, Сунтао Лю, Цземинг Ли, Сяопин Ли, Цзянь Сунь
Вывод: Перцептивные модели автономного вождения требуют быстрого вывода с малой задержкой для обеспечения безопасности. В то время как существующие работы игнорируют неизбежные изменения окружающей среды после обработки, потоковое восприятие совместно оценивает задержку и точность в единую метрику для восприятия видео онлайн, направляя предыдущие работы на поиск компромисса между точностью и скоростью. В этой статье мы исследуем производительность моделей реального времени по этому показателю и наделяем модели способностью предсказывать будущее, значительно улучшая результаты восприятия потоковой передачи. В частности, мы создаем простую структуру с двумя эффективными модулями. Одним из них является модуль восприятия двойного потока (DFP). Он состоит из динамического потока и статического потока, параллельных для захвата тенденции движения и основных функций обнаружения соответственно. Trend Aware Loss (TAL) — это еще один модуль, который адаптивно генерирует вес потерь для каждого объекта в зависимости от его скорости движения. На самом деле, мы рассматриваем сцену вождения с несколькими скоростями и дополнительно предлагаем потоковую точку доступа с поддержкой скорости (VsAP) для совместной оценки точности. В этих реалистичных условиях мы разрабатываем эффективную стратегию обучения смешанным скоростям, чтобы детектор воспринимал любые скорости. Наш простой метод обеспечивает самую современную производительность в наборе данных Argoverse-HD и улучшает sAP и VsAP на 4,7% и 8,2% соответственно по сравнению с сильным базовым уровнем, подтверждая его эффективность.
2. Обнаружение полностью разреженных 3D-объектов (arXiv)
Автор: Лю Фан, Фэн Ван, Найян Ван, Чжаосян Чжан
Аннотация: по мере увеличения диапазона восприятия LiDAR обнаружение трехмерных объектов на основе LiDAR становится доминирующей задачей в задаче восприятия на большие расстояния при автономном вождении. Основные детекторы 3D-объектов обычно создают плотные карты признаков в сетевой магистрали и головке прогнозирования. Однако вычислительные и пространственные затраты на плотной карте признаков квадратичны по отношению к диапазону восприятия, что затрудняет их масштабирование до настройки дальнего действия. Чтобы обеспечить эффективное обнаружение объектов на основе LiDAR на большом расстоянии, мы создаем полностью разреженный детектор 3D-объектов (FSD). Вычислительная и пространственная стоимость FSD примерно линейна по количеству точек и не зависит от диапазона восприятия. FSD построен на основе обычного кодировщика разреженных вокселей и нового модуля распознавания разреженных экземпляров (SIR). SIR сначала группирует точки в экземпляры, а затем применяет извлечение и прогнозирование признаков по экземплярам. Таким образом, SIR решает проблему отсутствия центральной функции, которая препятствует разработке полностью разреженной архитектуры для всех детекторов на основе центра или на основе якоря. Кроме того, SIR позволяет избежать трудоемких запросов к соседям в предыдущих методах на основе точек, группируя точки в экземпляры. Мы проводим обширные эксперименты с крупномасштабным открытым набором данных Waymo, чтобы выявить рабочий механизм FSD, и сообщаем о самых современных характеристиках. Чтобы продемонстрировать превосходство FSD в обнаружении на большом расстоянии, мы также проводим эксперименты с набором данных Argoverse 2, который имеет гораздо больший диапазон восприятия (200 м), чем открытый набор данных Waymo (75 м). В таком большом диапазоне восприятия FSD достигает самой современной производительности и в 2,4 раза быстрее, чем плотный аналог. Коды будут выпущены на https://github.com/TuSimple/SST.
3. Более практичный сценарий обнаружения открытых объектов: открытие на уровне категории и закрытие на уровне надкатегории (arXiv)
Автор:Юсукэ Хосоя, Масанори Суганума, Такаюки Окатани
Аннотация: Обнаружение открытых объектов (OSOD) недавно привлекло значительное внимание. Это для обнаружения неизвестных объектов при правильном обнаружении/классификации известных объектов. Во-первых, отметим, что рассмотренный в недавних исследованиях сценарий OSOD, рассматривающий неограниченное количество неизвестных объектов, аналогичный распознаванию открытых множеств (OSR), имеет фундаментальную проблему. То есть мы не можем определить, что обнаруживать, а что нет для такого неограниченного количества неизвестных объектов, что необходимо для задач обнаружения. Эта проблема приводит к сложности с оценкой эффективности методов обнаружения неизвестных объектов. Затем мы представляем новый сценарий OSOD, который имеет дело только с неизвестными объектами, имеющими общую суперкатегорию с известными объектами. Он имеет множество реальных применений, например, обнаружение растущего числа мелкозернистых объектов. Эта новая настройка свободна от вышеупомянутой проблемы и сложности оценки. Кроме того, это делает обнаружение неизвестных объектов более реалистичным благодаря визуальному сходству между известными и неизвестными объектами. На основе экспериментальных результатов мы показываем, что простой метод, основанный на неопределенности предсказания класса от стандартных детекторов, превосходит текущие современные методы OSOD, протестированные в предыдущей настройке.
4. PoserNet: уточнение относительных поз камеры с использованием обнаружения объектов (arXiv)
Автор: Маттео Тайана, Маттео Тосо, Стюарт Джеймс, Алессио Дель Буэ
Аннотация: оценка позы камеры, связанной с набором изображений, обычно основывается на совпадении признаков между изображениями. Напротив, мы первыми решили эту проблему, используя области объектности для решения проблемы оценки позы, а не явные семантические обнаружения объектов. Мы предлагаем Pose Refiner Network (PoserNet) — облегченную графовую нейронную сеть для уточнения приблизительных попарных относительных поз камеры. PoserNet использует ассоциации между областями объектности — кратко выраженные в виде ограничивающих рамок — в нескольких представлениях для глобального уточнения редко связанных графов представлений. Мы оцениваем набор данных из 7 сцен на графиках разного размера и показываем, как этот процесс может быть полезен для основанных на оптимизации алгоритмов усреднения движения, улучшающих медианную ошибку при повороте на 62 градуса по сравнению с первоначальными оценками, полученными на основе ограничительных рамок. Код и данные доступны по адресу https://github.com/IIT-PAVIS/PoserNet.