1. OneCAD: один классификатор для всех наборов данных изображений с использованием мультимодального обучения (arXiv)

Автор: Шакти Н. Вадекар, Эудженио Кулурселло.

Аннотация: Vision-Transformers (ViTs) и сверточные нейронные сети (CNN) широко используются в Deep Neural Networks (DNN) для задачи классификации. Архитектуры этих моделей зависят от количества классов в наборе данных, на котором они обучались. Любое изменение количества классов приводит к изменению (частичному или полному) архитектуры модели. В этой работе рассматривается вопрос: возможно ли создать архитектуру модели, не зависящую от числа классов? Это позволяет архитектуре модели быть независимой от набора данных, на котором она обучается. В этой работе освещаются проблемы с текущими архитектурами (ViT и CNN). Кроме того, предлагается платформа обучения и логического вывода OneCAD (один классификатор для всех наборов данных изображений) для создания модели преобразователя, близкой к числу классов, не зависящей от числа классов. Насколько нам известно, это первая работа, в которой используется Mask-Image-Modeling (MIM) с мультимодальным обучением для задачи классификации для создания архитектуры модели DNN, не зависящей от количества классов. Предварительные результаты показаны на наборах данных естественных и медицинских изображений. Наборы данных: MNIST, CIFAR10, CIFAR100 и COVIDx. Код скоро будет общедоступен на github

2.ChinaOpen: набор данных для мультимодального обучения в открытом мире (arXiv)

Автор: Аочжу Чен, Цзыюань Ван, Чэнбо Дун, Кайбин Тянь, Жуйсян Чжао, Сюнь Лян, Чжаньхуэй Кан, Сиронг Ли.

Аннотация: В этой статье представлен ChinaOpen, набор данных, полученный от Bilibili, популярного китайского веб-сайта для обмена видео, для мультимодального обучения в открытом мире. В то время как современные мультимодальные обучающие сети продемонстрировали впечатляющую производительность в автоматизированном аннотировании видео и кросс-модальном поиске видео, их обучение и оценка в основном проводились на видео YouTube с английским текстом. Их эффективность на китайских данных еще предстоит проверить. Чтобы поддержать мультимодальное обучение в новом контексте, мы создаем ChinaOpen-50k, веб-аннотированный обучающий набор из 50 000 видео Bilibili, связанных с пользовательскими заголовками и тегами. Очистка данных как на основе текста, так и на основе контента выполняется для предварительного удаления видео низкого качества. Для многогранной оценки мы создаем ChinaOpen-1k, тестовый набор видео размером 1k, размеченный вручную, где каждое видео сопровождается проверенным вручную заголовком пользователя и подписью, написанной вручную. Кроме того, каждое тестовое видео вручную помечается тегами, описывающими, какие визуальные объекты/действия/сцены присутствуют в визуальном контенте. Исходные пользовательские теги также проверяются вручную. Кроме того, поскольку весь китайский текст переведен на английский язык, ChinaOpen-1k также подходит для оценки моделей, обученных на данных английского языка. В дополнение к ChinaOpen мы предлагаем Генеративный преобразователь видео в текст (GVT) для субтитров на китайском языке. Мы проводим обширную оценку современных однозадачных/многозадачных моделей на новом наборе данных, в результате чего был сделан ряд новых выводов и идей.