- Meta-Transformer: унифицированная структура для мультимодального обучения (arXiv)
Автор: Июань Чжан, Кайсюн Гун, Кайпэн Чжан, Хуншэн Ли, Юй Цяо, Ваньли Оуян, Сянъюй Юэ.
Аннотация: мультимодальное обучение направлено на создание моделей, которые могут обрабатывать и связывать информацию из нескольких модальностей. Несмотря на многолетние разработки в этой области, по-прежнему сложно разработать единую сеть для обработки различных модальностей (например, естественного языка, 2D-изображений, 3D-облаков точек, аудио, видео, временных рядов, табличных данных) из-за присущих им пробелов. . В этой работе мы предлагаем структуру под названием Meta-Transformer, которая использует замороженный кодировщик для выполнения мультимодального восприятия без каких-либо парных мультимодальных обучающих данных. В Meta-Transformer необработанные входные данные из различных модальностей отображаются в общее пространство токенов, что позволяет последующему кодировщику с замороженными параметрами извлекать высокоуровневые семантические характеристики входных данных. Meta-Transformer, состоящий из трех основных компонентов: унифицированного токенизатора данных, кодировщика с общим модальностью и головок для конкретных задач для последующих задач, является первой платформой, выполняющей унифицированное обучение по 12 модальностям с непарными данными. Эксперименты на различных тестах показывают, что Meta-Transformer может решать широкий спектр задач, включая фундаментальное восприятие (текст, изображение, облако точек, аудио, видео), практическое применение (рентгеновское, инфракрасное, гиперспектральное и IMU) и интеллектуальный анализ данных. (графики, таблицы и временные ряды). Meta-Transformer указывает на многообещающее будущее для разработки унифицированного мультимодального интеллекта с трансформерами. Код будет доступен по адресу https://github.com/invictus717/MetaTransformer.
2. Мультимодальное машинное обучение для извлечения теорем и доказательств из научной литературы (arXiv)
Автор: Шрей Мишра, Антуан Гокье, Пьер Сенеллар.
Аннотация: Научные статьи в области математики содержат математические утверждения, такие как теоремы, предложения и т. д., а также их доказательства. Извлечение их из PDF-представления статей требует понимания научного текста, а также визуальных и шрифтовых индикаторов. Мы ставим эту проблему как проблему мультимодальной классификации, используя текст, функции шрифта и рендеринг растрового изображения PDF в качестве различных модальностей. В этой статье мы предлагаем мультимодальный подход к машинному обучению для извлечения сред и доказательств, подобных теоремам, на основе позднего слияния признаков, извлеченных отдельными одномодальными классификаторами, с учетом последовательной последовательности блоков в документе. Для текстовой модальности мы предварительно обучаем новую языковую модель на научном корпусе объемом 11 ГБ; эксперименты показывают аналогичную производительность для нашей задачи, чем модель (RoBERTa), предварительно обученная на 160 ГБ, с более быстрой сходимостью и требующей гораздо меньше данных для точной настройки. Информация на основе шрифтов основана на обучении LSTM из 128 ячеек на последовательности имен и размеров шрифтов в каждом блоке. Рендеринг растровых изображений выполняется с использованием глубокой сети EfficientNetv2, настроенной для классификации каждого блока изображения. Наконец, простой подход на основе CRF использует функции мультимодальной модели вместе с информацией о последовательностях блоков. Экспериментальные результаты показывают преимущества использования мультимодального подхода по сравнению с любой одиночной модальностью, а также значительные улучшения производительности с использованием CRF-моделирования последовательностей блоков.