Модель сочетает в себе язык и компьютерное зрение, чтобы обеспечить сложные возможности рассуждения.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 150 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Рассуждения часто называют следующим рубежом фундаментальных моделей. Проблема рассуждений невероятно сложна в одной предметной области, но чрезвычайно усложняется в мультимодальных сценариях. Один из этих мультимодальных сценариев рассуждений, специально сочетающий компьютерное зрение и язык, был в центре внимания недавнего исследования Microsoft.

В последние годы компьютерное зрение добилось значительного прогресса благодаря различным факторам, таким как улучшенная сетевая архитектура и крупномасштабное обучение моделей. Однако для решения различных проблем со зрением часто требуются разные модели, которые требуют ручного выбора и компоновки для каждого варианта использования. Один из способов решить эту проблему — объединить визуальный и языковой модули в единую сквозную модель. Исследовательский отдел Microsoft исследовал это направление исследований с помощью таких систем, как Flamingo и PaLM-E, которые обеспечивают взаимодействие пользователей с диалогами. Эти системы кодируют визуальные сигналы в специальные текстовые маркеры или функции, которые может понять языковой модуль, что позволяет системе использовать языковой модуль для понимания пользовательских запросов и предоставления ответов.

Вдохновленная этой эффективностью рассуждений и действий с помощью LLM и инструментов NLP, Microsoft Research исследует интеграцию экспертных инструментов по зрению с LLM. Они создали MM-REACT, системную парадигму, которая объединяет многочисленных экспертов по видению с ChatGPT для мультимодальных рассуждений и действий.

ММ-РЕАКТ

Цель MM-REACT — улучшить визуальное понимание ChatGPT, собрав многочисленных экспертов по зрению. Эксперт по зрению обращается к модели компьютерного зрения, которая интерпретирует содержимое изображения с разных точек зрения. Например, эксперт по подписям к изображениям создает естественное описание, эксперт по распознаванию символов извлекает текст сцены на изображении, модель распознавания знаменитостей идентифицирует имена знаменитостей, а модель обнаружения объектов извлекает заметный объект с расположением ограничивающей рамки. В настоящее время приходится вручную выбирать, каких специалистов по машинному зрению использовать для конкретных случаев использования, и вручную комбинировать их. Однако цель состоит в том, чтобы автоматизировать этот процесс на основе требований пользователя к запросам на естественном языке.

ChatGPT — это чат-бот с искусственным интеллектом, который использует текст как для ввода, так и для вывода, но ему не хватает визуального понимания. Тем не менее, ChatGPT обладает мощными возможностями обучения инструкциям, что побудило Microsoft Research проинструктировать ChatGPT, чтобы определить, какой эксперт по зрению должен быть вызван и какое изображение должно быть обработано точно.

С точки зрения архитектуры MM-REACT действует как уровень визуального понимания поверх ChatGPT. Пользователь может предоставлять входные данные в различных формах, таких как текст, изображения или видео, причем последние два представляются в виде строк пути к файлу. Если ChatGPT требуется эксперт по зрению для интерпретации визуальных входных данных, ему предписывается использовать определенные лозунги в запросе действия. Сопоставление регулярных выражений применяется для извлечения имени эксперта и пути к файлу, которые затем используются для выполнения действия и вызова эксперта по зрению. Вывод или наблюдение эксперта сериализуются в виде текста и объединяются с историей для дальнейшей активации ChatGPT. Если дополнительные эксперты не требуются, MM-REACT возвращает окончательный ответ пользователю.

Следующее изображение иллюстрирует рассуждения MM-REACT в действии.

На следующем рисунке показаны MM-REACT в сценарии визуального математического рассуждения.

Подобные возможности можно увидеть и в других сценариях, таких как пространственное понимание или визуальное планирование.

MM-REACT сочетает в себе два самых амбициозных направления исследований в области моделей фундамента: мультимодальность и обоснование. Первоначальная реализация доступна через Hugging Face. Это также отличный пример построения логических рассуждений поверх ChatGPT. Было бы интересно увидеть итерации Microsoft в этой области.