Модель способна выполнять задачи с текстом, изображением/видео, звуком, глубиной (3D), тепловыми (инфракрасное излучение) и инерциальными измерительными единицами (IMU).

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 160 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Люди обладают замечательными способностями воспринимать и понимать информацию из различных сенсорных модальностей, таких как визуальные и слуховые стимулы. Точно так же потенциал машин для получения знаний одновременно и всесторонне из различных форм информации имеет большие перспективы. Следовательно, растет интерес к разработке систем искусственного интеллекта (ИИ), способных одновременно воспринимать и понимать информацию из нескольких модальностей, сродни человеческим возможностям. Однако предыдущие исследования в основном были сосредоточены на рассмотрении отдельных модальностей в отдельности, что приводило к ограниченным связям между различными модальностями и отсутствию целостного восприятия и понимания мультимодальных данных. Чтобы решить некоторые из этих проблем, исследователи из Кембриджского университета и Tencent AI Lab создали PandaGPT, универсальную модель, которая может следовать инструкциям, используя данные из шести модальностей.

PandaGPT использует мультимодальные кодировщики от ImageBind и выразительные языковые модели от Vicuna, чтобы продемонстрировать впечатляющие кросс-модальные возможности для модальностей изображения/видео, текста, аудио, глубины, тепловых и инерциальных единиц измерения (IMU). Примечательно, что PandaGPT достигает этих возможностей, несмотря на то, что он обучен исключительно на выровненных парах изображение-текст, благодаря общему пространству для встраивания, предоставляемому ImageBind. Интегрируя мультимодальную информацию, PandaGPT может выполнять широкий спектр задач, включая создание подробных описаний изображений, составление увлекательных историй, вдохновленных видео, и предоставление точных ответов на вопросы об аудиовходах. Примечательно, что основная инновация PandaGPT заключается в его способности естественным образом комбинировать семантику мультимодальных входных данных, облегчая широкий набор мультимодальных композиционных задач в разных модальностях. Например, он плавно связывает внешний вид объектов на фотографии с соответствующими звуками в аудиоклипе, тем самым создавая целостное и всестороннее представление о сцене. Эти кросс-модальные возможности позволяют модели превзойти традиционный одномодальный анализ, представляя собой начальный шаг к развитию искусственного общего интеллекта (ИИА), который может целостно воспринимать и понимать входные данные от различных модальностей, подобно людям.

В отличие от современного ландшафта мультимодальных моделей следования инструкциям, которые обучаются отдельно для конкретных модальностей, PandaGPT выделяется своей способностью понимать и интегрировать информацию в различных форматах. Он демонстрирует умение обрабатывать различные модальности, включая текст, изображения/видео, аудио, единицы измерения глубины (3D), тепловые (инфракрасное излучение) и инерциальные единицы измерения (IMU). Замечательные возможности, демонстрируемые PandaGPT, выходят за рамки узкого круга задач и охватывают широкий спектр задач, некоторые из которых приведены ниже:

· Ответы на вопросы, основанные на изображении/видео: PandaGPT может эффективно отвечать на вопросы, основанные на визуальном или видеоконтенте, предоставляя точные ответы, основанные на визуальном контексте.

· Креативное письмо, вдохновленное изображениями/видео. Используя влияние изображений или видео, PandaGPT умеет создавать убедительные и творческие письменные композиции.

· Визуальное и слуховое мышление: одновременно анализируя визуальную и слуховую информацию, PandaGPT демонстрирует продвинутые способности к рассуждению, которые позволяют ему делать выводы и делать выводы на основе комбинированного ввода.

· Мультимодальная арифметика: PandaGPT обладает способностью выполнять арифметические операции с мультимодальными данными, включая числовые значения из разных модальностей для получения желаемых результатов.

Эти возможности иллюстрируют универсальность PandaGPT в понимании и объединении мультимодальной информации, подчеркивая ее потенциал революционизировать различные области, требующие всестороннего и взаимосвязанного понимания данных по нескольким сенсорным модальностям.

Архитектура

PandaGPT демонстрирует замечательные возможности в обучении с опорой на зрение и звук, сочетая мультимодальные кодировщики, полученные от ImageBind, и большие языковые модели, полученные от Vicuna. Процесс обучения PandaGPT включает в себя согласование пространства функций мультимодальных кодировщиков из ImageBind с большими языковыми моделями из Vicuna. Для этой цели используется набор данных, содержащий 160 тыс. примеров выполнения инструкций на языке изображений. Каждый экземпляр состоит из изображения и данных многооборотного диалога, состоящего из пар ответов человека и системы.

Чтобы свести к минимуму количество обучаемых параметров, PandaGPT фокусируется на обучении матрицы линейной проекции для установления связи между представлением, сгенерированным ImageBind и Vicuna. Кроме того, веса LoRA используются в модулях внимания Vicuna. Представление изображения, созданное ImageBind, вместе с фиксированными параметрами из ImageBind и Vicuna образуют компоненты обучаемых параметров. Во время обучения потери вычисляются исключительно на основе ответов системы. PandaGPT обучается на наборе данных следования инструкциям на языке изображений в течение двух эпох, используя скорость обучения 5e-4 с линейным затуханием. Максимальная длина последовательности для Vicuna-13B установлена ​​равной 400 с учетом доступных вычислительных ресурсов, включая 8 графических процессоров A100 40G. Учебный процесс завершается примерно за 7 часов.

Следует отметить, что текущая версия PandaGPT обучается исключительно на выровненных данных изображения и текста. Однако, используя свойство связывания, унаследованное от замороженных кодировщиков ImageBind, в шести модальностях (изображение/видео, текст, аудио, глубина, тепловое излучение и IMU), PandaGPT демонстрирует возникающие кросс-модальные возможности без какого-либо явного обучения во всех модальностях.

PandaGPT в действии

С функциональной точки зрения PandaGPT предоставляет разные возможности в разных модальностях. Модель может выполнять такие задачи, как генерация описания изображения, написание историй, вдохновленных видео, и ответы на вопросы об аудио. Еще более интересным является тот факт, что PandaGPT может принимать входные данные в разных модальностях. Следующие примеры иллюстрируют некоторые возможности PAndaGPT.

PandaGPT представляет собой одну из самых интересных мультимодальных базовых моделей, созданных за последние несколько месяцев. Модель находится в открытом доступе вместе с обучающими наборами данных.