В марте OpenAI выпустила GPT-4, преемницу знаменитой модели GPT-3. Несмотря на то, что он обладает многими впечатляющими функциями, такими как возможность обработки более длинных контекстных окон, более продвинутое мышление и навыки генерации и понимания на естественном языке, одной из самых удивительных добавленных функций является возможность обработки ввода изображения. Действительно, GPT-4 является мультимодальным, то есть он может генерировать контент на основе как изображений, так и текстовых входных данных.
Что такое мультимодальное обучение? Зачем нам это делать? Как мы можем использовать и комбинировать информацию из разных модальностей данных, представленных в совершенно разных форматах (пиксели, сигналы, предложения…)? Все вопросы, которые пришли мне в голову, когда я впервые услышал о мультимодальном обучении.
Как люди, мы воспринимаем мир по-разному: мы видим, мы слышим, мы чувствуем, мы пробуем на вкус и обоняем вещи. Информация приходит к нам во множестве ароматов, и мы используем все эти впечатления для получения контекста вокруг нас. Например, когда мы едем по городу на велосипеде, мы используем не только зрение, но и слух, чтобы безопасно вести себя в пробках. То же самое касается социальных взаимодействий, которые мы имеем со сверстниками: мы слушаем, что они говорят, мы прислушиваемся к тону их голоса, мы смотрим на язык тела и выражение лица, чтобы лучше понять сообщение, которое они на самом деле хотят передать. .
Это вдохновило на создание области мультимодального обучения, целью которого является обработка и интеграция информации из разных модальностей. Используя информацию из разных модальностей, модель может более эффективно обрабатывать зашумленные, неполные или неоднозначные данные и может привести к повышению точности и производительности в различных задачах.
Некоторые из этих мультимодальных задач включают в себя:
- Медицинская диагностика на основе медицинских изображений (рентген, МРТ…) и данных пациента, таких как история болезни и текущие симптомы.
- Автономные транспортные средства, использующие камеры, данные радара и лидара в сочетании
- Анализ социальных сетей: объединяйте изображения, текст и видео, чтобы обнаруживать, например, поддельные новости или выполнять анализ настроений.
- Обнаружение сарказма/чувства: объединяйте речевые данные с визуальными данными
- Подпись к изображению: описывайте изображения текстом на естественном языке
К сожалению, объединение этих различных источников информации не кажется очень простым. Одной из основных проблем является поиск подходящего представления для каждой модальности и обеспечение того, чтобы их можно было выровнять и перевести в общее пространство признаков. Еще одной проблемой является слияние и совместное изучение модальностей, что включает в себя решение о том, как следует комбинировать различные типы информации для получения наилучшего результата. Масштабируемость также вызывает беспокойство, поскольку мультимодальное обучение часто требует больших объемов данных для эффективного обучения моделей. Наконец, интерпретируемость может быть проблемой, поскольку может быть трудно понять и понять, как различные модальности влияют на конечный результат.
Давайте теперь углубимся в 5 различных выявленных проблем:
- Представление
Как представить различные модальности?
Мультимодальное обучение включает в себя объединение информации из самых разных источников, таких как изображения (представленные в виде пикселей), аудио (представленные в виде сигналов), текст (представленный в виде последовательностей слов) и другие, таким образом, чтобы была зафиксирована вся необходимая информация из каждой модальности, что позволяет модель машинного обучения, чтобы понять ее и получить от нее представление.
Существует два основных подхода, а именно согласованное и совместное представительство. Совместное представление включает в себя встраивание всех модальностей в одно векторное представление в одном и том же пространстве. Скоординированное представительство, с другой стороны, будет представлять все модальности по отдельности, но гарантирует, что их представления работают вместе для достижения общей цели. Это включает в себя использование методов выравнивания, таких как механизмы внимания или методы кросс-модального встраивания, для выравнивания представлений по модальностям.
2. Перевод
Как мы можем переводить информацию между различными модальностями?
Проблема перевода относится к проблеме перевода информации между различными модальностями, такой как преобразование слуховых сигналов (звук) в лингвистические сигналы (текст).
Эту проблему можно решить, например, используя модели кодер-декодер или механизмы внимания для сопоставления признаков одной модальности с другой. В случае задачи подписи к изображению модели потребуется перевести визуальную информацию в изображении в текстовый формат, отражающий семантический контекст изображения. Для этого модель может использовать кодировщик для создания визуального представления изображения и декодер для создания описания изображения на естественном языке на основе этого закодированного представления.
3. Выравнивание
Как мы согласовываем информацию из разных модальностей?
Задача согласования важна, потому что она позволяет модели идентифицировать отношения между различными модальностями и использовать эту информацию для улучшения своих прогнозов. Допустим, мы хотим обнаружить эмоции в видео. У нас есть визуальная информация в виде кадров и аудиоинформация в виде звуковых волн. Модель должна найти способ согласования визуальной информации со звуковой информацией таким образом, чтобы она могла идентифицировать взаимосвязь между аудио и видео для определения правильных эмоций. Это часто делается с использованием механизма внимания, который позволяет модели определить, какие части входной модальности соответствуют друг другу, и присвоить более высокие веса тем частям, которые более важны для прогноза. Например, модель может учитывать определенные кадры видео и определенные сегменты аудиосигнала, которые имеют отношение к прогнозируемой эмоции.
4. Слияние
Как мы можем объединить информацию из нескольких модальностей для выполнения классификации или регрессии?
Обычно используемые методы слияния данных включают раннее слияние, позднее слияние и промежуточное слияние.
При раннем слиянии входные данные из разных модальностей объединяются в начале архитектуры модели. Другими словами, признаки, извлеченные из разных модальностей, объединяются вместе, а затем передаются в качестве входных данных на первый уровень модели. Основное преимущество заключается в том, что этот подход позволяет модели фиксировать взаимодействие между модальностями уже с самого начала. Кроме того, это упростит процесс обучения, поскольку все модальности обучаются вместе. Однако недостатком является то, что размер входного вектора может стать слишком большим для эффективной обработки, что приводит к дополнительным вычислительным затратам. Для повышения производительности раннего слияния часто используются такие методы, как PCA и CCA. PCA можно использовать для уменьшения размерности мультимодальных данных высокой размерности при сохранении наиболее важной информации. CCA, с другой стороны, можно использовать для поиска линейных комбинаций признаков, которые наиболее коррелируют между собой в разных модальностях.
При позднем слиянии фактическое слияние различных модальностей происходит во время прогнозирования. В основном различные модальности обрабатываются отдельными одномодальными сетями. Впоследствии изученные представления объединяются на более позднем этапе и в конечном итоге передаются на окончательный сетевой уровень для создания прогноза. Этот подход напоминает ансамблевый классификатор. Механизм слияния в конце может быть голосованием, взвешенной суммой или подходом ML. Поскольку каждая модальность будет обрабатываться отдельно в одномодальных сетях, эти сети могут использовать более специализированный метод извлечения признаков, что может привести к лучшему представлению каждой модальности. Однако индивидуальная обработка делает этот подход довольно затратным в вычислительном отношении, поскольку теперь необходимо обучать несколько отдельных моделей. Наконец, поскольку каждая модальность обучается индивидуально, некоторые корреляции между модальностями могут быть не зафиксированы, что приводит к отбрасыванию потенциально важной информации.
Промежуточное слияние – это наиболее гибкий метод, позволяющий объединять различные модальности на разных уровнях модельной сети. Каждая модальность сначала обрабатывается отдельно, а затем извлеченные представления объединяются на некотором промежуточном уровне модели. Основная проблема здесь заключается в определении оптимального сочетания модальностей и слоев, на которых они объединяются.
5. Совместное обучение
Как мы можем передавать знания между модальностями?
Совместное обучение — это передача знаний между модальностями путем включения внешних данных. Идея совместного обучения состоит в том, чтобы использовать одну модальность для помощи в изучении другой модальности, что может быть особенно полезно, когда одна модальность имеет ограниченные ресурсы, зашумленный ввод или ненадежные ярлыки. Включая внешние данные, совместное обучение может помочь повысить точность и надежность процесса обучения. В совместном обучении используются различные методы, такие как трансферное обучение, многозадачное обучение и адаптация предметной области.
В заключение, мультимодальное обучение — это захватывающая и сложная область исследований, целью которой является объединение информации из разных модальностей таким образом, чтобы позволить машинам понимать окружающий мир и учиться у него так же, как это делают люди. Мультимодальное обучение может улучшить многие приложения, такие как распознавание изображений и речи, обработка естественного языка и робототехника. Однако в этой области еще предстоит преодолеть множество проблем, включая представление, перевод, выравнивание, слияние, совместное обучение, масштабируемость и интерпретируемость. Ярким примером потенциала мультимодального обучения является GPT-4, который, в отличие от GPT-3, может обрабатывать как текст, так и ввод изображений. Однако особенности того, как GPT-4 достигает этой мультимодальности, еще не обнародованы. Поскольку исследователи продолжают изучать эти проблемы, мы можем ожидать появления еще более инновационных и продвинутых мультимодальных систем обучения в будущем.
Ресурсы
https://medium.com/haileleol-tibebu/data-fusion-78e68e65b2d1
https://engineering.mercari.com/en/blog/entry/20210623-5-core-challenges-in- мультимодальное машинное обучение/
https://blog.qburst.com/2021/12/мультимодальное-глубокое-обучение-вызовы-и-потенциал/
https://www. v7labs.com/blog/multimodal-deep-learning-guide
https://heartbeat.comet.ml/introduction-to-multimodal-deep-learning-630b259f9291
https:// ieeexplore.ieee.org/abstract/document/8103116
Вам также может понравиться
Революция образов и как создать логотип с DALL-E — Виржини Марелли