Когда я рос, одной из первых вещей, которые захватили мое сердце, была музыка; оно не только имеет огромное значение в моей жизни, но и имеет вселенское значение. Музыка с ее неземной способностью преодолевать языковые барьеры и культурные границы служит свидетельством общих эмоций и опыта, которые объединяют человечество. Это среда, которая позволяет людям выражать свои сокровенные мысли, радости, печали и стремления, охватывая различные культуры, чтобы создать чувство единства.

В последнее время уникальный и абстрактный мир музыки получил еще большее распространение. Точнее, нейробиологические исследования; эти исследования углубляются в представление музыки в нашем мозгу. Было проведено множество исследований активности человеческого мозга; Эти исследования, проведенные с использованием функциональной магнитно-резонансной томографии (фМРТ), дают захватывающий взгляд на внутреннюю работу нашего разума, когда мы слушаем мелодии.

Недавно была опубликована статья под названием Brain2Music: Reconstructing Music from Human Brain Activity, авторами которой являются Тимо И. Денк, Ю Такаги, Такуя Мацуяма, Андреа Агостинелли, Томоя Накаи, Кристиан Франк и Синдзи Нисимото. В этой статье мы углубимся в реконструкцию музыки по результатам сканирования активности мозга с помощью MusicLM (подробнее я углублюсь в это позже). Музыка реконструируется с помощью фМРТ-сканирования путем прогнозирования семантически структурированных музыкальных вложений высокого уровня и использования глубокой нейронной сети (DNN) для генерации музыки на основе этих функций. Теперь, когда я дал вам краткий обзор, давайте перейдем к этой статье!

бумажный обзор.

Прежде чем перейти непосредственно к архитектуре модели и к тому, как работает эта DNN, давайте сделаем шаг назад и поймем предыдущую работу в этой области, которая позволила этой новой модели процветать. В области музыки x ML существует два основных подмножества, которые позволили этому исследованию воплотиться в жизнь: модели генерации музыки и кодирование + декодирование звука фМРТ.

модели генерации музыки.

Создание музыки было действительно сложной задачей, потому что важно, чтобы создаваемая музыка была высокого качества и сохраняла долговременную стабильность. Это стремление привело к появлению разнообразных подходов, каждый из которых направлен на освоение сложного взаимодействия высококачественного звука и постоянной согласованности. Одна новаторская попытка представила тщательно структурированную иерархию временных решений. Эта сложная структура, управляемая моделями преобразователей, обеспечивает генерацию музыки с поразительной временной целостностью. Однако, хотя этот подход обеспечивает высокую согласованность, иногда он приводит к заметным артефактам. (Для справки, здесь речь идет о модели PerceiverAR).

Альтернативный подход предполагает использование моделей авторегрессии и диффузии, которые играют ключевую роль в повышении качества синтеза как музыки, так и более широкого создания аудио. В предыдущем исследовании AudioLM была представлена ​​концепция авторегрессионного моделирования иерархической схемы токенизации. Этот подход плавно интегрирует семантические и акустические дискретные представления звука. Развивая эту идею, MusicLM сочетает в себе структуру AudioLM с совместной моделью встраивания музыки и текста. Эта интеграция позволяет создавать высококачественную музыку на основе подробных текстовых описаний.

Это звучит немного сложно, но позвольте мне привести аналогию, чтобы было немного проще

Представьте себе мир синтеза звука как симфонию творчества, где разные техники играют роли музыкантов-виртуозов. Среди них модели, основанные на авторегрессии и диффузии, выходят на сцену в качестве мастеров-композиторов, совершенствуя качество музыки и расширяя возможности генерации звука.

Думайте об AudioLM как об опытном художнике, создающем шедевр на холсте. Они накладывают цвета, чтобы создать глубину, сочетая широкие мазки (семантические элементы) со сложными деталями (акустические элементы). Это слияние создает гармоничное произведение искусства, подобное музыкальным нотам, образующим симфонию. Встречайте MusicLM, куратора, который мечтает о гармоничном сотрудничестве. Он берет холст шедевра AudioLM и соединяет его с дополнительным фрагментом — описательным текстом, похожим на поэзию. Такое сочетание обогащает впечатления, подобно объединению искусства и литературы, добавляя слои смысла и глубины.

В этой аналогии модели, как опытные музыканты, гармонизируют свои усилия. Они создают многослойные композиции, вызывающие эмоции и углубляющие наше понимание, подобно тому, как симфония находит отклик у публики, оставляя неизгладимое воздействие.

Теперь вернемся к моделям генерации музыки!

В рамках Brain2Music в основном использовался MusicLM. Используемая методология может быть адаптирована к любому музыкальному генератору. Однако предварительным условием для музыкального генератора является то, что он должен иметь возможность учитывать условия плотного вложения. Это требование заключается в том, что генератор должен иметь возможность самонастраиваться на основе подробного внедрения, которое представляет собой набор инструкций или информации, определяющей способ создания музыки.

Декодирование и кодирование звука фМРТ.

Важной задачей в области нейробиологии является понимание того, как активность мозга связана с нашим сенсорным и когнитивным опытом. Чтобы добиться этого, ученые создают модели кодирования, чтобы точно определить, какие аспекты этих переживаний (например, цвета, движение и звуки) соответствуют конкретным моделям активности мозга. С другой стороны, они также разрабатывают модели декодирования, которые могут определить содержание опыта на основе различных моделей активности мозга.

Недавний прогресс привел к примечательным открытиям. Исследователи обнаружили сходство между внутренними представлениями моделей глубокого обучения и представлениями в мозге в различных сенсорных и когнитивных аспектах. Это открытие способствовало пониманию функций мозга посредством разработки моделей кодирования, основанных на этих представлениях, их интерпретации в отношении функций мозга и даже реконструкции переживаемого контента (например, визуальных изображений) на основе мозговой активности.

Обращаясь к исследованию слуховых функций мозга, ученые создали модели кодирования, использующие методы глубокого обучения для обработки слуховых сигналов. Кроме того, они участвовали в исследованиях по восстановлению воспринимаемых звуков на основе активности мозга. Однако эти исследования в основном сосредоточены на общих звуках, включая голоса и повседневные звуки. Интересно, что не было ни одного случая построения моделей кодирования с использованием внутренних представлений генеративных моделей преобразования текста в музыку или реконструкции музыкальных переживаний на основе активности мозга с упором конкретно на отличительные особенности музыки.

Теперь, когда у нас есть четкое представление о предыдущей работе, давайте перейдем к тому, как на самом деле работает эта модель!

понимание архитектуры модели.

МуЛан и МузыкаLM

MuLan — это модель, сочетающая встраивание текста и музыки. Он состоит из двух частей: текстовой (MuLantext) и музыкальной (MuLanmusic). Текстовая часть использует модель BERT, предварительно обученную на большом количестве текста. В музыкальной части используется вариант ResNet-50, известный как ResNet-50. Цель MuLan во время обучения — убедиться, что встраивания, которые он генерирует как для музыки, так и для текста, одинаковы для связанных примеров. Например, вставка рок-песни должна быть аналогична вставке текста о рок-музыке, но отличаться от вставки спокойного скрипичного соло. В этой статье всякий раз, когда упоминается встраивание MuLan, я имею в виду встраивание музыкальной башни по умолчанию.

С другой стороны, MusicLM — это модель, генерирующая музыку на основе определенных условий. Этими условиями могут быть такие вещи, как текст, другая музыка или мелодия. В этом процессе MusicLM использует встраивание MuLan, которое мы вычисляем на основе ответа фМРТ для управления генерацией. Представьте себе MusicLM как двухэтапный процесс: сначала он преобразует встраивание MuLan в последовательность специальных токенов. Эти токены извлечены из другой модели под названием w2v-BERT. Затем, на втором этапе, MusicLM преобразует эти токены и встраивание MuLan в акустические токены. Эти акустические токены взяты из другой модели под названием SoundStream. Эти токены затем преобразуются обратно в аудио с помощью декодера SoundStream. Как и в MuLan, все эти шаги выполняются с использованием моделей Transformer — технологии, помогающей компьютерам понимать закономерности и взаимосвязи в данных.

процесс декодирования.

Когда мы говорим о декодировании, мы имеем в виду попытку воссоздать оригинальные переживания человека, просматривая записи активности его мозга. Это похоже на сбор подсказок, чтобы понять, что человек видел или слышал. Этот процесс показан в таблице ниже и состоит из двух частей:

  1. Прогнозирование музыкальных качеств по данным активности мозга.
  2. Получение или создание музыки на основе этих предсказанных качеств.

Прогнозирование встраивания музыки на основе данных фМРТ.

Прогнозирование музыкальной информации на основе сканирования мозга предполагает изучение реакции мозга на различные стимулы. Представьте, что мы записали данные об активности мозга пяти человек, пока они слушали 15-секундные музыкальные клипы. Мы разбиваем эти данные на части: n представляет количество клипов, s — количество сканирований для каждого клипа, а dfmri означает вокселы мозга (небольшие единицы).

Размер мозга каждого человека незначительно влияет на количество вокселей (dfmri), и у одного человека оно составляет около 60 тысяч.

Наша цель — предсказать качество музыки, которую слышали эти люди. Мы называем эти качества «музыкальными вложениями». Для каждого клипа у нас есть вставки, в которых подробно описаны особенности музыки. Это число зависит от того, как мы анализируем музыку и какие шаги мы предпринимаем.

Чтобы все совпало, мы используем метод, в котором мы сравниваем данные мозговой активности (R) и музыкальные вложения (T) с точки зрения времени. Мы делаем это путем усреднения данных мозга, чтобы они соответствовали моменту расчета музыкальных характеристик. Например, если мы хотим предсказать качество музыки от 0 до 10, мы используем среднее значение пяти сканирований мозга (0–1,5, 1,5–3 и т. д.).

Это дает нам пары реакций мозга и музыкальных особенностей. Мы следуем определенному подходу к разделению и организации этих данных. Затем мы используем метод (L2-регуляризованная линейная регрессия), чтобы найти взаимосвязь между данными мозга и особенностями музыки. Однако это не работает одинаково для всех, поскольку мозг каждого человека уникален. Мы настраиваем вещи отдельно для каждого человека.

Мы также изучаем определенные области мозга, называемые «областями интереса» (ROI), которые представляют собой группы вокселей. Из группы из 150 рентабельности инвестиций мы выбираем 6 лучших, которые больше всего связаны с музыкальными функциями. Эти ROI могут быть разными по размеру. В среднем у них около 258,6 вокселей. Хотя точные точки могут различаться у каждого человека, мы в основном сосредотачиваемся на областях мозга, связанных со слухом.

Для каждого 15-секундного музыкального клипа мы прогнозируем несколько музыкальных функций (в зависимости от типа функций, которые мы рассматриваем).

теперь давайте посмотрим на поиск и реконструкцию музыки

Мы рассматриваем два способа воссоздать оригинальную музыку на основе сделанных нами прогнозов. Один метод — извлечение похожей музыки из коллекции, а другой — создание новой музыки с использованием модели MusicLM.

При методе поиска мы вычисляем встраивания MuLan для первых 15 секунд каждого музыкального клипа в Бесплатном музыкальном архиве (FMA). В этом архиве собрано множество музыкальных треков разных жанров. Используя косинусное сходство, мы находим аудиоклип, вложения которого наиболее близки к предсказанным. Итак, это все равно, что найти похожее музыкальное произведение в библиотеке.

С другой стороны, в подходе генерации мы используем предсказанные внедрения, чтобы направлять модель MusicLM при создании новой музыки. Мы усредняем предсказанные вложения по временному измерению и используем эту информацию, чтобы модель генерировала музыку. Этот метод является мощным, поскольку потенциально может создавать широкий спектр музыки, даже такой, которую не видели во время тренировки. Однако он не всегда может идеально соответствовать предоставленным предсказанным вложениям.

У каждого подхода есть свои плюсы и минусы. Метод поиска ограничен доступной музыкальной коллекцией, поэтому он может не отражать все детали исходной музыки. С другой стороны, генеративная модель теоретически может создавать различные типы музыки, но она не всегда может точно соответствовать заданным предсказанным вложениям.

кодирование: воксельное моделирование всего мозга

Чтобы понять внутренние представления MusicLM, мы посмотрим, как они связаны с записанной мозговой активностью. В частности, мы создаем модели, которые прогнозируют сигналы фМРТ, используя различные музыкальные эмбеддинги из MusicLM: эмбеддинги, полученные из аудио (MuLanmusic и w2v-BERT-avg), и эмбеддинги, полученные из текста (MuLantext).

Для этого мы создаем модели для прогнозирования активности мозга с использованием встраивания аудио, сравнивая MuLanmusic и w2v-BERT-avg, чтобы увидеть, как они представлены в мозге.

Затем мы строим модели, используя как аудио MuLanmusic, так и текстовые внедрения MuLantext для прогнозирования сигналов фМРТ. Это помогает понять различия между этими двумя типами вложений. Встраивания MuLantext собирают высокоуровневую информацию из музыкальных титров. Эти вложения особенно интересны, поскольку они представляют собой текстовое описание музыки.

Мы также проводим контрольный анализ, чтобы увидеть, содержат ли встраивания MuLanmusic больше информации, чем просто жанр музыки. Для этого мы сравниваем эффективность прогнозирования модели MuLanmusic с моделями, которые используют горячие векторы, представляющие музыкальные жанры.

Обучающие данные готовятся так же, как мы это делали для декодирования. Мы оцениваем веса модели на основе обучающих данных с помощью L2-регуляризованной линейной регрессии и применяем их к тестовым данным. Параметры регуляризации корректируются во время обучения посредством пятикратной перекрестной проверки. Для оценки мы используем коэффициенты корреляции Пирсона между прогнозируемыми и фактическими сигналами фМРТ. Мы измеряем статистическую значимость путем сравнения оцененных корреляций с нулевым распределением корреляций от независимых случайных векторов. Мы рассматриваем корреляции с уровнем значимости P ‹ 0,05 и корректируем множественные сравнения с помощью процедуры FDR. При сравнении векторов музыкальных жанров MuLantext и one-hot мы корректируем частоту дискретизации, чтобы она соответствовала частоте дискретизации MuLanmusic.

Собрав все эти части вместе, и получится эта модель. Архитектура этой модели, известной как MusicLM, объединяет различные элементы для прогнозирования, извлечения и создания музыки на основе активности мозга и музыкальных вложений. Он включает модели кодирования, которые устраняют разрыв между сигналами мозга и музыкальными функциями, позволяя нам декодировать музыку, соответствующую этим сигналам мозга. Кроме того, MusicLM использует встраивания, полученные как из аудио, так и из текстовых данных, что позволяет понимать и манипулировать различными аспектами музыки. Благодаря сочетанию прогнозирования, поиска и генерации MusicLM предлагает комплексный подход к изучению связи между активностью мозга и восприятием музыки, проливая свет на сложные взаимоотношения между нашим разумом и мелодиями, которые мы воспринимаем.

Если вы зашли так далеко, спасибо, что прочитали эту статью, и я надеюсь, что она добавила ценности в вашу жизнь 😁 — Дев

Если у вас есть вопросы по этой статье или вы просто хотите пообщаться, вы можете найти меня на LinkedIn или на моем личном сайте :)