1. VATLM: предварительное обучение визуально-аудио-текста с помощью унифицированного маскированного прогнозирования для обучения представлению речи(arXiv)

Автор:Цюши Чжу, Лун Чжоу, Цзицян Чжан, Шуцзе Лю, Бинсин Цзяо, Цзе Чжан, Лиронг Дай, Дасинь Цзян, Джинью Ли, Фуру Вэй

Аннотация: хотя речь — это простой и эффективный способ общения людей с внешним миром, более реалистичное речевое взаимодействие содержит мультимодальную информацию, например, зрение, текст. Как разработать унифицированную структуру для интеграции различной модальной информации и использования различных ресурсов (например, пары визуальный-аудио, пары аудио-текст, неразмеченная речь и неразмеченный текст) для облегчения обучения речевому представлению, недостаточно изучено. В этой статье мы предлагаем унифицированную кросс-модальную структуру обучения представлению VATLM (визуально-аудио-текстовая языковая модель). Предлагаемый VATLM использует унифицированную магистральную сеть для моделирования независимой от модальности информации и использует три простых модуля, зависящих от модальности, для предварительной обработки визуальных, речевых и текстовых входных данных. Чтобы интегрировать эти три модальности в одно общее семантическое пространство, VATLM оптимизируется с помощью задачи маскированного прогнозирования унифицированных токенов, заданной предлагаемым нами унифицированным токенизатором. Мы оцениваем предварительно обученный VATLM по аудиовизуальным связанным с последующими задачами, включая аудиовизуальное распознавание речи (AVSR), визуальное распознавание речи (VSR). Результаты показывают, что предложенный VATLM превосходит предыдущие современные модели, такие как предварительно обученная аудиовизуальная модель AV-HuBERT, а анализ также показывает, что VATLM способен согласовывать различные модальности в одном пространстве. Чтобы облегчить будущие исследования, мы публикуем код и предварительно обученные модели на https://aka.ms/vatlm.

2.Улучшено представление распутанной речи с помощью контрастного обучения в факторизованном иерархическом вариационном автокодировщике(arXiv)

Автор: Юин Се, Томас Арилдсен, Чжэн-Хуа Тан

Вывод:используя тот факт, что личность и содержание говорящего различаются в разных временных масштабах, \acrlong{fhvae} (\acrshort{fhvae}) использует последовательную скрытую переменную и сегментную скрытую переменную для обозначения этих двух атрибуты. Распутывание осуществляется путем предположения, что скрытые переменные, представляющие говорящего и содержание, следуют зависимым от последовательности и независимым от последовательности априорным значениям. Для априора, зависящего от последовательности, \acrshort{fhvae} предполагает гауссово распределение с изменяющимся средним значением по шкале высказываний и фиксированной небольшой дисперсией. Процесс обучения способствует приближению последовательных переменных к среднему значению их предшествующего значения с небольшой дисперсией. Однако это ограничение относительно слабое. Поэтому мы вводим контрастное обучение в рамках \acrshort{fhvae}. Предлагаемый метод направлен на то, чтобы последовательные переменные группировались при представлении одного и того же говорящего, при этом максимально дистанцируясь от переменных других говорящих. В предлагаемом методе не была изменена структура структуры, а только процесс обучения, поэтому во время тестирования больше не требуется затрат. Преобразование голоса было выбрано в качестве приложения в этой статье. Оценки латентных переменных включают проверку и идентификацию увеличения говорящего для последовательной латентной переменной и распознавание речи для сегментарной латентной переменной. Кроме того, оценки производительности преобразования голоса основаны на проверке говорящего и экспериментах по распознаванию речи. Результаты эксперимента показывают, что предлагаемый метод улучшает извлечение как последовательных, так и сегментарных признаков по сравнению с \acrshort{fhvae}, а также умеренно улучшает производительность преобразования голоса.

3. MT4SSL: повышение эффективности обучения представлению речи с самоконтролем за счет интеграции нескольких целей(arXiv)

Автор: Зиянг Ма, Чжишэн Чжэнь, Чанли Тан, Юджин Ван, Се Чен

Аннотация: в этой статье мы представляем новый взгляд на модели речи с самоконтролем, исходя из того, как достигаются цели самообучения. Мы обобщаем экстрактор целей на автономный экстрактор целей (Off-TE) и онлайновый экстрактор целей (On-TE), не заботясь о конкретных предтекстовых задачах. Исходя из этого, мы предлагаем новую многозадачную структуру обучения для обучения с самостоятельным наблюдением, MT4SSL, что расшифровывается как «Ускорение обучения представлению речи с самостоятельным наблюдением путем интеграции нескольких целей». MT4SSL относится к двум типичным моделям, HuBERT и data2vec, которые используют алгоритм K-средних в качестве Off-TE и учительскую сеть без градиентов в качестве On-TE соответственно. Наша модель превосходит предыдущие методы SSL с нетривиальной маржой в тесте LibriSpeech и сравнима или даже лучше, чем самые эффективные модели, не требующие такого большого количества данных. Кроме того, мы обнаружили, что использование как Off-TE, так и On-TE приводит к лучшей сходимости на этапе подготовки к обучению. С точки зрения эффективности и действенности, мы считаем, что многозадачное обучение на моделях речи с самоконтролем, с нашей точки зрения, является многообещающей тенденцией.