- Улучшение речи с помощью многоуровневого векторного квантования (arXiv)
Автор: Сяо-Ин Чжао, Цю-Ши Чжу, Цзе Чжан.
Аннотация: Благодаря достижениям в области глубокого обучения, улучшение речи на основе нейронных сетей (SE) быстро развивалось в последнее десятилетие. Между тем, предварительно обученная модель с самоконтролем и векторное квантование (VQ) показали отличные результаты во многих задачах, связанных с речью, в то время как они менее изучены в SE. Как было показано в нашей предыдущей работе, использование модуля VQ для дискретизации зашумленных речевых представлений полезно для шумоподавления речи, поэтому в этой работе мы изучаем влияние использования VQ на разных уровнях с разным количеством кодовых книг. Различные модули VQ действительно позволяют извлекать речевые функции с множественной степенью детализации. Следуя механизму внимания, контекстные признаки, извлеченные предварительно обученной моделью, объединяются с локальными признаками, извлеченными кодировщиком, так что глобальная и локальная информация сохраняется для восстановления улучшенной речи. Экспериментальные результаты на наборе данных Valentini показывают, что предложенная модель может улучшить производительность SE, где также выявлено влияние выбора предварительно обученных моделей.
2. Автоматический кодировщик Вассерштейна с векторным квантованием (arXiv)
Автор: Тунг-Лонг Выонг, Трунг Ле, Хэ Чжао, Чуанся Чжэн, Мехрташ Харанди, Цзяньфэй Цай, Динь Фунг.
Аннотация: Изучение глубоких дискретных скрытых представлений обещает лучшие символические и обобщенные абстракции, которые более полезны для последующих последующих задач. Вдохновленный оригинальным векторным квантованным вариационным автокодировщиком (VQ-VAE), большая часть работы по изучению глубоких дискретных представлений в основном была сосредоточена на улучшении исходной формы VQ-VAE, и ни один из них не изучал изучение глубоких дискретных представлений с генеративной точки зрения. В этой работе мы изучаем изучение глубоких дискретных представлений с генеративной точки зрения. В частности, мы наделяем дискретными распределениями последовательности кодовых слов и изучаем детерминированный декодер, который переносит распределение по последовательностям кодовых слов в распределение данных путем минимизации WS-расстояния между ними. Мы разрабатываем дальнейшие теории, чтобы связать это с точкой зрения кластеризации расстояния WS, что позволяет нам иметь лучшее и более контролируемое решение для кластеризации. Наконец, мы эмпирически оцениваем наш метод на нескольких хорошо известных тестах, где он достигает лучших качественных и количественных характеристик, чем другие варианты VQ-VAE, с точки зрения использования кодовой книги и реконструкции/генерации изображения.