Объяснение модели синтеза голоса Tacotron2 и эксперименты

Авторы: Эдвард Дж. Юн, Элли Канг

Аннотация: разговор на естественном языке между человеком и не-человеком, показанный дуплексным ИИ на Google I/O 18, считается уже прошедшим тест Тьюринга. Тем не менее, технологии распознавания речи среди нескольких говорящих предстоит пройти долгий путь. Тем не менее, технология синтеза голоса на основе глубокого обучения, которая превосходит ожидаемое качество обычного распознавания речи (традиционный объединенный синтезатор, созданный голосом), кажется, становится ближе к нам. В этой статье мы поделимся нашими экспериментами, в основном основанными на работе Tacotron от DeepMind и Wavenet.

Мел Спектрограмма

В Tacotron-2 и родственных технологиях термин Mel Spectrogram появляется без пропадания. Значения волн конвертируются в STFT и сохраняются в матрице. Точнее, одномерные речевые сигналы являются двумерными маркерами. Легко подумать, что голос превращается в фотоподобную картинку.

Эта спектрограмма представляет собой спектрограмму Mel, сжатую в соответствии с кривой Mel, которая отражает характеристики улитки человека.

* STFT (коротковременное преобразование Фурье) = вывод многократного извлечения спектра с короткими интервалами

* спектрограмма = график частотно-временного распределения

Обзор архитектуры Tacotron-2

Архитектура модели Tacotron-2 разделена на две основные части, как вы можете видеть выше.

1) Сеть прогнозирования спектрограмм: преобразование последовательностей символов в спектрограммы Мела.

ㅇ ㅏ ㄴ ㄴ ㅕ ㅇ ㅎ ㅏ ㅅ ㅔ 요 → Character Embedding

→ 3 convolution Layers → Bi-directional LSTM (512 neurons) → encoded features

→ Attention Unit

→ LSTM layer (2 uni-directional layers with 1024 neurons) → Linear Transform → Predicted Spectrogram Frame

→ PostNet (5 Convolutional Layers) → Enhanced Prediction

.. and Finally → modified Wavenet

2) Модифицированный WaveNet: преобразование спектрограммы Мела в речь

Это можно резюмировать следующим образом.

Мел-спектрограмма, сделанная Tacotron + вокодер WaveNet - алгоритм Гриффина-Лима = Tacotron 2

сопоставьте текстовую последовательность с последовательностью (12,5 мс, 80-мерная аудиоспектрограмма. → волна 24 кГц)

* Алгоритм Гриффа-Лима = впервые появился в Tacotron1. Алгоритм, который предсказывает отброшенную фазовую информацию с помощью STFT при преобразовании в спектрограмму.

Изменения в технологии речи

RNN, LSTM → Tacotron (спектрограмма + Grifflin) → Tacotron2 (спектрограмма Mel + вокодер вейвнета)

CNN→ вейвнет → параллельный вейвнет+DCTTS+Deepwave3 → Flowavenet

История медленного вывода Wavenet

Wavenet — это модель cnn, которая выходит за рамки последовательного моделирования существующих RNN и LSTM. Это должно было ввести параллелизм. Хотя каждая конкретная по времени операция обрабатывалась параллельно, но это была замаскированная свертка авторегрессионной структуры, в которой модель по-прежнему обрабатывается последовательно из-за проблемы расширенной случайной свертки. Соответственно, скорость поезда была высокой, но скорость вывода была низкой.

Чтобы решить эту проблему, параллельная волновая сеть построила два обучающих конвейера ученика и учителя со структурой IAF (обратный авторегрессионный поток).

Однако два обучающих конвейера снизили скорость поезда. Чтобы компенсировать это, выходит текущая модель Flowavenet, в которой два обучающих конвейера заменены одним конвейером.

Другие технологии включают инфраструктуру Google Cloud TTS и Deep Voice от Baidu. Во-первых, оптимизированная инфраструктура TTS на основе Wavenet от Google Cloud в 1000 раз быстрее, чем Wavenet, но соответствующая технология сейчас недоступна. Кроме того, необходимо будет использовать основанную на Wavenet технологию с открытым исходным кодом Deep Voice, которая раскрывается в подзаголовке Baidu’s Real Time TTS. [2]

Таким образом, у Wavenet возникла проблема, заключающаяся в том, что обработка логических выводов занимает слишком много времени. Параллельные WaveNet и Flowavenet, которые начали решать эту проблему, все еще развиваются. Мир предполагает возможность новой сети, чтобы поймать и быструю скорость обучения, и быстрый вывод, и двух кроликов. И многие люди на самом деле находятся в исследованиях.

Обработка корейского хангыля

В случае хангыля один слог разлагается на постоянную и гласную, поэтому мы думаем, что правила произношения могут быть сложными, в отличие от других языков. Например, была такая забота. Поскольку один и тот же согласный «ㅁ» используется в качестве начала или поддержки произношения, сможет ли он выучиться путем встраивания со всем разобранным, как английский алфавит?

Хотя мы не лингвисты, нельзя сказать, что это точно, но показано, что правила произношения хангыля состоят как минимум из одной согласной и гласной. Например, константа «ㄱ» + «ㅏ» (гласная) + «ㄴ» (константа) = 간, ㅈ (константа) + ㅣ (гласная) = 지. Кроме того, было подтверждено, что правила произношения хангыль во всех случаях можно выучить из фактической разложенной последовательности.

Отделка…

До сих пор мы рассматривали глубокий синтез речи и распознавание речи. Образцы корейских аудио и их сравнения можно найти в [3]. Мы заканчиваем этот пост с надеждой, что проделанный нами эксперимент и опыт будут кому-то полезны.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning