Авторы: Эдвард Дж. Юн, Элли Канг

Аннотация: разговор на естественном языке между человеком и не-человеком, показанный дуплексным ИИ на Google I/O 18, считается уже прошедшим тест Тьюринга. Тем не менее, технологии распознавания речи среди нескольких говорящих предстоит пройти долгий путь. Тем не менее, технология синтеза голоса на основе глубокого обучения, которая превосходит ожидаемое качество обычного распознавания речи (традиционный объединенный синтезатор, созданный голосом), кажется, становится ближе к нам. В этой статье мы поделимся нашими экспериментами, в основном основанными на работе Tacotron от DeepMind и Wavenet.

Мел Спектрограмма

В Tacotron-2 и родственных технологиях термин Mel Spectrogram появляется без пропадания. Значения волн конвертируются в STFT и сохраняются в матрице. Точнее, одномерные речевые сигналы являются двумерными маркерами. Легко подумать, что голос превращается в фотоподобную картинку.

Эта спектрограмма представляет собой спектрограмму Mel, сжатую в соответствии с кривой Mel, которая отражает характеристики улитки человека.

* STFT (коротковременное преобразование Фурье) = вывод многократного извлечения спектра с короткими интервалами

* спектрограмма = график частотно-временного распределения

Обзор архитектуры Tacotron-2

Архитектура модели Tacotron-2 разделена на две основные части, как вы можете видеть выше.

1) Сеть прогнозирования спектрограмм: преобразование последовательностей символов в спектрограммы Мела.

ㅇ ㅏ ㄴ ㄴ ㅕ ㅇ ㅎ ㅏ ㅅ ㅔ 요 → Character Embedding

→ 3 convolution Layers → Bi-directional LSTM (512 neurons) → encoded features

→ Attention Unit

→ LSTM layer (2 uni-directional layers with 1024 neurons) → Linear Transform → Predicted Spectrogram Frame

→ PostNet (5 Convolutional Layers) → Enhanced Prediction

.. and Finally → modified Wavenet

2) Модифицированный WaveNet: преобразование спектрограммы Мела в речь

Это можно резюмировать следующим образом.

Мел-спектрограмма, сделанная Tacotron + вокодер WaveNet - алгоритм Гриффина-Лима = Tacotron 2

сопоставьте текстовую последовательность с последовательностью (12,5 мс, 80-мерная аудиоспектрограмма. → волна 24 кГц)

* Алгоритм Гриффа-Лима = впервые появился в Tacotron1. Алгоритм, который предсказывает отброшенную фазовую информацию с помощью STFT при преобразовании в спектрограмму.

Изменения в технологии речи

RNN, LSTM → Tacotron (спектрограмма + Grifflin) → Tacotron2 (спектрограмма Mel + вокодер вейвнета)

CNN→ вейвнет → параллельный вейвнет+DCTTS+Deepwave3 → Flowavenet

История медленного вывода Wavenet

Wavenet — это модель cnn, которая выходит за рамки последовательного моделирования существующих RNN и LSTM. Это должно было ввести параллелизм. Хотя каждая конкретная по времени операция обрабатывалась параллельно, но это была замаскированная свертка авторегрессионной структуры, в которой модель по-прежнему обрабатывается последовательно из-за проблемы расширенной случайной свертки. Соответственно, скорость поезда была высокой, но скорость вывода была низкой.

Чтобы решить эту проблему, параллельная волновая сеть построила два обучающих конвейера ученика и учителя со структурой IAF (обратный авторегрессионный поток).

Однако два обучающих конвейера снизили скорость поезда. Чтобы компенсировать это, выходит текущая модель Flowavenet, в которой два обучающих конвейера заменены одним конвейером.

Другие технологии включают инфраструктуру Google Cloud TTS и Deep Voice от Baidu. Во-первых, оптимизированная инфраструктура TTS на основе Wavenet от Google Cloud в 1000 раз быстрее, чем Wavenet, но соответствующая технология сейчас недоступна. Кроме того, необходимо будет использовать основанную на Wavenet технологию с открытым исходным кодом Deep Voice, которая раскрывается в подзаголовке Baidu’s Real Time TTS. [2]

Таким образом, у Wavenet возникла проблема, заключающаяся в том, что обработка логических выводов занимает слишком много времени. Параллельные WaveNet и Flowavenet, которые начали решать эту проблему, все еще развиваются. Мир предполагает возможность новой сети, чтобы поймать и быструю скорость обучения, и быстрый вывод, и двух кроликов. И многие люди на самом деле находятся в исследованиях.

Обработка корейского хангыля

В случае хангыля один слог разлагается на постоянную и гласную, поэтому мы думаем, что правила произношения могут быть сложными, в отличие от других языков. Например, была такая забота. Поскольку один и тот же согласный «ㅁ» используется в качестве начала или поддержки произношения, сможет ли он выучиться путем встраивания со всем разобранным, как английский алфавит?

Хотя мы не лингвисты, нельзя сказать, что это точно, но показано, что правила произношения хангыля состоят как минимум из одной согласной и гласной. Например, константа «ㄱ» + «ㅏ» (гласная) + «ㄴ» (константа) = 간, ㅈ (константа) + ㅣ (гласная) = 지. Кроме того, было подтверждено, что правила произношения хангыль во всех случаях можно выучить из фактической разложенной последовательности.

Отделка…

До сих пор мы рассматривали глубокий синтез речи и распознавание речи. Образцы корейских аудио и их сравнения можно найти в [3]. Мы заканчиваем этот пост с надеждой, что проделанный нами эксперимент и опыт будут кому-то полезны.

  1. https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
  2. https://research.baidu.com/Blog/index-view?id=91
  3. https://www.udanax.org/synchronous.html