имеют плохие способности к обобщению, страдая от резкого падения производительности при работе с невидимыми (не входящими в обучающую выборку) динамиками при нулевых настройках.
Исследовательская группа Microsoft рассматривает эту проблему в новой статье Языковые модели нейронных кодеков — это преобразование текста в речь с нуля…