Начало работы с нормализацией слоя
1.О нормализации слоев и остаточных соединениях в Transformers(arXiv)
Автор: Сё Такасэ, Сюн Киёно, Сосуке Кобаяши, Джун Судзуки
Аннотация: С точки зрения нормализации уровня (LN) архитектуру Transformers можно разделить на два типа: Post-LN и Pre-LN. Недавние трансформеры предпочитают выбирать Pre-LN, потому что обучение в Post-LN с глубокими трансформерами, например, десятью или более слоями, часто становится нестабильным, что приводит к бесполезным моделям. Однако, напротив, Post-LN также неизменно обеспечивает лучшую производительность, чем Pre-LN, в относительно неглубоких трансформаторах, например, с шестью или меньшим количеством слоев. Это исследование сначала исследует причину этих противоречивых наблюдений эмпирически и теоретически и обнаруживает, 1, что LN в Post-LN является источником проблемы исчезающего градиента, которая в основном приводит к нестабильной тренировке, тогда как Pre-LN предотвращает это, и 2, Post-LN имеет тенденцию сохранять большие нормы градиента в более высоких слоях во время обратного распространения, что может привести к эффективному обучению. Используя новые результаты, мы предлагаем метод, который может обеспечить как более высокую стабильность, так и эффективную тренировку путем простой модификации Post-LN. Мы проводим эксперименты с широким спектром задач генерации текста и демонстрируем, что наш метод превосходит Pre-LN и обеспечивает стабильное обучение независимо от настроек поверхностного или глубокого слоя.
2. Сворачивать или не сворачивать: необходимое и достаточное условие пакетной нормализации LayersFolding(arXiv)
Автор:Эдуард Ивинек, Арно Дапоньи, Кевин Байи
Аннотация. Уровни пакетной нормализации (BN) стали фундаментальными компонентами постоянно усложняющихся архитектур глубоких нейронных сетей. Такие модели требуют процессов ускорения для развертывания на пограничных устройствах. Однако слои BN добавляют узкие места в вычислениях из-за последовательной обработки операций: таким образом, ключевым, но часто упускаемым из виду компонентом процесса ускорения является сворачивание слоев BN. В этой статье мы показываем, что текущие подходы к свертыванию BN неоптимальны с точки зрения того, сколько слоев можно удалить. Поэтому мы приводим необходимое и достаточное условие для свертки BN и соответствующий оптимальный алгоритм. Предлагаемый подход систематически превосходит существующие базовые показатели и позволяет значительно сократить время вывода глубоких нейронных сетей.
3. Передача эмоций между говорящими на основе нормализации уровня состояния говорящих и частично контролируемого обучения преобразованию текста в речь(arXiv)
Автор: Пэнфэй Ву, Цзюньцзе Пань, Чэньчан Сюй, Цзюньхуэй Чжан, Линь Ву, Сян Инь, Цзэцзюнь Ма.
Аннотация: при экспрессивном синтезе речи предъявляются высокие требования к интерпретации эмоций. Однако получение эмоционального аудиокорпуса для произвольных говорящих занимает много времени из-за их дедуктивной способности. В ответ на эту проблему в этой статье предлагается метод передачи эмоций между говорящими, который может реализовать передачу эмоций от исходного говорящего к целевому говорящему. Сначала определяется набор токенов эмоций для представления различных категорий эмоций. Их обучают высоко коррелировать с соответствующими эмоциями для контролируемого синтеза за счет потери перекрестной энтропии и стратегии обучения под наблюдением. В то же время, чтобы исключить понижение тембрального сходства из-за передачи эмоций между говорящими, для моделирования характеристик говорящих реализована нормализация уровня состояния говорящего. Экспериментальные результаты показывают, что предложенный метод превосходит базовый уровень, основанный на множестве эталонов, с точки зрения тембрового сходства, стабильности и оценок восприятия эмоций.