- Объединение неконтролируемого представления речи с использованием векторного квантования (arXiv)
Автор: Чонкюн Пак, Кванхи Чой, Хёнджун Хо, Хён-Мин Пак.
Аннотация: С появлением речевых представлений общего назначения из крупномасштабных моделей с самоконтролем применение одной модели к нескольким нижестоящим задачам становится подходом де-факто. Однако проблема объединения остается; длина речевых представлений по своей природе изменчива. Часто используется наивное среднее объединение, хотя оно игнорирует характеристики речи, такие как фонемы разной длины. Следовательно, мы разрабатываем новый метод объединения, чтобы раздавить акустически похожие представления с помощью векторного квантования, который не требует дополнительного обучения, в отличие от объединения на основе внимания. Кроме того, мы оцениваем различные методы объединения без учителя на различных моделях с самостоятельным наблюдением. Мы собираем различные методы, разбросанные по речи и тексту, для оценки различных задач: определение ключевых слов, идентификация говорящего, классификация намерений и распознавание эмоций. Наконец, мы количественно и качественно анализируем наш метод, сравнивая его с методами контролируемого объединения.
2. StylerDALLE: передача стиля с помощью языка с использованием токенизатора с векторным квантованием крупномасштабной генеративной модели (arXiv)
Автор: Zipeng Xu, Enver Sangineto, Nicu Sebe.
Аннотация: Несмотря на прогресс, достигнутый в задаче передачи стиля, большинство предыдущих работ сосредоточено на передаче только относительно простых функций, таких как цвет или текстура, при этом отсутствуют более абстрактные концепции, такие как общее художественное выражение или характерные для художника черты. Однако эту абстрактную семантику можно зафиксировать с помощью таких моделей, как DALL-E или CLIP, которые были обучены с использованием огромных наборов данных изображений и текстовых документов. В этой статье мы предлагаем StylerDALLE, метод передачи стиля, который использует обе эти модели и использует естественный язык для описания стилей абстрактного искусства. В частности, мы формулируем задачу переноса стиля под управлением языка как неавторегрессионный перевод последовательности токенов, т. е. от входного изображения контента к выходному стилизованному изображению, в дискретном скрытом пространстве крупномасштабного предварительно обученного векторно-квантованного токенизатора. Чтобы включить информацию о стиле, мы предлагаем стратегию обучения с подкреплением с языковым контролем на основе CLIP, которая одновременно обеспечивает стилизацию и сохранение контента. Экспериментальные результаты демонстрируют превосходство нашего метода, который может эффективно передавать художественные стили с использованием языковых инструкций с разной степенью детализации. Код доступен на https://github.com/zipengxuc/StylerDALLE