- BAST: преобразователь бинауральной аудиоспектрограммы для локализации бинаурального звука (arXiv)
Автор: Шэн Куанг, Кики ван дер Хейден, Сиамак Мерканун.
Аннотация: Точная локализация звука в реверберационной среде имеет важное значение для слухового восприятия человека. Недавно сверточные нейронные сети (CNN) использовались для моделирования бинаурального слухового пути человека. Тем не менее, CNN показывает барьеры в захвате глобальных акустических особенностей. Чтобы решить эту проблему, мы предлагаем новую сквозную модель преобразователя бинауральной аудиоспектрограммы (BAST) для прогнозирования азимута звука как в безэховой, так и в реверберационной среде. Исследуются два режима реализации, то есть BAST-SP и BAST-NSP, соответствующие модели BAST с общими и неразделяемыми параметрами соответственно. Наша модель с вычитанием интерауральной интеграции и гибридными потерями достигает углового расстояния 1,29 градуса и среднеквадратичной ошибки 1e-3 на всех азимутах, что значительно превосходит модель, основанную на CNN. Исследовательский анализ производительности BAST в лево-правом полушарии, безэховой и реверберационной средах показывает его способность к обобщению, а также возможность использования бинауральных преобразователей для локализации звука. Кроме того, предоставляется анализ карт внимания, чтобы дать дополнительное представление об интерпретации процесса локализации в естественной реверберационной среде.
2.MAE-AST: Маскированное преобразование спектрограммы автокодирования аудио (arXiv)
Автор: Алан Бааде, Пуюань Пэн, Дэвид Харват.
Аннотация: В этой статье мы предлагаем простое, но мощное улучшение по сравнению с недавней моделью преобразователя звуковой спектрограммы с самоконтролем (SSAST) для классификации речи и звука. В частности, мы используем понимание того, что SSAST использует очень высокий коэффициент маскирования (75%) во время предварительной подготовки, а это означает, что подавляющее большинство вычислений внутреннего внимания выполняется на токенах маски. Мы решаем эту проблему, интегрируя архитектуру кодировщика-декодера из Masked Autoencoders is Scalable Vision Learners (MAE) в SSAST, где глубокий кодировщик работает только с немаскированными входными данными, а поверхностный декодер работает с выходными данными кодировщика и токенами маски. Мы обнаружили, что предварительное обучение, подобное MAE, может обеспечить 3-кратное ускорение и 2-кратное сокращение использования памяти по сравнению с ванильным SSAST с использованием текущих стратегий предварительной подготовки звука с обычной моделью и входными размерами. При точной настройке нисходящих задач, в которых используется только кодировщик, мы обнаружили, что наш подход превосходит SSAST в различных нисходящих задачах. Далее мы проводим всесторонние оценки различных стратегий предварительного обучения и изучаем различия в предварительном обучении в стиле MAE между визуальной и звуковой областями.