TL;DR
Распознавание речевых эмоций — это процесс выявления эмоций говорящего по его речи, независимо от их смыслового содержания. Эта задача полезна для определения общего настроения клиентов, поскольку люди часто дают неточные оценки, когда их просят оценить их разговоры.
Доступные наборы данных
Аудиовизуальная база данных эмоциональной речи и песни Райерсона (RAVDESS)
Этот набор данных содержит речи и песни 24 профессиональных актеров (12 женщин, 12 мужчин), что в общей сложности составляет 7356 файлов. Речевая часть представляет собой 1440 сэмплов, в которых актеры озвучивают два высказывания (точнее, «Дети разговаривают у двери» и «Собаки сидят у двери»), выражая следующие эмоции: спокойный, счастливый, грустный, сердитый, страх, удивление и отвращение. Каждое выражение создается на двух уровнях эмоциональной интенсивности (нормальном и сильном) с дополнительным нейтральным выражением, всего 60 образцов на актера. Цель этого набора данных — оценить эмоцию только по перегибу, поскольку содержимое идентично.
База данных Interactive Emotional Dyadic Motion Capture (IEMOCAP)
«Это действующая, мультимодальная и многоканальная база данных. Он содержит около 12 часов аудиовизуальных данных, включая видео, речь, захват движения лица и транскрипцию текста. Он состоит из диадических сессий, на которых актеры импровизируют или представляют сценарии, специально выбранные для того, чтобы вызвать эмоциональное выражение. База данных IEMOCAP аннотируется несколькими аннотаторами в виде категориальных меток, таких как гнев, счастье, печаль и нейтральность, а также размерных меток, таких как валентность, активация и доминирование. “
Этот набор данных доступен по запросу только для внутренних исследовательских целей.
КМУ-МОСЭИ
«Набор данных CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI) — это самый большой набор данных мультимодального анализа настроений и распознавания эмоций на сегодняшний день. Набор данных содержит более 23 500 видеороликов с высказываниями предложений от более чем 1000 онлайн-динамиков YouTube. Набор данных сбалансирован по полу. Все высказывания предложений выбираются случайным образом из различных тем и видеороликов-монологов. Видео расшифрованы и правильно расставлены».
Хотя данные можно анализировать только по аудио, этот набор данных является мультимодальным, поэтому в большинстве исследований также учитываются видеоданные.
Оценка модели
Модель 1
Мы собираемся использовать модель, обученную на наборе данных RAVDESS. Модели выводят каждое эмоциональное состояние, которое они обучены обнаруживать, и их уверенность. Например, для одного файла набора данных RAVDESS основным обнаруженным эмоциональным состоянием является «Удивление» (96,1%), за которым следуют «Счастливый» (2,0%) и «Сердитый» (0,5%). Поскольку это один файл из обучающего набора данных, основная эмоция получена с высокой степенью достоверности, как и ожидалось.
(Ссылка на упомянутый образец: 03–01–08–02–02–02–24.wav)
У моделей есть ограничения, например, они с трудом отделяют страстный дискурс от гнева, в основном из-за ограниченного набора данных, например, этот фрагмент знаменитой лунной речи Дж. Ф. К. на стадионе Райс детектируется как Гнев. (89,4%).
Модель 2
Модель, обученная на корпусе IEMOCAP, совершает ту же ошибку, обнаруживая Гнев со 100% уверенностью (лунная речь). В следующем клипе Angry_customer_call.mp3 о звонке в службу поддержки мы разделили клип на сегменты и вычислили наиболее вероятные эмоции для каждого сегмента:
В следующих сегментах Гнев определяется либо как наиболее вероятная эмоция, либо как вторая наиболее вероятная с вероятностью не менее 50%.
Полученные результаты
Вот образцы, в которых был обнаружен гнев (вероятность 50%+):
Первый образец
Лицо, выражающее эмоции: Клиент
Обнаруженные эмоции: Гнев (65,0%), Отвращение (27,9%)
URL: https://drive .google.com/file/d/1si_kY6aEBccsvHIrKJlUKrJArAcgfpKR/view?usp=sharing
Второй образец
Человек, выражающий эмоции: Менеджер
Обнаруженные эмоции: Гнев (77,6%), Радость (17,3%)
URL: https://drive .google.com/file/d/1si_kY6aEBccsvHIrKJlUKrJArAcgfpKR/view?usp=sharing
Третий пример
Лицо, выражающее эмоции:Менеджер
Выявленные эмоции: Гнев (66,0%), отвращение (16,4%)
URL: https://drive .google.com/file/d/1si_kY6aEBccsvHIrKJlUKrJArAcgfpKR/view?usp=sharing
Заключение
Несмотря на значительный прогресс в распознавании эмоций в речи, еще многое предстоит сделать, чтобы иметь возможность извлекать эмоции с хорошей точностью. Дополнительные данные, как синтетически сгенерированные, так и записанные, могут использоваться для улучшения результатов этих моделей в аналогичных сценариях.
Вот и все! Спасибо, что прочитали этот пост о распознавании эмоций по аудио на английском языке.
Если у вас есть аудиопроект, требующий машинного обучения, или если у вас есть проект машинного обучения в целом, не стесняйтесь обращаться к нам по адресу [email protected] или заполните контактную форму на https://dynamindlabs.ai.
До скорого!