В этом сообщении в блоге я представлю некоторые из изученных направлений и основные выводы из двух статей на тему глубокого обучения для анализа эмоций:
- Чиоррини и др. (2021) — Анализ эмоций и настроений твитов с использованием BERT (https://ceur-ws.org/Vol-2841/DARLI-AP_17.pdf)
- Альхузали и Ананиаду (2021 г.) - SpanEmo: использование многоуровневой классификации эмоций как предсказание диапазона (https://arxiv.org/abs/2101.10038)
TL;DR
Чиоррини и др. используйте предварительно обученную модель BERT в качестве инструмента извлечения признаков для естественного языка и выполняйте трансферное обучение с полностью подключенным слоем и активацией softmax, чтобы классифицировать чувства и эмоции из твитов Twitter. Они обнаружили, что эта сеть работает впечатляюще хорошо и, в частности, для анализа настроений она намного превосходит традиционные алгоритмы машинного обучения, такие как машины опорных векторов. Альхузали и Ананиаду опираются на этот результат, а) перестраивая задачу анализа эмоций как задачу предсказания интервала и б) вводя термин потерь с учетом корреляции меток (LCA). Эти корректировки приводят к дальнейшему повышению производительности.
Основы анализа эмоций
Что такое анализ эмоций?
Анализ эмоций — это задача определить, какие эмоции присутствуют в данном входе, таком как видеоклип, аудиозапись или (чаще всего) фрагмент текста. Обратите внимание, что анализ настроений — это тесно связанная задача, целью которой является классификация входных данных как положительных, отрицательных или нейтральных, а не более конкретных эмоций, таких как счастье, возбуждение, грусть или гнев.
Почему машинное обучение важно для анализа эмоций?
Существует множество возможных приложений машинного обучения, для которых важно взаимодействовать с людьми и использовать эти взаимодействия для информирования автоматизированных решений. Разработка чат-ботов, обнаружение вредоносных онлайн-сообщений, пропаганда здоровья и благополучия, а также анализ потребительских тенденций — вот лишь несколько примеров таких приложений. В любом из этих обстоятельств эмоции, выраженные человеком, могут оказать существенное влияние на соответствующий образ действий для модели машинного обучения, и этот уровень интерпретации требует точного анализа эмоций.
Анализ эмоций и настроений в твитах с помощью BERT
BERT расшифровывается как представления двунаправленного кодировщика от преобразователей и представляет собой предварительно обученную модель, которую можно использовать в качестве базовой модели для передачи обучения в самых разных задачах, связанных с языком, включая анализ эмоций. Поскольку сам BERT не находится в центре внимания этого поста, я предлагаю читателям изучить эти другие ресурсы, чтобы узнать больше.
Рисунок ниже, взятый из Chiorinni et al. paper, отображает архитектуру, используемую для точной настройки BERT для анализа эмоций в наборе данных Tweet Emotion Intensity.
Входные данные, которые представляют собой токенизированные твиты, передаются через BERT, который выполняет извлечение признаков, полученных в результате его предварительного обучения. Результатом этого извлечения признаков является форма твита, которая кодирует взаимосвязь между словами и фразами в твите в более машиночитаемом виде. Затем этот вывод передается в полносвязный слой с последующей активацией softmax для классификации эмоций. Подмножество 80% набора данных Tweet Emotion Intensity используется для обучения, при этом человеческие метки для эмоций в каждом твите используются в качестве исходных данных для контролируемого обучения. 10 % набора данных используются в качестве проверочного набора, а последние 10 % — это тестовый набор.
В таблицах ниже показана производительность модели для анализа эмоций и настроений соответственно.
Показатели отзыва и точности, близкие к 1, в целом впечатляют, хотя значимость этих чисел будет иметь больший контекст, если сравнивать их с характеристиками других моделей. В статье делается одно такое сравнение, в котором говорится, что точность модели на основе BERT для анализа настроений, равная 0,92, на 0,10 выше, чем у лучшего традиционного алгоритма машинного обучения для этой задачи, изученного в исследовании Go et al.. (Машины опорных векторов). Тем не менее, авторы предположили, что возможным направлением будущих исследований будет сравнение производительности этой модели на основе BERT с другими альтернативами, включая модели, в которых используется перенос обучения из других предварительно обученных моделей встраивания слов, таких как Word2Vec и GloVe.
SpanEmo: преобразование многоуровневой классификации эмоций в предсказание диапазона
В этой статье Альхузали и Ананиаду также адаптировали BERT для задачи анализа эмоций, но они добавили в процедуру некоторые новые элементы, позволяющие ее дальнейшее улучшение. Двумя основными вкладами являются: а) перестановка задачи анализа эмоций в виде предсказания интервала и б) использование термина потерь с учетом корреляции меток (LCA).
Прогнозирование диапазона
Вместо того, чтобы просто иметь выходные нейроны сети, представляющие классы эмоций для прогнозирования, авторы этой статьи расширили выходные данные, чтобы снова включить предложение, как показано на диаграмме ниже.
Намерение здесь состояло в том, чтобы разработать скрытые представления как классов эмоций, так и слов параллельно, чтобы эти представления можно было использовать для изучения ассоциаций между эмоциями и словами.
Потери с учетом корреляции меток (LCA)
Другой важной частью методологии этой статьи было использование потерь LCA. Функция потерь для каждого прогноза их модели была:
Обратите внимание, что набор негативных ярлыков относится не к «отрицательным эмоциям», а скорее к «эмоциям, которые не были частью ярлыка истинности для этого предложения» (и аналогичная идея для положительных ярлыков). Роль этой функции потерь LCA состоит в том, чтобы усилить сигнал потерь как для положительных, так и для отрицательных меток, побуждая модель предсказывать гораздо более высокие вероятности для эмоций, которые были включены в метку истинности, чем для тех, которые не были включены. Чтобы понять этот термин потери, давайте рассмотрим пример.
Предположим, что есть только 4 эмоции: радость, возбуждение, грусть и гнев. И предположим, что ярлык истинности предложения указывает на то, что оно грустное и гневное. Затем:
y¹ = {грустный, злой} и y⁰ = {счастливый, взволнованный}.
|y⁰|=|y¹| = 2, so |y⁰||y¹| = 4
y⁰ x y¹ = {(счастливый, грустный), (счастливый, сердитый), (взволнованный, грустный), (взволнованный, сердитый)}
Тогда идеальным прогнозом для минимизации потерь LCA (что требует внимательного изучения функции потерь для обнаружения) будет вектор: )=1]
Для этого прогноза потери LCA вычисляются следующим образом:
Вторая строка получается путем получения exp(0–1) для всех 4 элементов y⁰ x y¹.
Сила этой функции потерь заключается в том, что в отличие от термина бинарные кросс-энтропийные потери (BCE) потери, она требует, чтобы пары предсказаний вероятностей эмоций имели соответствующую взаимосвязь, и именно здесь метка -осведомленность о корреляции исходит из. Как и потеря BCE, она снижает вероятность отрицательно обозначенных эмоций и повышает вероятность позитивно обозначенных эмоций.
Результаты
Комбинация этих двух корректировок позволила модели, разработанной в этом исследовании, превзойти многие другие модели при проведении анализа эмоций в многокомпонентном наборе данных эмоций SemEval2018. В приведенной ниже таблице показано, что модель SpanEmo показала лучшие результаты (или такие же), чем все другие модели, по всем показателям, которые рассматривались для всех трех изученных языков (английского, арабского и испанского).
В документе также описывается исследование абляции, в ходе которого удаляются определенные элементы модели, чтобы определить влияние этих элементов. В этом исследовании абляции была проверена производительность полной модели SpanEmo, версии без потери LCA, версии без потери BCE и версии без сегментации меток (процедура, описанная в разделе Прогнозирование диапазона выше). Они обнаружили, что все три эти функции способствовали успеху модели, так как удаление любой из них приводило к падению производительности по большинству показателей (исключением была метрика macroF1, для которой удаление потери BCE привело к небольшому повышению производительности по сравнению с полной). модель). Эти результаты показаны в таблице ниже.
Заключение
Методы глубокого обучения становятся все более способными анализировать текст для извлечения эмоций. Представленные здесь документы демонстрируют полезность BERT для переноса обучения в задачи анализа эмоций, а также гибкость этой архитектуры для внесения корректировок, которые могут еще больше повысить производительность.
Ссылки
- Чиоррини и др. (2021) — Анализ эмоций и настроений твитов с использованием BERT (https://ceur-ws.org/Vol-2841/DARLI-AP_17.pdf)
- Альхузали и Ананиаду (2021 г.) - SpanEmo: использование многоуровневой классификации эмоций как предсказание диапазона (https://arxiv.org/abs/2101.10038)
- Го и др. (2009) — Классификация настроений в Твиттере с использованием дистанционного наблюдения (cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf)