Загляните в «Hello World» обработки естественного языка

Что такое анализ настроений?

Анализ настроений - это область обработки естественного языка, отвечающая за системы, которые могут извлекать мнения из естественного языка. НЛП нацелено на создание конвейеров, которые могут понимать язык, как мы, люди. Анализ тональности - одна из самых основных проблем в НЛП и, как правило, одна из первых проблем, с которыми студенты сталкиваются в курсе обработки естественного языка.

Почему анализ настроений?

Анализ настроений имеет очень широкий спектр применений - от возможности узнавать мнения из обзоров продуктов до возможности прогнозировать цены на акции, изучая твиты. Анализ настроений формирует основу почти для любого другого конвейера в том, что мы называем пониманием естественного языка из-за интуитивного характера проблемы.

С точки зрения преподавателя, анализ настроений содержит все, о чем должен знать специалист по анализу данных, работающий в сфере НЛП. Обработка предложений и все общие модели / архитектуры, используемые в НЛП, могут быть охвачены с помощью анализа настроений.

Типы анализа настроений

Анализ настроений - это, по сути, проблема классификации. Хотя анализ настроений содержит широкий спектр проблем, наиболее распространенные типы можно условно разделить на:

  1. Обнаружение полярности: речь идет о полярности предложения, то есть положительной, отрицательной или нейтральной. Иногда классификация может быть еще более точной, например очень положительная, положительная, нейтральная, отрицательная и очень отрицательная.
  2. Обнаружение эмоций: определение эмоций говорящего по предложению, например, счастья, грусти, злости и т. Д.
  3. Обнаружение намерения: способность обнаруживать не только то, что присутствует в предложении, но и его намерение.

Базовый трубопровод

Давайте сначала поговорим об извлечении признаков из необработанного текста. Не все данные, предоставленные для анализа настроений, являются полезными. В то время как недавние модели глубокого обучения способствовали переносу всей разработки функций на эти модели, практики НЛП по-прежнему предпочитают очищать входные данные, прежде чем передавать их через какой-либо конвейер.

После преобразования слов в математические характеристики анализ тональности становится похож на задачу временных рядов. Это связано с тем, что слова, используемые в предложении, связаны друг с другом, и порядок, в котором они появляются в предложении, тоже имеет значение. В последнее время модели глубокого обучения на основе LSTM оказались очень успешными в анализе настроений.

Что дальше?

Одна из самых больших проблем для анализа настроений - это уловить контекст, в котором предлагается предложение, и его тон. Сарказм - одна из самых больших проблем, с которыми сталкиваются обычные системы анализа настроений. В настоящее время исследователи работают над улучшением способности понимать контекст.

Этот блог является частью попытки создать упрощенные вводные в области машинного обучения. Следите за полной серией здесь



Или просто прочтите следующий блог в серии



Ссылки

[1] https://monkeylearn.com/sentiment-analysis/#sentiment-analysis-use-cases-and-applications
[2] Лю, Бинг. Анализ настроений и анализ мнений. Синтез лекций по технологиям человеческого языка 5.1 (2012): 1–167.
[3] Пак, Александр и Патрик Пароубек. Твиттер как корпус для анализа настроений и сбора мнений. LREc. Vol. 10. №2010. 2010.
[4] Ван, Ецюань, Минли Хуан и Ли Чжао. LSTM на основе внимания для классификации настроений на уровне аспектов. Материалы конференции 2016 г. по эмпирическим методам обработки естественного языка. 2016 г.