6 ноября Amazon удвоил количество языков в своем сервисе НЛП Comprehend, сделав его более глобальным, добавив арабский, китайский и другие языки:



Какие функции AWS теперь поддерживают арабский язык?

Comprehend присоединяется к Translate, Polly (один голос преобразования текста в речь по имени Зейна) и Transcribe (аудиофайлы на современном стандартном арабском языке, а не в потоковом режиме) в поддержке арабского языка.
Это техническое (и финансовое) улучшение по сравнению с предыдущей версией AWS. совет использовать Translate для преобразования на английский перед использованием Comprehend.

К сожалению, я до сих пор не могу выбрать арабский язык в пользовательских классификаторах Comprehend или функции синтаксиса.

В других инструментах AWS: Lex поддерживает только американский английский (см. Arabot для платформы арабского чат-бота), а Textract (OCR) поддерживает только символы латинского алфавита из стандартного английского алфавита и символы ASCII.

Что я могу делать в Comprehend?

Список функций в AWS Comprehend включает анализ настроений, тематическое моделирование и пользовательскую классификацию. В этом посте я рассмотрю три основные функции, которые вы можете запустить на своих собственных арабских данных:

  • Согласуется ли анализ настроений с теми же положительными и отрицательными метками, что и в других репозиториях?
  • Могу ли я сделать классификатор с разными диалектами? Это может показать, насколько широко Amazon обучил свою систему.
  • Тематическое моделирование нескольких суфийских стихотворений

Несколько слов о ценах

Минимальное сообщение стоит всего 3% от одного цента на большей части Comprehend. Это отлично подходит для небольших проектов, но если у вас есть набор данных с миллионом твитов, цена поднимется до диапазона 250 долларов.
Проверьте свою воронку, обработав сначала небольшой файл.
Если у вас есть техническое образование. , вы, вероятно, можете сэкономить деньги, векторизовав текст с помощью Transformers и создав свой собственный классификатор с помощью TensorFlow или PyTorch.

Анализ настроений

Я загрузил 10 000 положительных и 10 000 отрицательных строк из репозитория профессора Мотаза Саада Arabic Sentiment Analysis в S3. (Обновление: ознакомьтесь с его Лекциями НЛП на арабском языке).
Процесс должен показаться вам знакомым, если вы использовали AWS в прошлом. Просматривать результаты вручную было немного сложно, сопоставляя имена выходных файлов с задачами и отдельные результаты с соответствующими строками в исходном файле.

В отрицательном обучающем наборе 25 % были помечены как положительные, 48 % — как нейтральные и 1 % — как смешанные (категории, отсутствующие в исходном репо), а остальные 25 % были помечены как отрицательные.
Около трети этих отрицательных входных данных -но-позитивные-выходные сообщения имели достоверность >90%, например:

أجمل ما حل بي الوقوع بك 🥀
حتى الحيوانات لها قلوب وتحب 💔 #صباح_الخميس

В положительном тренировочном наборе 11% были помечены как отрицательные, 47% были нейтральными и 0,5% смешанными, а остальные 42% были положительными. Только около восьмой части положительных входных, но отрицательных выходных сообщений имели достоверность >90%. Это одно сообщение в качестве примера:

أدري فقدتك ! بس لازلت أنا أبغيك وإذني عن #العذال ما تزال خرسى 💘 #منيف_الخمشي✒

Это оказалось сложнее, чем я ожидал, потому что, возможно, мой первоисточник допустил ошибки, и его выбор двух полярных противоположностей менее вероятен, когда Comprehend обнаружил, что примерно половина твитов нейтральны. Также возможно, что Comprehend не хочет классифицировать твит как негативный.

Классификатор диалектов

Мой план состоял в том, чтобы использовать данные Университета Британской Колумбии. В их обучающем наборе данных есть примеры левантийского, персидского, египетского и современного стандартного арабского языка (всего более 86 тыс. строк). Я вернусь и обновлю этот раздел, если он станет более доступным.

Тематическое моделирование и ключевые фразы

Я выбрал два стихотворения из этого гарвардского блога.
Тематическое моделирование и разделы сущности и ключевые фразы не вытягивали интересные фразы, например, وَلَسْتُ означает просто и я не. Возможные причины того, что это было не весело:

  • длина контента
  • характер содержания (поэзия или заголовок деловых новостей)
  • использование знаков ташкиль / гласных, что нетипично для письменного арабского языка

Почему Amazon забыт в НЛП?

AWS расширяет свои возможности, а Alexa — успешное устройство для распознавания речи и ответа на вопросы. Тем не менее, исследователи Amazon не так известны в НЛП, как Google, Facebook, OpenAI или AllenNLP. У них нет модели или меганабора данных в кинематографической вселенной NLP Muppet:

Когда я посмотрел, писали ли инженеры в блогах об арабских функциях преобразования текста в речь или транскрипции Amazon, я нашел очень мало примеров. Это хорошая статья об их службе перевода:



Как сказать «JSTOR по-арабски? Как ADRI переводит арабскую научную литературу в больших масштабах |…
Али Мазра работал над получением степени магистра стратегических исследований в Веллингтонском университете Виктории в Нью-…aws.amazon .com»



Мое лучшее предположение о менее болтливой роли AWS на рынке таково:

  • поскольку AWS такой большой, продукты NLP могут не иметь приоритета
  • Amazon может смело предлагать свои инструменты NLP в качестве дополнительной функции для корпоративных клиентов, а не делать их широко продающимися.
  • Корпоративные клиенты тихие, а сторонние проекты людей шумные; если у вас много корпоративных клиентов, у вас мало шумных промоутеров

Обновление 2020 г.: см. https://arabic-nlp.herokuapp.com/