AWS Comprehend немного выучил арабский язык

6 ноября Amazon удвоил количество языков в своем сервисе НЛП Comprehend, сделав его более глобальным, добавив арабский, китайский и другие языки:

Amazon Comprehend добавляет шесть новых языков
Опубликовано: Amazon Comprehend — это сервис обработки естественного языка (NLP), который использует машинное обучение для поиска информации…aws.amazon .com

Какие функции AWS теперь поддерживают арабский язык?

Comprehend присоединяется к Translate, Polly (один голос преобразования текста в речь по имени Зейна) и Transcribe (аудиофайлы на современном стандартном арабском языке, а не в потоковом режиме) в поддержке арабского языка.
Это техническое (и финансовое) улучшение по сравнению с предыдущей версией AWS. совет использовать Translate для преобразования на английский перед использованием Comprehend.

К сожалению, я до сих пор не могу выбрать арабский язык в пользовательских классификаторах Comprehend или функции синтаксиса.

В других инструментах AWS: Lex поддерживает только американский английский (см. Arabot для платформы арабского чат-бота), а Textract (OCR) поддерживает только символы латинского алфавита из стандартного английского алфавита и символы ASCII.

Что я могу делать в Comprehend?

Список функций в AWS Comprehend включает анализ настроений, тематическое моделирование и пользовательскую классификацию. В этом посте я рассмотрю три основные функции, которые вы можете запустить на своих собственных арабских данных:

Согласуется ли анализ настроений с теми же положительными и отрицательными метками, что и в других репозиториях?
Могу ли я сделать классификатор с разными диалектами? Это может показать, насколько широко Amazon обучил свою систему.
Тематическое моделирование нескольких суфийских стихотворений

Несколько слов о ценах

Минимальное сообщение стоит всего 3% от одного цента на большей части Comprehend. Это отлично подходит для небольших проектов, но если у вас есть набор данных с миллионом твитов, цена поднимется до диапазона 250 долларов.
Проверьте свою воронку, обработав сначала небольшой файл.
Если у вас есть техническое образование. , вы, вероятно, можете сэкономить деньги, векторизовав текст с помощью Transformers и создав свой собственный классификатор с помощью TensorFlow или PyTorch.

Анализ настроений

Я загрузил 10 000 положительных и 10 000 отрицательных строк из репозитория профессора Мотаза Саада Arabic Sentiment Analysis в S3. (Обновление: ознакомьтесь с его Лекциями НЛП на арабском языке).
Процесс должен показаться вам знакомым, если вы использовали AWS в прошлом. Просматривать результаты вручную было немного сложно, сопоставляя имена выходных файлов с задачами и отдельные результаты с соответствующими строками в исходном файле.

В отрицательном обучающем наборе 25 % были помечены как положительные, 48 % — как нейтральные и 1 % — как смешанные (категории, отсутствующие в исходном репо), а остальные 25 % были помечены как отрицательные.
Около трети этих отрицательных входных данных -но-позитивные-выходные сообщения имели достоверность >90%, например:

أجمل ما حل بي الوقوع بك 🥀
حتى الحيوانات لها قلوب وتحب 💔 #صباح_الخميس

В положительном тренировочном наборе 11% были помечены как отрицательные, 47% были нейтральными и 0,5% смешанными, а остальные 42% были положительными. Только около восьмой части положительных входных, но отрицательных выходных сообщений имели достоверность >90%. Это одно сообщение в качестве примера:

أدري فقدتك ! بس لازلت أنا أبغيك وإذني عن #العذال ما تزال خرسى 💘 #منيف_الخمشي✒

Это оказалось сложнее, чем я ожидал, потому что, возможно, мой первоисточник допустил ошибки, и его выбор двух полярных противоположностей менее вероятен, когда Comprehend обнаружил, что примерно половина твитов нейтральны. Также возможно, что Comprehend не хочет классифицировать твит как негативный.

Классификатор диалектов

Мой план состоял в том, чтобы использовать данные Университета Британской Колумбии. В их обучающем наборе данных есть примеры левантийского, персидского, египетского и современного стандартного арабского языка (всего более 86 тыс. строк). Я вернусь и обновлю этот раздел, если он станет более доступным.

Тематическое моделирование и ключевые фразы

Я выбрал два стихотворения из этого гарвардского блога.
Тематическое моделирование и разделы сущности и ключевые фразы не вытягивали интересные фразы, например, وَلَسْتُ означает просто и я не. Возможные причины того, что это было не весело:

длина контента
характер содержания (поэзия или заголовок деловых новостей)
использование знаков ташкиль / гласных, что нетипично для письменного арабского языка

Почему Amazon забыт в НЛП?

AWS расширяет свои возможности, а Alexa — успешное устройство для распознавания речи и ответа на вопросы. Тем не менее, исследователи Amazon не так известны в НЛП, как Google, Facebook, OpenAI или AllenNLP. У них нет модели или меганабора данных в кинематографической вселенной NLP Muppet:

Когда я посмотрел, писали ли инженеры в блогах об арабских функциях преобразования текста в речь или транскрипции Amazon, я нашел очень мало примеров. Это хорошая статья об их службе перевода:

Как сказать «JSTOR по-арабски? Как ADRI переводит арабскую научную литературу в больших масштабах |…
Али Мазра работал над получением степени магистра стратегических исследований в Веллингтонском университете Виктории в Нью-…aws.amazon .com»

Мое лучшее предположение о менее болтливой роли AWS на рынке таково:

поскольку AWS такой большой, продукты NLP могут не иметь приоритета
Amazon может смело предлагать свои инструменты NLP в качестве дополнительной функции для корпоративных клиентов, а не делать их широко продающимися.
Корпоративные клиенты тихие, а сторонние проекты людей шумные; если у вас много корпоративных клиентов, у вас мало шумных промоутеров

Обновление 2020 г.: см. https://arabic-nlp.herokuapp.com/

Machine Learning Naturallanguageprocessing

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning