Введение в обработку естественного языка (NLP)

Введение

Машинное обучение быстро развивалось в последнее десятилетие. Люди вносят значительный вклад во все области этой интригующей специализации. Если подумать, мы, по сути, учим компьютер изучать концепции мира, как мы их понимаем. Естественно, прежде чем что-то станет понятным для компьютеров, мы, как люди, должны сначала полностью понять концепции. Итак, как мы узнаем, что что-то понимаем? Это довольно просто: вы выбираете кого-нибудь, кого угодно, и пытаетесь объяснить им, что вы понимаете. Если вы можете сделать это успешно, вы можете с уверенностью сказать, что у вас есть полное понимание этой конкретной темы. Так что, я думаю, все, что нам нужно сделать, это объяснить компьютеру, что мы понимаем. Кажется достаточно простым? Не совсем. Существует огромное осложнение, которое необходимо решить. У нас проблема со связью между компьютером или машиной и нами.
Машины не понимают слова так, как мы. Они используют электронные таблицы, сложные таблицы базы данных и многомерные матрицы, чтобы понять самые простые вещи. В отличие от нас, которые используют слова, имеющие свои собственные независимые значения. Мы слышим слова, связываем их с их соответствующими значениями, а затем пытаемся уловить смысл.

НЛП — Введение

Так как же нам преодолеть это препятствие? С помощью обработки естественного языка или НЛП. НЛП — это область ИИ, которая позволяет компьютерам понимать, обрабатывать и даже имитировать человеческий язык, как это делаем мы. С помощью НЛП мы можем заставить программы извлекать полезную информацию из простых текстов, может быть, даже писать что-то самостоятельно. Текущий сценарий: компьютеры не могут по-настоящему понимать английский язык, как мы. Еще. Но они по-прежнему способны выполнять некоторые невероятные удивительные задачи, которые могут сэкономить нам много времени.

ИЗВЛЕЧЕНИЕ ЗНАЧЕНИЯ ИЗ ТЕКСТА

Извлечение смысла из текстов — довольно сложная задача. Так как нам нужно понять основные принципы английского языка и правила, которые не являются на 100% логичными и последовательными. В большинстве случаев мы, люди, формулируем предложения так, как нам кажется наиболее подходящим, но это не означает, что все предложения грамматически правильны.
Тем не менее, другие люди способны в совершенстве понять сказанное. Нам нужно найти способ заставить машины делать то же самое.

Итак, нам нужно придумать конвейер, который разобьёт проблему на более мелкие подзадачи, которые можно решать независимо друг от друга. Соединяя вместе такие модели машинного обучения, которые передают друг другу свои результаты, мы сможем делать очень сложные вещи.

ОБЗОР КОНТРОЛЯ

Сначала возьмем текст для работы,

Например, «Лондон — столица и самый густонаселенный город Англии и Соединенного Королевства. Расположенный на реке Темзе на юго-востоке острова Великобритания, Лондон на протяжении двух тысячелетий был крупным поселением. Он был основан римлянами, которые назвали его Лондиниум.

(Источник: Статья в Википедии «Лондон)

Шаг 1 : Сегментация предложений
В На этом шаге мы разбиваем текст на отдельные предложения.
Получается следующее:
Лондон — столица и самый густонаселенный город Англии и Соединенного Королевства.
Стоя на Река Темза на юго-востоке острова Великобритания, Лондон был крупным поселением на протяжении двух тысячелетий.
Он был основан римлянами, которые назвали его Лондиниум.
каждое из этих предложений рассматриваются как независимые друг от друга.

Шаг 2: Токенизация слов
Теперь, когда у нас есть независимые отдельные предложения, нам нужно для дальнейшего разделения их на отдельные отдельные слова, используемые в них.
Лондон, есть, тот, столица, и, наиболее, населенный, город , "из", "Англия", "и", "the", "Соединенное Королевство", "Королевство", "."

Шаг 3: Предсказание частей речи
Каждый из этих токенов должен иметь смысл. Следовательно, нам нужно предсказать, к какой категории слов они относятся: существительному, глаголу, прилагательному и так далее. Эти слова передаются в предварительно обученную модель прогнозирования, которая была обучена на миллионах похожих слов, помеченных правильными тегами категорий.

После этапа предварительной обработки слова предсказываются моделью. (Внимание: то, что слова были угаданы правильно, не означает, что машина способна понять значение слов. Она просто знает, как отображать слова, используя статистические формулы).

Вот чего хотят лейблы:

Нам также необходимо включить различные формы, в которых слова могут существовать, город — города, есть-быть. Эти слова также могут повлиять на то, как модели могут понимать текст.

Шаг 4. Определение стоп-слов

Есть определенные слова, которые часто используются в предложениях. Например: a, the, an, are и т. д.

Такие слова создают ненужный шум в данных и могут затруднить изучение модели.

Таким образом, мы просто пропускаем все такие слова, которые не дают нам никакого конкретного понимания смысла предложения.

Шаг 5. Анализ зависимостей

После того, как у нас есть слова, которые нам нужно обработать и понять, мы пытаемся увидеть, какие отношения они имеют с другими словами в том же предложении. Следовательно, мы можем сказать, насколько они зависимы. Это называется анализом зависимостей.

Из дерева зависимостей, как показано выше, мы можем сделать некоторые важные выводы относительно используемых слов.

Шаг 6. Распознавание именованных объектов (NER)

Некоторые из этих существительных обозначают реальные вещи, места в мире. Например, «Лондон», «Англия» и «Великобритания» обозначают физические места на карте. Было бы удивительно, если бы мы смогли обнаружить это! С помощью такого механизма обнаружения мы сможем собирать данные из документов как в автономном режиме, так и в Интернете.

Вот некоторые из типов объектов, которые может пометить типичная система NER:

Имена людей
Названия компаний
Географическое расположение (как физическое, так и политическое)
Названия продуктов
Даты и время
суммы денег
Названия событий

Шаг 7: Разрешение базовой ссылки

Точно так же, как название предполагает, что мы все еще должны понимать такие слова, как это, они, они и т. Д. Чтобы модель могла понимать такие слова, которые можно использовать в качестве заменителей.

ЗАКЛЮЧЕНИЕ

С помощью НЛП мы понимаем, обобщаем и изменяем человеческие языки такими, какими мы их знаем. Благодаря такому широкому распространению НЛП оказалось очень полезным во всех слоях общества. Мы определенно можем много работать над этим подполем и пытаться понять контекст, в котором написан текст.

Ссылки:

https://medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e — Адам Гейтгей, сообщение от 18 июля 2018 г.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning