Введение

Машинное обучение быстро развивалось в последнее десятилетие. Люди вносят значительный вклад во все области этой интригующей специализации. Если подумать, мы, по сути, учим компьютер изучать концепции мира, как мы их понимаем. Естественно, прежде чем что-то станет понятным для компьютеров, мы, как люди, должны сначала полностью понять концепции. Итак, как мы узнаем, что что-то понимаем? Это довольно просто: вы выбираете кого-нибудь, кого угодно, и пытаетесь объяснить им, что вы понимаете. Если вы можете сделать это успешно, вы можете с уверенностью сказать, что у вас есть полное понимание этой конкретной темы. Так что, я думаю, все, что нам нужно сделать, это объяснить компьютеру, что мы понимаем. Кажется достаточно простым? Не совсем. Существует огромное осложнение, которое необходимо решить. У нас проблема со связью между компьютером или машиной и нами.
Машины не понимают слова так, как мы. Они используют электронные таблицы, сложные таблицы базы данных и многомерные матрицы, чтобы понять самые простые вещи. В отличие от нас, которые используют слова, имеющие свои собственные независимые значения. Мы слышим слова, связываем их с их соответствующими значениями, а затем пытаемся уловить смысл.

НЛП — Введение

Так как же нам преодолеть это препятствие? С помощью обработки естественного языка или НЛП. НЛП — это область ИИ, которая позволяет компьютерам понимать, обрабатывать и даже имитировать человеческий язык, как это делаем мы. С помощью НЛП мы можем заставить программы извлекать полезную информацию из простых текстов, может быть, даже писать что-то самостоятельно. Текущий сценарий: компьютеры не могут по-настоящему понимать английский язык, как мы. Еще. Но они по-прежнему способны выполнять некоторые невероятные удивительные задачи, которые могут сэкономить нам много времени.

ИЗВЛЕЧЕНИЕ ЗНАЧЕНИЯ ИЗ ТЕКСТА

Извлечение смысла из текстов — довольно сложная задача. Так как нам нужно понять основные принципы английского языка и правила, которые не являются на 100% логичными и последовательными. В большинстве случаев мы, люди, формулируем предложения так, как нам кажется наиболее подходящим, но это не означает, что все предложения грамматически правильны.
Тем не менее, другие люди способны в совершенстве понять сказанное. Нам нужно найти способ заставить машины делать то же самое.

Итак, нам нужно придумать конвейер, который разобьёт проблему на более мелкие подзадачи, которые можно решать независимо друг от друга. Соединяя вместе такие модели машинного обучения, которые передают друг другу свои результаты, мы сможем делать очень сложные вещи.

ОБЗОР КОНТРОЛЯ

Сначала возьмем текст для работы,

Например, «Лондон — столица и самый густонаселенный город Англии и Соединенного Королевства. Расположенный на реке Темзе на юго-востоке острова Великобритания, Лондон на протяжении двух тысячелетий был крупным поселением. Он был основан римлянами, которые назвали его Лондиниум.

(Источник: Статья в Википедии «Лондон)

Шаг 1 : Сегментация предложений
В На этом шаге мы разбиваем текст на отдельные предложения.
Получается следующее:
Лондон — столица и самый густонаселенный город Англии и Соединенного Королевства.
Стоя на Река Темза на юго-востоке острова Великобритания, Лондон был крупным поселением на протяжении двух тысячелетий.
Он был основан римлянами, которые назвали его Лондиниум.
каждое из этих предложений рассматриваются как независимые друг от друга.

Шаг 2: Токенизация слов
Теперь, когда у нас есть независимые отдельные предложения, нам нужно для дальнейшего разделения их на отдельные отдельные слова, используемые в них.
Лондон, есть, тот, столица, и, наиболее, населенный, город , "из", "Англия", "и", "the", "Соединенное Королевство", "Королевство", "."

Шаг 3: Предсказание частей речи
Каждый из этих токенов должен иметь смысл. Следовательно, нам нужно предсказать, к какой категории слов они относятся: существительному, глаголу, прилагательному и так далее. Эти слова передаются в предварительно обученную модель прогнозирования, которая была обучена на миллионах похожих слов, помеченных правильными тегами категорий.

После этапа предварительной обработки слова предсказываются моделью. (Внимание: то, что слова были угаданы правильно, не означает, что машина способна понять значение слов. Она просто знает, как отображать слова, используя статистические формулы).

Вот чего хотят лейблы:

Нам также необходимо включить различные формы, в которых слова могут существовать, город — города, есть-быть. Эти слова также могут повлиять на то, как модели могут понимать текст.

Шаг 4. Определение стоп-слов

Есть определенные слова, которые часто используются в предложениях. Например: a, the, an, are и т. д.

Такие слова создают ненужный шум в данных и могут затруднить изучение модели.

Таким образом, мы просто пропускаем все такие слова, которые не дают нам никакого конкретного понимания смысла предложения.

Шаг 5. Анализ зависимостей

После того, как у нас есть слова, которые нам нужно обработать и понять, мы пытаемся увидеть, какие отношения они имеют с другими словами в том же предложении. Следовательно, мы можем сказать, насколько они зависимы. Это называется анализом зависимостей.

Из дерева зависимостей, как показано выше, мы можем сделать некоторые важные выводы относительно используемых слов.

Шаг 6. Распознавание именованных объектов (NER)

Некоторые из этих существительных обозначают реальные вещи, места в мире. Например, «Лондон», «Англия» и «Великобритания» обозначают физические места на карте. Было бы удивительно, если бы мы смогли обнаружить это! С помощью такого механизма обнаружения мы сможем собирать данные из документов как в автономном режиме, так и в Интернете.

Вот некоторые из типов объектов, которые может пометить типичная система NER:

  • Имена людей
  • Названия компаний
  • Географическое расположение (как физическое, так и политическое)
  • Названия продуктов
  • Даты и время
  • суммы денег
  • Названия событий

Шаг 7: Разрешение базовой ссылки

Точно так же, как название предполагает, что мы все еще должны понимать такие слова, как это, они, они и т. Д. Чтобы модель могла понимать такие слова, которые можно использовать в качестве заменителей.

ЗАКЛЮЧЕНИЕ

С помощью НЛП мы понимаем, обобщаем и изменяем человеческие языки такими, какими мы их знаем. Благодаря такому широкому распространению НЛП оказалось очень полезным во всех слоях общества. Мы определенно можем много работать над этим подполем и пытаться понять контекст, в котором написан текст.

Ссылки:

https://medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e — Адам Гейтгей, сообщение от 18 июля 2018 г.