Введение в обработку естественного языка

Мы почти всегда работали с числовыми наборами данных в наших стандартных задачах машинного обучения/науки о данных. Всякий раз, когда мы сталкивались со столбцом с текстовыми данными, мы всегда преобразовывали его в числовые данные, используя методы предварительной обработки данных, такие как горячее кодирование и кодирование меток.

Давайте представим, что у нас есть набор данных с простыми текстовыми данными, и мы хотим предсказать, какие комментарии в Твиттере хорошие, а какие плохие; очевидно, что кодирование меток в этом наборе данных невозможно. В результате в этом случае мы используем обработку естественного языка (NLP).

Обнаружение спама в Gmail является наиболее распространенным применением обработки естественного языка. Библиотека nltk с открытым исходным кодом является самой простой и эффективной библиотекой НЛП. Токенизация — важная концепция в НЛП, ее можно выполнить с помощью библиотеки nlkt.

Что такое токенизация?

Токенизация — это процесс преобразования абзаца в предложения или слова. Давайте посмотрим, как именно мы можем выполнить токенизацию.

Прежде всего нам нужно установить библиотеку nltk.

Затем импортируйте библиотеку nltk и загрузите все пакеты из библиотеки nltk.

В этом случае я создал переменную с именем «para», в которой я сохранил речь, произнесенную MS Dhoni после того, как мы выиграли чемпионат мира. Теперь мы будем использовать токенизацию, чтобы превратить этот абзац в предложения и слова.

Теперь мы превратим абзац в предложения, используя функцию «nltk.sent tokenize()». Для преобразования абзаца в слова мы использовали функцию nltk.word_tokenize()».

Что такое стемминг и лемматизация?

Поисковые системы и чат-боты используют стемминг и лемматизацию для определения значения слова. Стемминг использует основу слова, а лемматизация использует контекст, в котором используется слово.

Например, у нас есть следующие слова test, testing, tester. Когда мы применяем к этим словам основу, она преобразуется в tes.

Использование стемминга

Наиболее важным компонентом в таких предложениях или комментариях при выполнении сентиментального анализа, обнаружении спама по электронной почте или идентификации комментариев ненависти является слово STEM, поэтому мы можем в основном судить о том, является ли это конкретное слово положительным или отрицательным, используя слово STEM. В связи с этим требуется стемпинг.

Теперь давайте разберемся, что такое лемматизация.

Лемматизация делает то же самое, что и стемминг, но главное отличие состоит в том, что при лемматизации мы получаем осмысленный вывод, понятный людям. Например, у нас есть следующие слова test, testing, tester, когда мы применяем лемматизацию к этим словам, они преобразуются в test.

Итак, как видно из приведенного выше изображения, фундаментальное различие между стеммингом и лемматизацией заключается в том, что в стемминге представление слов не имеет значения, тогда как в лемматизации представление слов имеет какое-то значение.

Как обсуждалось ранее, определение основы можно применять для сентиментального анализа и обнаружения языка ненависти, потому что в этих случаях нам просто нужно определить основу слова. Напротив, лемматизация используется в чат-ботах, поскольку ответ, который человек получает от чат-бота, должен быть осмысленным.

В следующих блогах я объясню часть реализации стемминга и лемматизации.

Если вам понравилась эта статья, поделитесь ею с друзьями и коллегами!

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning