Предварительная обработка текста в НЛП

В этой статье я расскажу об основных этапах предварительной обработки текста.

Это перевод текста в нижний регистр, удаление тегов HTML, удаление URL-адресов, удаление знаков препинания, обработка слов в чате, исправление орфографии, удаление стоп-слов, обработка смайликов в тексте, токенизация текста, выделение корней и лемматизация.

Здесь я использую набор данных IMDB, который содержит 50 тысяч обзоров фильмов.

Вы можете найти набор данных здесь — набор данных

В наборе данных есть два столбца: обзор, настроение.

Нижний регистр

переводит текст в нижний регистр

Зачем нам нужно преобразовывать текст в нижний регистр?

Когда мы размечаем предложение слово за словом, одно и то же слово, представленное в верхнем и нижнем регистре, идентифицируется как разные слова. Например, «Basic» и «Basic» считаются разными, но они оба одинаковы, потому что Python чувствителен к регистру, это усложняет модель, чтобы упростить ее, мы используем нижний регистр.

Это первый шаг предобработки текста, который необходимо сделать обязательно.

Удаление тегов HTML

Удаление ненужных данных из текста, давайте возьмем случай очистки данных из Интернета, где мы получаем html-теги, которые не нужны для данных, их следует удалить.

Удаление знаков препинания

Когда мы размечаем предложения, знаки препинания превращаются в разные слова, например, «Привет! как дела?», когда мы токенизируем, он может стать Привет, !, как, вы,? здесь знаки препинания воспринимаются как разные слова. Это усложняет модель, выполняя больше операций с кодом, а знаки препинания не придают предложению никакого значения.

Обработка слов в чате

такие слова, как ROFL,LMAO,FYI,GD,ASAP, можно найти в сообщениях чатов многих социальных сетей, таких как WhatsApp, Instagram, Twitter. При резюмировании текста, чтобы понять значение слова, эти короткие слова следует заменить длинными формами.

Орфографическая коррекция

рассмотрим пример «пожалуйста, прочитайте блокнот и лайкните блокнот».

когда мы токенизируем приведенное выше предложение, слова «ноутбук» и «нтебук» воспринимаются как разные слова, чтобы избежать подобных вещей, необходимо выполнить орфографическую коррекцию.

Удаление стоп-слов

Слова, которые помогают в формировании предложения, но не придают этому предложению никакого смысла, например, «а», «ан», «то», «есть» и так далее.

Работа с смайликами

При анализе сообщений в чате, для классификации текста или анализа настроений, смайлики имеют особое значение, мы можем заменить выражение смайликов их соответствующим значением. Если наша формулировка проблемы не имеет ничего общего с настроениями или чувствами, мы можем удалить их.

Удаление смайликов:

Замена эмодзи их соответствующим значением:

Токенизация

Разбивая текст на предложения и слова, мы понимаем контекст текста, а также можем найти тему текста и многое другое.

Мы можем токенизировать текст по-разному, например:

Использование функции разделения:

Использование регулярных выражений:

Использование nltk.tokenize :

Стемминг

Стэмминг — это процесс сведения флексии слов к их корневым формам, например сопоставление группы слов с одной и той же основой, даже если сама основа не является допустимым словом в языке.

Инфлексия - это модификация слова для выражения различных грамматических категорий, таких как время, залог, вид, лицо, пол и настроение.

При построении основы словоизменение не имеет большого значения, кроме сокращения слова до его основы.

лемматизация

Лемматизация, в отличие от стемминга, уменьшает флективные слова должным образом, гарантируя, что корневое слово принадлежит языку. В лемматизации корень слова называется леммой.

полный код

Надеюсь, это поможет, не стесняйтесь связаться со мной в LinkedIn и подписаться на меня в Medium.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning