НЛП — Часть 2 — Предварительная обработка

В первой части я упомянул теорию языка, подходы и трудности задач НЛП с использованием эвристики, машинного обучения или глубокого обучения.

Сегодня мы сделаем шаг вперед и узнаем немного больше о том, «как это сделать».

Предварительная обработка.

Представьте, что у вас есть набор данных, полный текста. Это просто плагин для машинного обучения и вуаля! Полученные результаты! Не так быстро, сначала нужно сделать на нем несколько шагов. вам может не понадобиться выполнять все шаги по всем задачам, но, безусловно, некоторые из них.

Вам может понадобиться нормализовать Unicode ваш текст -. Нам также нужно разделить наш текст на слова и предложения, иначе наш компьютер не сможет получить идею из набора слов вместе. В моем случае в португальском языке полно специальных символов, таких как ~ или ç, вам, возможно, придется иметь дело и с ними.

Сегментация предложений

Допустим, у вас есть абзац эссе, полный абзац. Вам нужно создать токены из него. Многие алгоритмы не принимают полный текст! Эта задача обычно выполняется путем разбиения предложений стоп-словами https://en.wikipedia.org/wiki/Stop_word. Это создаст предложения из вашего абзаца

Жетоны слов

Как сегментация предложения, токенизация слов создаст токены из ваших слов.

К счастью, большинство доступных сегодня библиотек НЛП могут легко выполнять эти задачи. Одним из примеров является библиотека NLTK:

from nltk.tokenizers import sent_tokenize, word_tokenize

your_sentence = sent_tokenize(your_text)

Стемминг и лемматизация

Чтобы уменьшить сложность, мы могли бы использовать стемпинг. Это означает, что мы будем использовать слова в более простой форме. Например, «Собаке нравится наблюдать за другими собаками в парке», «собака» и «собаки» будут сокращены до «собака».

Это полезно для уменьшения пространства функций в некоторых задачах.

Пример использования класса stem из NLTK

from nltk.stem.porter import PorterStemmer
stems = PorterStemmer()
word1, word2 = "dogs", "planes"
print(stems.stem(word1), stems.stem(word2))

>>dog plane

Лемматизация работает аналогично, мы будем отображать базовую форму слова, но вместо замены «собаки» на «собака» мы изменим, например, «хуже» на «плохо». Посмотрим на практике

import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer

lemmats = WordNetLemmatizer()
print(lemmats.lemmatize("worse", pos = "a"))

>> bad

Вы также можете попробовать Spacy вместо Nltk. Оба работают нормально.

Другими формами предварительной обработки ваших данных могут быть строчные буквы, удаление знаков препинания, преобразование чисел в слова. Шаги, которые вы предпримете, будут во многом зависеть от ваших потребностей.

Это всего лишь несколько примеров возможностей обработки текста. Опять же, это будет зависеть от ваших потребностей.

Это первый и элементарный шаг предварительной обработки ваших слов. Далее мы углубимся в другие методы, горячее кодирование, Bag of Words и TF-IDF. Это был короткий пост, но я не хотел смешивать первоначальную предварительную обработку с расширенными методами. Оставайтесь с нами для следующего поста.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning