Обработка естественного языка (NLP) — это решение на основе искусственного интеллекта, которое помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком. НЛП имеет несколько практических вариантов использования, таких как машинный перевод, диалоговые боты ИИ, оценка резюме, обнаружение мошенничества и т. д. НЛП использует концепции токенизации, распознавания сущностей, встраивания слов, тематического моделирования, трансферного обучения для создания систем на основе ИИ.
Ниже приводится дорожная карта, которой я следовал во время моего курса Data Science для аспирантов, и это очень помогло мне подготовиться к собеседованиям по машинному обучению. Это также помогает мне на рабочем месте, где моя работа в основном сосредоточена на НЛП и глубоком обучении.
Предварительная обработка
- Очистка предложения
- Стоп-слова
- Регулярное выражение
- Токенизация
- N-граммы (Униграмма, Биграмма, Триграмма)
- Нормализация текста
- Стемминг
- лемматизация
Лингвистика
- Теги частей речи
- Анализ избирательного округа
- Анализ зависимостей
- Синтаксический анализ
- Семантический анализ
- Лексическая семантика
- Корреферентное разрешение
- Чанкинг
- Извлечение сущностей / Распознавание именованных сущностей (NER)
- Устранение неоднозначности именованной сущности/связывание сущностей
- Графики знаний
Вложения слов
1. Частотное встраивание слов
- Одно горячее кодирование
- Сумка слов или CountVectorizer()
- TFIDF или TfidfVectorizer()
- Матрица совпадения, вектор совпадения
- ХешированиеВекторизатор
2. Предварительно обученное встраивание слов
- Word2Vec (от Google): (2 типа) CBOW, Skip-Gram
- GloVe (от Стэнфорда)
- быстрый текст (от Facebook)
Тематическое моделирование
- Скрытый семантический анализ (LSA)
- Вероятностный латентный семантический анализ (pLSA)
- Скрытое распределение Дирихле (LDA)
- lda2Vec
- Неотрицательная матричная факторизация (NMF)
НЛП с глубоким обучением
- Машинное обучение (логистическая регрессия, SVM, наивный байесовский метод)
- Встраивание слоя
- Искусственная нейронная сеть
- Глубокая нейронная сеть
- Сверточная нейронная сеть
- РНН/ЛСТМ/ГРУ
- Би-РНН/Би-LSTM/Би-ГРУ
- Предварительно обученные языковые модели: ELMo, ULMFiT
- Последовательность к последовательности / кодер-декодер
- Трансформеры (механизм внимания)
- Трансформаторы только для энкодера: BERT
- Трансформаторы только для декодера: GPT
- Трансферное обучение
Примеры использования
- Анализ настроений
- Вопрос Ответ
- Языковой перевод
- Классификация текста/намерения
- Обобщение текста
- Текстовое сходство
- Кластеризация текста
- Генерация текста
- Чат-боты (DialogFlow, RASA, самодельные боты)
Библиотеки
- НЛТК
- Просторный
- Gensim (в основном для тематического моделирования)
Бесплатные ресурсы YouTube:
Кредиты Стэндфордскому университету, NPTEL, Sentdex, Krish Naik.
Проверьте эти блоги
Спасибо за прочтение статьи! Если вам понравилась моя статья, сделайте 👏. Я пропустил какую-то важную тему? Дай мне знать в комментариях. Я обновлю!
Если вам интересно ознакомиться с дорожной картой математики для машинного обучения, нажмите здесь.
Свяжитесь со мной на Linked-in для получения дополнительных обновлений или любой помощи, связанной с тем, как продвигаться вперед по вышеуказанным темам.