Обработка естественного языка (NLP) — это решение на основе искусственного интеллекта, которое помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком. НЛП имеет несколько практических вариантов использования, таких как машинный перевод, диалоговые боты ИИ, оценка резюме, обнаружение мошенничества и т. д. НЛП использует концепции токенизации, распознавания сущностей, встраивания слов, тематического моделирования, трансферного обучения для создания систем на основе ИИ.

Ниже приводится дорожная карта, которой я следовал во время моего курса Data Science для аспирантов, и это очень помогло мне подготовиться к собеседованиям по машинному обучению. Это также помогает мне на рабочем месте, где моя работа в основном сосредоточена на НЛП и глубоком обучении.

Предварительная обработка

  • Очистка предложения
  • Стоп-слова
  • Регулярное выражение
  • Токенизация
  • N-граммы (Униграмма, Биграмма, Триграмма)
  • Нормализация текста
  • Стемминг
  • лемматизация

Лингвистика

  • Теги частей речи
  • Анализ избирательного округа
  • Анализ зависимостей
  • Синтаксический анализ
  • Семантический анализ
  • Лексическая семантика
  • Корреферентное разрешение
  • Чанкинг
  • Извлечение сущностей / Распознавание именованных сущностей (NER)
  • Устранение неоднозначности именованной сущности/связывание сущностей
  • Графики знаний

Вложения слов

1. Частотное встраивание слов

  • Одно горячее кодирование
  • Сумка слов или CountVectorizer()
  • TFIDF или TfidfVectorizer()
  • Матрица совпадения, вектор совпадения
  • ХешированиеВекторизатор

2. Предварительно обученное встраивание слов

  • Word2Vec (от Google): (2 типа) CBOW, Skip-Gram
  • GloVe (от Стэнфорда)
  • быстрый текст (от Facebook)

Тематическое моделирование

  • Скрытый семантический анализ (LSA)
  • Вероятностный латентный семантический анализ (pLSA)
  • Скрытое распределение Дирихле (LDA)
  • lda2Vec
  • Неотрицательная матричная факторизация (NMF)

НЛП с глубоким обучением

  • Машинное обучение (логистическая регрессия, SVM, наивный байесовский метод)
  • Встраивание слоя
  • Искусственная нейронная сеть
  • Глубокая нейронная сеть
  • Сверточная нейронная сеть
  • РНН/ЛСТМ/ГРУ
  • Би-РНН/Би-LSTM/Би-ГРУ
  • Предварительно обученные языковые модели: ELMo, ULMFiT
  • Последовательность к последовательности / кодер-декодер
  • Трансформеры (механизм внимания)
  • Трансформаторы только для энкодера: BERT
  • Трансформаторы только для декодера: GPT
  • Трансферное обучение

Примеры использования

  • Анализ настроений
  • Вопрос Ответ
  • Языковой перевод
  • Классификация текста/намерения
  • Обобщение текста
  • Текстовое сходство
  • Кластеризация текста
  • Генерация текста
  • Чат-боты (DialogFlow, RASA, самодельные боты)

Библиотеки

  • НЛТК
  • Просторный
  • Gensim (в основном для тематического моделирования)

Бесплатные ресурсы YouTube:

Кредиты Стэндфордскому университету, NPTEL, Sentdex, Krish Naik.

Проверьте эти блоги

Спасибо за прочтение статьи! Если вам понравилась моя статья, сделайте 👏. Я пропустил какую-то важную тему? Дай мне знать в комментариях. Я обновлю!

Если вам интересно ознакомиться с дорожной картой математики для машинного обучения, нажмите здесь.

Свяжитесь со мной на Linked-in для получения дополнительных обновлений или любой помощи, связанной с тем, как продвигаться вперед по вышеуказанным темам.