— — Добро пожаловать в мой самый первый пост! Я надеюсь, что это будет знающий блог и отличное начало для меня! Не стесняйтесь оставлять свои комментарии ниже :)— —

Обработка естественного языка – это применение вычислительных методов для анализа и синтеза естественного языка и речи. Обработка естественного языка (NLP) была тенденцией в настоящее время, обзоры фильмов — довольно классический пример демонстрации простой NLP Модель мешка слов на обзорах фильмов. В этом посте я хотел бы использовать NLP, чтобы определить, является ли данный обзор фильма хорошим или плохим, учитывая 25000 наборов данных.

Давайте начнем! :)

Прежде всего, давайте взглянем на некоторые обзоры, которые я извлек из Kaggle:

«Фильм начинается с того, что менеджер (Николас Белл) приветствует инвесторов (Роберт Кэррадайн) в Primal Park. Секретный проект по мутации первобытного животного с использованием окаменелой ДНК, такой как «Парк Юрского периода», и некоторые ученые воскрешают одного из самых страшных хищников природы, саблезубого тигра или смилодона. Однако научные амбиции становятся смертельными, и когда высоковольтный забор открывается, существо убегает и начинает яростно преследовать свою добычу — посетителей, туристов и ученых. стая крупных доисторических животных, которые смертоноснее и крупнее. Кроме того, агент службы безопасности (Стейси Хайдук) и ее помощник (Брайан Уиммер) сражаются с плотоядными смилодонами. Саблезубые сами по себе, конечно, настоящие звездные звезды, и они поражают ужасающе, хотя и не убедительно. Гигантские животные яростно преследуют свою добычу, и группа нападает на самых страшных хищников одной природы и сражается с ними. Кроме того, третий Саблезубый, более опасный и медленный, преследует своих жертв.

Я буду использовать Python в качестве своего аналитического инструмента для анализа настроений. Здесь я приведу лишь краткие инструкции, а детали кодирования на Python я хотел бы обсудить в следующем посте. (С нетерпением ждите моих будущих постов, если вам это нравится. :) )

  1. Удалить теги (пример: ‹br /›) и знаки препинания.

Сначала убираются теги и знаки препинания, так что нам остается только разбираться со словами. Я использую пакеты BeautifulSoup для их удаления, а затем использую пакет re для удаления знаков препинания с использованием методов регулярных выражений.

2. Все слова в нижнем регистре.

Чтобы все слова были в одинаковой форме :)

3. Удалите стоп-слова (пример: [‘i’, ‘me’, ‘my’…] )

Стоп-слова удаляются, так как они не несут особого смысла. Рекомендуется использовать пакет nltk для загрузки стоп-слов и удаления их из набора данных обзоров фильмов.

4. Представьте каждое слово в векторной форме с помощью scikit-learn

Например:

{ Я, нахожусь, в автобусе, вау, так что}

Чтобы получить набор слов, мы подсчитываем, сколько раз каждое слово встречается в каждом предложении. В предложении 1 «the» встречается дважды, а «кот», «сидел», «на» и «шляпа» — по одному разу, поэтому вектор признаков для предложения 1 таков:

Предложение 1: {2, 1, 1, 1, 1, 0, 0, 0}

5. Внедрите алгоритм случайного леса и Готово!

  • Обратите внимание, что алгоритм случайного леса обеспечивает большую точность, но для некоторых наборов данных он имеет тенденцию к переоснащению.

Увидимся в следующем посте!