Частота термина (TF) и частота обратного документа (IDF) — это два термина, которые обычно используются в методах обработки естественного языка. Он используется, чтобы найти словосочетания и их вклад или влияние, или, скорее, мы можем сказать важность в любом данном предложении документа. Эти методы чаще используются в классификации настроений. Извлечение информации в виде эмоций из заданного слова облегчается, когда машина знает значение слова. Классификация положительных и отрицательных сообщений, передаваемых из любого данного предложения, обычно осуществляется с помощью вышеупомянутых методов. Мы выполним несколько шагов, чтобы лучше понять концепцию.

Предположим, нам дан огромный документ, приведенный ниже, который содержит много предложений, и мы хотим выполнить классификацию текста и сделать вывод, используя методы TF и ​​IDF, что является эмоцией или сообщением, которое передается через приведенные ниже предложения.

Сегодня утром команды начали свою тренировку. Команда мальчиков Кабадди прошла 1 тур практики. Футбольная команда мальчиков начала тренировку. Команда мальчиков по крикету тренируется. Команда девочек по волейболу готова. Команда мальчиков по эстафете готова.

Шаг 1. Преобразуйте предложения в набор слов

Это процесс удаления стоп-слов, таких как (есть, являются, они, их и т. д.), которые представляют местоимение или слова, присутствие которых вряд ли способствует классификации значения предложений. Следующее, что мы делаем, - это выполняем операцию определения основы для данных слов, что означает преобразование слов (которые находятся в формах существительного, глагола, прилагательного) в их основу или корневую форму. Например, учтите, что слово «обучение» преобразуется в глагол «тренировать», который является базовой формой. Теперь весь этот набор слов, оставшийся после выполнения вышеуказанного процесса очистки, собирается в список, который представляет собой набор слов.

Bag_of_words=['команда', 'мальчики', 'девочки', 'тренировка', 'кабадди', 'футбол', 'крикет', 'волейбол', 'практика', 'раунд', 'эстафета', 'гонка' , 'сеанс' , 'сегодня' , 'начало' , 'начало' , '1' , 'начало' , 'готово' , ]

Шаг 2. Выберите самые частотные слова

В приведенном выше наборе слов мы берем 4 наиболее часто встречающихся отдельных слова и выделяем их в таблице.

Шаг 3. Рассчитайте частоту появления термина

Частота термина определяется как общая частота любого конкретного слова в любом данном предложении. Формула частоты термина определяется следующим образом:

Мы знаем, что созданный нами документ, выделенный желтым цветом выше, имеет общее количество во всех 5 предложениях, и мы вычисляем появление 4 наиболее часто встречающихся слов в каждом из этих предложений.

отправлено 1 : Сегодня утренние команды начинают тренировку.

отправлено 2: команда мальчиков Кабадди проходит 1 раунд практики.

отправлено 3: футбольная команда мальчиков начинает тренировку.

отправлено 4: тренировка команды мальчиков по крикету.

отправлено 5: женская волейбольная команда готова.

6 сен : эстафетная команда юношей .

Шаг 4. Рассчитайте обратную частоту документа

IDF дает нам меру появления любого конкретного слова во всех заданных предложениях в документе.

Шаг 5. Расчет веса слова в предложении

На этом этапе мы оцениваем влияние каждого слова в предложении, оценивая произведение частоты каждого слова в предложении на общую IDF для слова.

Из приведенной выше таблицы мы можем сделать следующие выводы.

Предложение 1: слово для практики имеет больший вес, указывая на то, что колледж прикладывает усилия к тренировочному занятию.

Предложение 2. Команда мальчиков готовится к игре.

Предложение 3. Команда мальчиков готовится к игре.

Предложение 4. Команда мальчиков тренируется перед игрой.

Предложение 5: Команда девушек тренируется перед игрой.

Предложение 6: Команда мальчиков усердно тренируется перед игрой.

И, подсчитав общий вес каждого слова во всем документе, можно заметить, что слово мальчик имеет больший вес по сравнению с другими. Отсюда можно сделать вывод, что колледж уделяет больше внимания поощрению мальчиков к участию в предстоящих соревнованиях.

Таким образом, TF и ​​IDF помогли нам определить вклад слов в отдельные предложения. Также мы могли бы быть в состоянии определить, что колледж больше фокусируется на какой области из данного документа.

Надеюсь, этот пример поможет вам лучше понять ситуацию!!

Спасибо за чтение :)