Частота термина (TF) и частота обратного документа (IDF) — это два термина, которые обычно используются в методах обработки естественного языка. Он используется, чтобы найти словосочетания и их вклад или влияние, или, скорее, мы можем сказать важность в любом данном предложении документа. Эти методы чаще используются в классификации настроений. Извлечение информации в виде эмоций из заданного слова облегчается, когда машина знает значение слова. Классификация положительных и отрицательных сообщений, передаваемых из любого данного предложения, обычно осуществляется с помощью вышеупомянутых методов. Мы выполним несколько шагов, чтобы лучше понять концепцию.
Предположим, нам дан огромный документ, приведенный ниже, который содержит много предложений, и мы хотим выполнить классификацию текста и сделать вывод, используя методы TF и IDF, что является эмоцией или сообщением, которое передается через приведенные ниже предложения.
Сегодня утром команды начали свою тренировку. Команда мальчиков Кабадди прошла 1 тур практики. Футбольная команда мальчиков начала тренировку. Команда мальчиков по крикету тренируется. Команда девочек по волейболу готова. Команда мальчиков по эстафете готова.
Шаг 1. Преобразуйте предложения в набор слов
Это процесс удаления стоп-слов, таких как (есть, являются, они, их и т. д.), которые представляют местоимение или слова, присутствие которых вряд ли способствует классификации значения предложений. Следующее, что мы делаем, - это выполняем операцию определения основы для данных слов, что означает преобразование слов (которые находятся в формах существительного, глагола, прилагательного) в их основу или корневую форму. Например, учтите, что слово «обучение» преобразуется в глагол «тренировать», который является базовой формой. Теперь весь этот набор слов, оставшийся после выполнения вышеуказанного процесса очистки, собирается в список, который представляет собой набор слов.
Bag_of_words=['команда', 'мальчики', 'девочки', 'тренировка', 'кабадди', 'футбол', 'крикет', 'волейбол', 'практика', 'раунд', 'эстафета', 'гонка' , 'сеанс' , 'сегодня' , 'начало' , 'начало' , '1' , 'начало' , 'готово' , ]
Шаг 2. Выберите самые частотные слова
В приведенном выше наборе слов мы берем 4 наиболее часто встречающихся отдельных слова и выделяем их в таблице.
Шаг 3. Рассчитайте частоту появления термина
Частота термина определяется как общая частота любого конкретного слова в любом данном предложении. Формула частоты термина определяется следующим образом:
Мы знаем, что созданный нами документ, выделенный желтым цветом выше, имеет общее количество во всех 5 предложениях, и мы вычисляем появление 4 наиболее часто встречающихся слов в каждом из этих предложений.
отправлено 1 : Сегодня утренние команды начинают тренировку.
отправлено 2: команда мальчиков Кабадди проходит 1 раунд практики.
отправлено 3: футбольная команда мальчиков начинает тренировку.
отправлено 4: тренировка команды мальчиков по крикету.
отправлено 5: женская волейбольная команда готова.
6 сен : эстафетная команда юношей .
Шаг 4. Рассчитайте обратную частоту документа
IDF дает нам меру появления любого конкретного слова во всех заданных предложениях в документе.
Шаг 5. Расчет веса слова в предложении
На этом этапе мы оцениваем влияние каждого слова в предложении, оценивая произведение частоты каждого слова в предложении на общую IDF для слова.
Из приведенной выше таблицы мы можем сделать следующие выводы.
Предложение 1: слово для практики имеет больший вес, указывая на то, что колледж прикладывает усилия к тренировочному занятию.
Предложение 2. Команда мальчиков готовится к игре.
Предложение 3. Команда мальчиков готовится к игре.
Предложение 4. Команда мальчиков тренируется перед игрой.
Предложение 5: Команда девушек тренируется перед игрой.
Предложение 6: Команда мальчиков усердно тренируется перед игрой.
И, подсчитав общий вес каждого слова во всем документе, можно заметить, что слово мальчик имеет больший вес по сравнению с другими. Отсюда можно сделать вывод, что колледж уделяет больше внимания поощрению мальчиков к участию в предстоящих соревнованиях.
Таким образом, TF и IDF помогли нам определить вклад слов в отдельные предложения. Также мы могли бы быть в состоянии определить, что колледж больше фокусируется на какой области из данного документа.
Надеюсь, этот пример поможет вам лучше понять ситуацию!!
Спасибо за чтение :)