Проверка резюме необходима, когда компании получают тысячи заявок на разные должности и им нужно найти подходящие совпадения.
Для этого проекта набор данных изначально состоит из 2 столбцов - Категория и Резюме, где Категория обозначает поле (например, Data Science, HR, Testing и т. Д.). Используя резюме в качестве входных данных, нам необходимо отнести его к одной из категорий.
Содержание -
- Анализ набора данных
- Предварительная обработка
- Токенизация функций и метки
- Модель обучения
- Оценка
Анализ набора данных -
Используя value_counts для Category, мы можем найти частотное распределение различных категорий, присутствующих в нашем наборе данных.
resume['Category'].value_counts()
Мы можем визуализировать наиболее распространенный набор слов во всех резюме из нашего набора данных с помощью nltk и wordcloud.
Получается следующее облако слов -
Предварительная обработка резюме -
Во время предварительной обработки нам необходимо удалить ссылки, хэштеги, URL-адреса и т. Д., Поскольку они не имеют отношения к резюме. Кроме того, используя nltk, мы также удаляем игнорируемые слова (например, такие слова, как «are», «the», «или»), которые не имеют значения для содержания.
Токенизация функций и меток -
После очистки, предварительной обработки и разделения данных на train: test нам нужно токенизировать функции и метки, чтобы наиболее частым словам был придан меньший вес, а менее частым словам - большее значение.
Это делает повторяющиеся слова менее важными, а уникальные слова - более полезными.
- Особенности токенизации -
- Токенизация этикеток -
Обучение последовательной модели -
Оценивая нашу модель -
Используя метод Assessment, мы получили тестовую оценку около 14% и точность около 90%.
Кривые точности и потерь по эпохам следующие:
Графики
Давайте сделаем несколько прогнозов, используя нашу модель!
Здесь я выбрал любые 3 произвольных входных резюме из нашего тестового набора.
Мы получаем результат как:
array([ 7, 17, 14])
Результатом является токенизированная форма наших категорий, где токены выглядят следующим образом:
Следовательно, наш вывод может быть прочитан как: 7-hadoop, 17-pmo и 14-arts.
Чтобы проверить прогнозы, мы можем распечатать соответствующие тестовые этикетки -
Мы получаем следующий вывод -
hadoop pmo arts
Следовательно, наши индивидуальные прогнозы оказались верными.
Ссылка на блокнот - https://cainvas.ai-tech.systems/use-cases/resume-screening-app/
Предоставлено: Амрута Коше