Проверка резюме необходима, когда компании получают тысячи заявок на разные должности и им нужно найти подходящие совпадения.

Для этого проекта набор данных изначально состоит из 2 столбцов - Категория и Резюме, где Категория обозначает поле (например, Data Science, HR, Testing и т. Д.). Используя резюме в качестве входных данных, нам необходимо отнести его к одной из категорий.

Содержание -

  • Анализ набора данных
  • Предварительная обработка
  • Токенизация функций и метки
  • Модель обучения
  • Оценка

Анализ набора данных -

Используя value_counts для Category, мы можем найти частотное распределение различных категорий, присутствующих в нашем наборе данных.

resume['Category'].value_counts()

Мы можем визуализировать наиболее распространенный набор слов во всех резюме из нашего набора данных с помощью nltk и wordcloud.

Получается следующее облако слов -

Предварительная обработка резюме -

Во время предварительной обработки нам необходимо удалить ссылки, хэштеги, URL-адреса и т. Д., Поскольку они не имеют отношения к резюме. Кроме того, используя nltk, мы также удаляем игнорируемые слова (например, такие слова, как «are», «the», «или»), которые не имеют значения для содержания.

Токенизация функций и меток -

После очистки, предварительной обработки и разделения данных на train: test нам нужно токенизировать функции и метки, чтобы наиболее частым словам был придан меньший вес, а менее частым словам - большее значение.

Это делает повторяющиеся слова менее важными, а уникальные слова - более полезными.

  • Особенности токенизации -
  • Токенизация этикеток -

Обучение последовательной модели -

Оценивая нашу модель -

Используя метод Assessment, мы получили тестовую оценку около 14% и точность около 90%.

Кривые точности и потерь по эпохам следующие:

Графики

Давайте сделаем несколько прогнозов, используя нашу модель!

Здесь я выбрал любые 3 произвольных входных резюме из нашего тестового набора.

Мы получаем результат как:

array([ 7, 17, 14])

Результатом является токенизированная форма наших категорий, где токены выглядят следующим образом:

Следовательно, наш вывод может быть прочитан как: 7-hadoop, 17-pmo и 14-arts.

Чтобы проверить прогнозы, мы можем распечатать соответствующие тестовые этикетки -

Мы получаем следующий вывод -

hadoop
pmo
arts

Следовательно, наши индивидуальные прогнозы оказались верными.

Ссылка на блокнот - https://cainvas.ai-tech.systems/use-cases/resume-screening-app/

Предоставлено: Амрута Коше