Сокращение сотрудников в компании (HR POV)

Ученые IBM уже предоставили два набора данных. Это для обучения машинного обучения, а другое — для тестирования после того, как машина научилась. Цель этого набора данных — сократить количество сотрудников на основе нескольких факторов, чтобы сделать компанию более эффективной и результативной.

Существует 35 факторов, которые учитываются при сокращении сотрудников. Конечно, если рассматривать его вручную человеком, это займет довольно много времени. Поэтому для повышения производительности мы используем машины для обработки этих факторов.

Есть возраст, образование, специальность, область образования и еще 31 фактор. Если вы хотите узнать все подробности, вы можете проверить мой GitHub здесь.

Изображение выше представляет собой представление категориальных данных, которые рассматриваются для машинного обучения. Всего для обучения машины имеется 1057 данных.

Поскольку в наборе данных нет пропущенных значений, его можно закодировать напрямую.

Есть 24 числовых фактора данных, которые составляют состав машинного интеллекта. (возраст, уровень работы, оценка удовлетворенности отношениями и т. д.)

Прежде чем использовать на практике, я стандартизировал все данные.

Есть шесть алгоритмов экспериментов:

  • Дерево решений (оценка F1: 0,79)
  • Случайный лес (оценка F1: 0,89)
  • Логистическая регрессия (оценка F1: 0,89)
  • Машина опорных векторов (оценка F1: 0,89)
  • GaussianNB (оценка F1: 0,59)
  • KNN (оценка F1: 0,88)

После того, как все было протестировано, вывод, который имеет смысл использовать при тестировании тестового набора данных, — это алгоритм случайного леса.