Проект с открытым исходным кодом в области науки о данных Hamoye

Влияние проблем с психическим здоровьем на рабочем месте в сфере высоких технологий имеет серьезные последствия не только для человека, но и для производительности предприятия.

По данным Всемирной организации здравоохранения (ВОЗ), одни только депрессия и тревога обходятся мировой экономике примерно в один триллион долларов ежегодно из-за потери производительности.

Набор данных, используемый для проекта, взят из Open Source Mental Illness (OSMI) с использованием данных опроса за год 2014. Опрос измеряет отношение к психическому здоровью и частоту психических расстройств на рабочем месте в сфере высоких технологий. В наборе данных есть 27 столбцов и 1259 записей. Формат .csv можно найти здесь, на Kaggle.

Мотивация проекта

В этом проекте мы использовали методы Data Science и Machine Learning, чтобы:

● Определите наиболее точные предикторы психических заболеваний на рабочем месте.

● Знайте, как частота психических заболеваний и отношение к психическому здоровью различаются в зависимости от географического положения.

● Постройте прогностическую модель, которая может определить, будет ли сотрудник обращаться за психиатрической помощью.

Исследовательский анализ данных

Здесь мы изучили набор данных, чтобы понять и узнать, как частота психических заболеваний и отношение к психическому здоровью различаются в зависимости от географического положения.

Мы обработали отсутствующие значения, отбросив столбец «комментарии» (87% отсутствующих значений) и использовали модальное вменение для столбцов «self_employed» и «work_interfere».

Только сотрудники в США указали, в каком штате они находятся, в остальной части страны отсутствуют значения в столбце штата, поэтому мы будем использовать Страна в качестве единственной функции для местоположения в наш анализ.

10 стран с наибольшим количеством заявок

Около 60% опрошенных - жители США, а оставшаяся часть приходится на такие страны, как Канада, Великобритания, Австралия и другие.

Основные страны с наибольшим количеством обслуживаемых сотрудников

Более 50% опрошенных людей в США, Австралии, Великобритании и Канаде прошли курс лечения от психических проблем.

Пол участников опроса

Из приведенного выше рисунка видно, что большинство участников опроса - мужчины (около 80%) с менее чем 1% неустановленного пола.

Влияет ли самозанятость на лечение?

Самостоятельная работа или отсутствие работы не влияет на человека, получающего лечение от психического состояния.

Обсуждение вопросов психического здоровья с работодателем во время собеседования

Большинство сотрудников не желают обсуждать вопросы своего психического здоровья со своими потенциальными работодателями во время собеседования. Разумная причина этого в том, что сотрудники считают обсуждение этого вопроса недостатком при приеме на работу.

Психическое здоровье, мешающее работе

Люди, которые лечились или не лечились по поводу психического здоровья, согласны с тем, что их психическое здоровье влияет на их продуктивность иногда.

Слышали ли вы или наблюдали негативные последствия для коллег с психическими расстройствами?

Сотрудники не заметили негативных последствий для коллег с проблемами психического здоровья. Сотрудники считают, что обсуждение вопросов психического здоровья со своим работодателем не приведет к негативным последствиям.

Построение прогнозной модели

Цель состоит в том, чтобы предсказать, обратится ли сотрудник за лечением от проблемы психического здоровья.

После того, как набор данных был очищен и все пропущенные значения обработаны, мы удалили столбцы, которые не используются при построении нашей модели прогнозирования: такие как столбец «Отметка времени», «состояние» и «комментарии».

Кодировка функций

Поскольку большинство наших функций и целей (лечения) категориальны, важно, чтобы мы преобразовали их все в числа, чтобы наши алгоритмы работали. Затем оригинальный кодировщик от SkLearn используется для кодирования всех категориальных функций, прежде чем приступить к построению нашей модели.

Мы разделили набор данных на обучающий и тестовый наборы в соотношении 70% и 30% соответственно.

Мы экспериментировали с несколькими алгоритмами классификации:

● Классификатор XGBoost работает лучше всего после оценки на тестовом наборе с точностью / F1_score 0,80.

Важность функции модели XGBoost

Из приведенного выше графика наиболее сильными предикторами, определяющими, будет ли сотрудник искать психического состояния, являются:

  1. возраст сотрудника
  2. Как психическое здоровье сотрудника мешает его работе
  3. Психический семейный анамнез

Резюме

1. Около 60% опрошенных - жители США.

2. В странах с наибольшим числом опрошенных, таких как США, Австралия, Великобритания и Канада, более 50% опрошенных людей проходят лечение от психических проблем.

3. Около 80% участников опроса - мужчины.

4. Независимо от того, занимается ли человек индивидуальной трудовой деятельностью или нет, это никак не влияет на человека, получающего лечение от психической травмы.

5. Большинство сотрудников не желают обсуждать вопросы своего психического здоровья со своими потенциальными работодателями во время собеседований. Разумная причина этого в том, что сотрудники считают обсуждение этого вопроса недостатком при приеме на работу.

6. Сотрудники считают, что обсуждение вопросов психического здоровья со своим работодателем не приведет к негативным последствиям.

7. Люди, которые могут или не могут проходить лечение, согласны с тем, что их психическое здоровье иногда влияет на их продуктивность на работе.

8. Наиболее убедительными предикторами для лечения психических расстройств являются возраст, вмешательство в работу и семейный анамнез.

Посетите репозиторий GitHub, чтобы получить доступ к кодам или если вы заинтересованы в дальнейшей работе над проектом.

СПАСИБО!!!