Следующее исследование было проведено для наблюдения за статусом занятости
учащихся техникумов, обучающихся в столице и внутренних районах, посредством анкетирования, проведенного в январе 2022 года.
Из-за пандемии экономическая ситуация и, как следствие, занятость в штате и в стране в целом ухудшились, поэтому необходимо провести исследование положения студентов старших курсов технических курсов.
Это учебное заведение предлагает технические курсы в области окружающей среды и здоровья, управление и бизнес, среди прочего, обслуживание студентов в столице и во внутренних районах штата Амазонас

В ходе предыдущего анализа выявились некоторые важные проблемы, такие как:

• Какие переменные влияют на трудоустройство студентов?
• Какие области и курсы имеют самый высокий уровень трудоустройства?
• Базовая подготовка, область и/или конкретный курс влияют на получение работы в области обучения?

Эта работа в основном разделена на три этапа: на первом этапе
был проведен исследовательский анализ данных, где наблюдались основные переменные, на втором этапе использовались методы машинного обучения для получения моделей для прогнозировать возможность трудоустройства студентов, а также извлекать другую информацию, имеющую отношение к исследованию, а в последней части реализованы некоторые корректировки гиперпараметров и перекрестная проверка, чтобы увидеть реальные результаты моделей и заключение работы.

Цели, извлечение данных и анализ данных

Цели

а) Основная цель
• Проанализировать информацию, полученную от студентов технических курсов
(Манаус и Интерьер).
б) Конкретные задачи
• Проанализировать основные характеристики респондентов;< br /> • Анализ областей и курсов с лучшими показателями трудоустройства согласно исследованиям;
• Создание и тестирование моделей машинного обучения, чтобы предсказать, сможет ли студент
найти себя на рынке труда или нет.

Извлечение данных

Контингент студентов, изучающих технические курсы или специализации, составляет 8 532 человека. Таким образом, с учетом выборки из 845 респондентов погрешность опроса общего масштаба составляет 3%.

Структурированная анкета с 16 закрытыми вопросами. Вопросы были разработаны для получения профильной информации социально-экономической, семейной и трудовой. На основе полученных данных была проведена обработка данных для создания моделей машинного обучения с использованием языка программирования python. Ниже приведены переведенные вопросы:

  • Оплачиваемая деятельность в области обучения?
  • Опыт работы в области?
  • Оплачиваемая активность на данный момент(любая область)?
  • Ищете активность?
  • Город
  • Процент прохождения курса
  • тип курса
  • поле курса
  • возрастная группа
  • доходная группа
  • пол
  • Уровень образования
  • источник работы
  • доступность

Анализ данных

Давайте посмотрим на .head()

И .describe:

Анализируя этот кадр, можно проверить на португальском языке, что наиболее часто встречающийся студент — это женщина, изучающая технику ухода, не работающая в данный момент (или в какой-либо другой области), проживающая в Манаусе, в возрасте от 20 до 24 лет, окончившая среднюю школу и низкий доход семьи (менее 1.000 реалов=~200 долларов США в месяц).

Перед дальнейшим анализом мы должны работать с данными, давайте проверим:

Отбрасывание метки времени бесполезно в данном анализе. Мы должны преобразовать тип объекта в плавающий. Рассмотрим все категории (объекты), которые делятся на порядковые и именные категории. Порядковый номер проще, вы можете видеть ниже, что он использует цикл на питоне.

Это использовалось для age_group, perc_completed, yield_group и educ_level. Эти категории имеют порядковые отношения.

Некоторые категории были бинарными, например пол, это описано ниже:

Этот метод использовался для пола, платной_активности, exp_area, платной_активности_сегодня, look_act.

Как только мы преобразуем все данные в числовые, мы можем обрабатывать значения nan:

Для обработки этих значений использовался режим каждой категории, а затем применялся файл .fillna.

После обработки у нас есть новый фрейм данных

Столбцы «город», «поле» и «курс» мы должны обрабатывать с использованием другого вида кодирования, потому что между ними нет порядкового отношения. Но сначала давайте посмотрим на корреляции, которые у нас уже есть.

Сосредоточившись на переменной платной_активности, самая сильная наблюдаемая корреляция была с exp_area, что имеет смысл, верно? Опыт — это одна, если не главная переменная, используемая рекрутерами. Другие наблюдаемые сильные корреляции были между поиском активности и платной_активностью сегодня (-0,4) и просмотром_активностью и доступностью (0,4), но эти корреляции мало что показывают.

Продолжая кодирование, мы будем использовать одно горячее кодирование для остальных переменных объекта, используя метод, описанный ниже.

Наконец, мы можем приступить к моделированию набора данных. Прежде всего, мы должны разделить данные между поездом и тестом, используя метод.

Импорт библиотек и удаление целевого значения (paid_activity).

сингапурский доллар

СЛУЧАЙНЫЙ ЛЕС

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

КНН

НАИВНЫЙ БАЙЕС

ПЕРЦЕПТРОН

СВК

ДРЕВО РЕШЕНИЙ

Табло

Существует высокая вероятность переобучения, когда модели показывают точность более 99%, таким образом, давайте проведем перекрестную проверку случайного леса.

Теперь у нас есть 86% в логистической регрессии и 84% в случайном лесу, что в значительной степени заслуживает доверия. Давайте используем логистическую регрессию для наших последних соображений.

Используя случайный лес, чтобы увидеть наиболее важные функции, мы имеем ниже.

Как и ожидалось, exp_area является наиболее важной функцией для прогнозирования возможности трудоустройства учащегося (0,113), за ней следуют возрастная_группа (0,09), perc_completed (0,07) и доход_группа (0,069). Очень интересно видеть, что уход за больными (последняя строка 0,027) фигурирует в топ-10, вероятно, это курс с очень высоким уровнем трудоустройства.

ПОСЛЕДНИЕ СООБРАЖЕНИЯ

Давайте посмотрим матрицу путаницы

Поскольку переменная имеет очень небольшой процент, точность, полнота и f1_score показывают:

Процент работающих студентов (paid_activity) составил всего 13%, а наша модель показывает только 86% баллов после перекрестной проверки. Чтобы улучшить эти последние показатели, мы должны улучшить и модель.

Изменение кодировки

На этот раз мы будем использовать кодирование меток для преобразования предыдущих категорий, которые были закодированы одним горячим. (Зная, что это не рекомендуется).

Улучшена перекрестная проверка случайного леса.

У нас есть некоторые изменения в большинстве функций импорта

Вот результаты

Пока еще нехорошо, но значимо для того времени.

Сделано развёртывание этой модели в обнимающем лице, доступно здесь: https://huggingface.co/spaces/nicolasbevilaqua1/employability

1-Выберите курс

2-Возрастная_группа (от 0 до 5), чем выше число, тем старше кандидат

3-Опыт в районе (0 или 1), 1 в случае положительного.

Имитируя студента технического факультета, возрастная группа = 2, с опытом, мы имеем 36% вероятность получить работу.

При смене возрастной группы на старшую и без опыта шансы падают до нуля.

Надеюсь тебе понравилось.

Спасибо за вашу аудиторию.