Следующее исследование было проведено для наблюдения за статусом занятости
учащихся техникумов, обучающихся в столице и внутренних районах, посредством анкетирования, проведенного в январе 2022 года.
Из-за пандемии экономическая ситуация и, как следствие, занятость в штате и в стране в целом ухудшились, поэтому необходимо провести исследование положения студентов старших курсов технических курсов.
Это учебное заведение предлагает технические курсы в области окружающей среды и здоровья, управление и бизнес, среди прочего, обслуживание студентов в столице и во внутренних районах штата Амазонас
В ходе предыдущего анализа выявились некоторые важные проблемы, такие как:
• Какие переменные влияют на трудоустройство студентов?
• Какие области и курсы имеют самый высокий уровень трудоустройства?
• Базовая подготовка, область и/или конкретный курс влияют на получение работы в области обучения?
Эта работа в основном разделена на три этапа: на первом этапе
был проведен исследовательский анализ данных, где наблюдались основные переменные, на втором этапе использовались методы машинного обучения для получения моделей для прогнозировать возможность трудоустройства студентов, а также извлекать другую информацию, имеющую отношение к исследованию, а в последней части реализованы некоторые корректировки гиперпараметров и перекрестная проверка, чтобы увидеть реальные результаты моделей и заключение работы.
Цели, извлечение данных и анализ данных
Цели
а) Основная цель
• Проанализировать информацию, полученную от студентов технических курсов
(Манаус и Интерьер).
б) Конкретные задачи
• Проанализировать основные характеристики респондентов;< br /> • Анализ областей и курсов с лучшими показателями трудоустройства согласно исследованиям;
• Создание и тестирование моделей машинного обучения, чтобы предсказать, сможет ли студент
найти себя на рынке труда или нет.
Извлечение данных
Контингент студентов, изучающих технические курсы или специализации, составляет 8 532 человека. Таким образом, с учетом выборки из 845 респондентов погрешность опроса общего масштаба составляет 3%.
Структурированная анкета с 16 закрытыми вопросами. Вопросы были разработаны для получения профильной информации социально-экономической, семейной и трудовой. На основе полученных данных была проведена обработка данных для создания моделей машинного обучения с использованием языка программирования python. Ниже приведены переведенные вопросы:
- Оплачиваемая деятельность в области обучения?
- Опыт работы в области?
- Оплачиваемая активность на данный момент(любая область)?
- Ищете активность?
- Город
- Процент прохождения курса
- тип курса
- поле курса
- возрастная группа
- доходная группа
- пол
- Уровень образования
- источник работы
- доступность
Анализ данных
Давайте посмотрим на .head()
И .describe:
Анализируя этот кадр, можно проверить на португальском языке, что наиболее часто встречающийся студент — это женщина, изучающая технику ухода, не работающая в данный момент (или в какой-либо другой области), проживающая в Манаусе, в возрасте от 20 до 24 лет, окончившая среднюю школу и низкий доход семьи (менее 1.000 реалов=~200 долларов США в месяц).
Перед дальнейшим анализом мы должны работать с данными, давайте проверим:
Отбрасывание метки времени бесполезно в данном анализе. Мы должны преобразовать тип объекта в плавающий. Рассмотрим все категории (объекты), которые делятся на порядковые и именные категории. Порядковый номер проще, вы можете видеть ниже, что он использует цикл на питоне.
Это использовалось для age_group, perc_completed, yield_group и educ_level. Эти категории имеют порядковые отношения.
Некоторые категории были бинарными, например пол, это описано ниже:
Этот метод использовался для пола, платной_активности, exp_area, платной_активности_сегодня, look_act.
Как только мы преобразуем все данные в числовые, мы можем обрабатывать значения nan:
Для обработки этих значений использовался режим каждой категории, а затем применялся файл .fillna.
После обработки у нас есть новый фрейм данных
Столбцы «город», «поле» и «курс» мы должны обрабатывать с использованием другого вида кодирования, потому что между ними нет порядкового отношения. Но сначала давайте посмотрим на корреляции, которые у нас уже есть.
Сосредоточившись на переменной платной_активности, самая сильная наблюдаемая корреляция была с exp_area, что имеет смысл, верно? Опыт — это одна, если не главная переменная, используемая рекрутерами. Другие наблюдаемые сильные корреляции были между поиском активности и платной_активностью сегодня (-0,4) и просмотром_активностью и доступностью (0,4), но эти корреляции мало что показывают.
Продолжая кодирование, мы будем использовать одно горячее кодирование для остальных переменных объекта, используя метод, описанный ниже.
Наконец, мы можем приступить к моделированию набора данных. Прежде всего, мы должны разделить данные между поездом и тестом, используя метод.
Импорт библиотек и удаление целевого значения (paid_activity).
сингапурский доллар
СЛУЧАЙНЫЙ ЛЕС
ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ
КНН
НАИВНЫЙ БАЙЕС
ПЕРЦЕПТРОН
СВК
ДРЕВО РЕШЕНИЙ
Табло
Существует высокая вероятность переобучения, когда модели показывают точность более 99%, таким образом, давайте проведем перекрестную проверку случайного леса.
Теперь у нас есть 86% в логистической регрессии и 84% в случайном лесу, что в значительной степени заслуживает доверия. Давайте используем логистическую регрессию для наших последних соображений.
Используя случайный лес, чтобы увидеть наиболее важные функции, мы имеем ниже.
Как и ожидалось, exp_area является наиболее важной функцией для прогнозирования возможности трудоустройства учащегося (0,113), за ней следуют возрастная_группа (0,09), perc_completed (0,07) и доход_группа (0,069). Очень интересно видеть, что уход за больными (последняя строка 0,027) фигурирует в топ-10, вероятно, это курс с очень высоким уровнем трудоустройства.
ПОСЛЕДНИЕ СООБРАЖЕНИЯ
Давайте посмотрим матрицу путаницы
Поскольку переменная имеет очень небольшой процент, точность, полнота и f1_score показывают:
Процент работающих студентов (paid_activity) составил всего 13%, а наша модель показывает только 86% баллов после перекрестной проверки. Чтобы улучшить эти последние показатели, мы должны улучшить и модель.
Изменение кодировки
На этот раз мы будем использовать кодирование меток для преобразования предыдущих категорий, которые были закодированы одним горячим. (Зная, что это не рекомендуется).
Улучшена перекрестная проверка случайного леса.
У нас есть некоторые изменения в большинстве функций импорта
Вот результаты
Пока еще нехорошо, но значимо для того времени.
Сделано развёртывание этой модели в обнимающем лице, доступно здесь: https://huggingface.co/spaces/nicolasbevilaqua1/employability
1-Выберите курс
2-Возрастная_группа (от 0 до 5), чем выше число, тем старше кандидат
3-Опыт в районе (0 или 1), 1 в случае положительного.
Имитируя студента технического факультета, возрастная группа = 2, с опытом, мы имеем 36% вероятность получить работу.
При смене возрастной группы на старшую и без опыта шансы падают до нуля.
Надеюсь тебе понравилось.
Спасибо за вашу аудиторию.