Введение :

DonorsChoose.org предоставляет средства на школьные проекты. Когда он получает проектные предложения, добровольцы вручную проверяют каждую заявку, прежде чем она будет одобрена для размещения на веб-сайте DonorsChoose.org.

Но по мере того, как количество проектных предложений увеличивается, требуются ресурсы для проверки 500 000 проектов. Цель этого состоит в том, чтобы предсказать, будет ли одобрено проектное предложение DonorsChoose.org, представленное учителем, используя текст описания проекта, а также дополнительные метаданные о проекте, учителе и школе. Затем DonorsChoose.org может использовать эту информацию для определения проектов, которые, скорее всего, потребуют дальнейшего рассмотрения перед утверждением.

Обзор набора данных:

Данные имеют следующие особенности,

  • id :- уникальный идентификатор приложения проекта
  • teacher_id: –идентификатор учителя, отправившего заявку.
  • teacher_prefix :- титул имени учителя (мисс, мистер и т. д.)
  • school_state : – штат учительской школы в США.
  • project_submitted_datetime :- метка времени отправки заявки
  • project_grade_category: – школьные классы.
  • project_subject_categories –категория проекта (например, «Музыка и искусство»).
  • project_subject_subcategories –подкатегория проекта (например, «Изобразительное искусство»)
  • project_title :- название проекта.
  • project_essay_1 :- первое эссе*
  • project_essay_2 :- второе эссе*
  • project_essay_3 :- третье эссе*
  • project_essay_4 :- четвертое эссе*
  • project_resource_summary: – сводка ресурсов, необходимых для проекта.
  • teacher_number_of_previcious_posted_projects: –количество ранее опубликованных заявок подавшим их учителем.
  • project_is_approved: – было ли принято предложение DonorsChoose (0 = «отклонено», 1 = «принято»)

Импорт важных библиотек:

Загрузка данных :

Применение Наивного Байеса к набору данных DonorsChoose:

Наивный Байес:

Это алгоритм классификации, основанный на «Теореме Байеса». Это вероятностный классификатор, что означает, что он предсказывает на основе вероятности объекта.

Теорема Байеса:

Теорема Байеса определяет вероятность того, что событие произойдет, зная вероятность другого события, которое уже произошло. Теорема Байеса формулируется математически как следующее уравнение:

где A и B — события, а P(B) ≠ 0.

  • По сути, мы пытаемся найти вероятность события А при условии, что событие Б истинно. Событие B также называется доказательством.
  • P(A) — это априорное значение A (априорная вероятность, т. е. вероятность события до того, как будут видны доказательства). Доказательством является значение атрибута неизвестного экземпляра (здесь это событие B).
  • P(A|B) — это апостериорная вероятность B, т. е. вероятность события после того, как будут видны доказательства.

Наивный байесовский подход в наборе 1 (используется метод BOW)

Наивный байесовский набор 2 (используется метод TFIDF)

Летний:

Применение дерева решений к набору данных DonorsChoose:

Древо решений :

Этот алгоритм можно использовать для решения как задач классификации, так и задач регрессии. Это контролируемая техника обучения.

где,

внутренние узлы :- характеристики набора данных,

узлы принятия решений :-правила принятия решений

конечный узел :-результат.

Настройка гиперпараметров:

DT в наборе 1 с использованием лучшего гиперпараметра:

DT в наборе 2 с использованием лучшего гиперпараметра:

Получение основных важных функций:

Важные особенности DT on Top:

Летний:

Применение дерева принятия решений по повышению градиента к набору данных DonorsChoose:

Повышение градиента — это метод машинного обучения для задач регрессии, который создает модель прогнозирования в виде ансамбля моделей слабого прогнозирования. Деревья решений с повышением градиента используют дерево решений в качестве слабой модели прогнозирования в повышении градиента, и сегодня это один из наиболее широко используемых алгоритмов обучения в машинном обучении. Благодаря его высокой точности почти половину конкурсов по машинному обучению выигрывают модели GBDT. Ниже показан пример модели.

ГБДТ на наборе 1

GBDT на наборе 2:

Летний:

Использованная литература :



Чтобы ознакомиться со всей работой, вы можете посетить мой репозиторий git



Вы можете связаться со мной через LinkedIn