Введение :
DonorsChoose.org предоставляет средства на школьные проекты. Когда он получает проектные предложения, добровольцы вручную проверяют каждую заявку, прежде чем она будет одобрена для размещения на веб-сайте DonorsChoose.org.
Но по мере того, как количество проектных предложений увеличивается, требуются ресурсы для проверки 500 000 проектов. Цель этого состоит в том, чтобы предсказать, будет ли одобрено проектное предложение DonorsChoose.org, представленное учителем, используя текст описания проекта, а также дополнительные метаданные о проекте, учителе и школе. Затем DonorsChoose.org может использовать эту информацию для определения проектов, которые, скорее всего, потребуют дальнейшего рассмотрения перед утверждением.
Обзор набора данных:
Данные имеют следующие особенности,
- id :- уникальный идентификатор приложения проекта
- teacher_id: –идентификатор учителя, отправившего заявку.
- teacher_prefix :- титул имени учителя (мисс, мистер и т. д.)
- school_state : – штат учительской школы в США.
- project_submitted_datetime :- метка времени отправки заявки
- project_grade_category: – школьные классы.
- project_subject_categories –категория проекта (например, «Музыка и искусство»).
- project_subject_subcategories –подкатегория проекта (например, «Изобразительное искусство»)
- project_title :- название проекта.
- project_essay_1 :- первое эссе*
- project_essay_2 :- второе эссе*
- project_essay_3 :- третье эссе*
- project_essay_4 :- четвертое эссе*
- project_resource_summary: – сводка ресурсов, необходимых для проекта.
- teacher_number_of_previcious_posted_projects: –количество ранее опубликованных заявок подавшим их учителем.
- project_is_approved: – было ли принято предложение DonorsChoose (0 = «отклонено», 1 = «принято»)
Импорт важных библиотек:
Загрузка данных :
Применение Наивного Байеса к набору данных DonorsChoose:
Наивный Байес:
Это алгоритм классификации, основанный на «Теореме Байеса». Это вероятностный классификатор, что означает, что он предсказывает на основе вероятности объекта.
Теорема Байеса:
Теорема Байеса определяет вероятность того, что событие произойдет, зная вероятность другого события, которое уже произошло. Теорема Байеса формулируется математически как следующее уравнение:
где A и B — события, а P(B) ≠ 0.
- По сути, мы пытаемся найти вероятность события А при условии, что событие Б истинно. Событие B также называется доказательством.
- P(A) — это априорное значение A (априорная вероятность, т. е. вероятность события до того, как будут видны доказательства). Доказательством является значение атрибута неизвестного экземпляра (здесь это событие B).
- P(A|B) — это апостериорная вероятность B, т. е. вероятность события после того, как будут видны доказательства.
Наивный байесовский подход в наборе 1 (используется метод BOW)
Наивный байесовский набор 2 (используется метод TFIDF)
Летний:
Применение дерева решений к набору данных DonorsChoose:
Древо решений :
Этот алгоритм можно использовать для решения как задач классификации, так и задач регрессии. Это контролируемая техника обучения.
где,
внутренние узлы :- характеристики набора данных,
узлы принятия решений :-правила принятия решений
конечный узел :-результат.
Настройка гиперпараметров:
DT в наборе 1 с использованием лучшего гиперпараметра:
DT в наборе 2 с использованием лучшего гиперпараметра:
Получение основных важных функций:
Важные особенности DT on Top:
Летний:
Применение дерева принятия решений по повышению градиента к набору данных DonorsChoose:
Повышение градиента — это метод машинного обучения для задач регрессии, который создает модель прогнозирования в виде ансамбля моделей слабого прогнозирования. Деревья решений с повышением градиента используют дерево решений в качестве слабой модели прогнозирования в повышении градиента, и сегодня это один из наиболее широко используемых алгоритмов обучения в машинном обучении. Благодаря его высокой точности почти половину конкурсов по машинному обучению выигрывают модели GBDT. Ниже показан пример модели.