ПРОВЕРКА МОДЕЛИ-гиперпараметр

Проверка модели относится к процессу подтверждения того, что модель достигает намеченной цели, насколько эффективна наша модель.

1- Метод удержания

Удержание — это когда вы разделяете свой набор данных на «обучающий» и «тестовый» наборы. Учебный набор — это то, на чем обучается модель, а тестовый набор используется, чтобы увидеть, насколько хорошо эта модель работает с невидимыми данными. Обычное разделение при использовании метода задержки заключается в использовании 80% данных для обучения и оставшихся 20% данных для тестирования.

2-k-кратная проверка Coss

В чем разница между задержкой и перекрестной проверкой? Метод удержания — это исчерпывающий метод перекрестной проверки, который случайным образом разбивает набор данных на обучающие и тестовые данные в зависимости от анализа данных. В случае перекрестной проверки набор данных случайным образом разбивается на данные для обучения и проверки. Как правило, разделение обучающих данных больше, чем тестовых данных.

3- Проверка начальной загрузки

Начальная загрузка — это любой тест или показатель, основанный на случайной выборке с заменой. Это метод, который помогает во многих ситуациях, таких как проверка производительности прогностической модели, ансамблевые методы, оценка смещения и дисперсии параметра модели и т. д.

ПОКАЗАТЕЛИ ОЦЕНКИ МОДЕЛИ В МАШИННОМ ОБУЧЕНИИ

Оценка модели важна для оценки эффективности модели на начальных этапах исследования.

ДЛЯ РЕГРЕССИИ

1-МСЭ

Если данные содержат огромное количество выбросов, то эта метрика считается хорошей.

2- СКО

Это одна из популярных метрик, которая в основном используется в задачах регрессии. Эта метрика предполагает, что ошибка является несмещенной и следует нормальному распределению.

3- МАЭ

Этот показатель представляет собой среднее значение абсолютных различий между фактическим наблюдением и прогнозом.

ДЛЯ КЛАССИФИКАЦИИ

1-Матрица путаницы

При выполнении прогнозов классификации могут возникнуть четыре типа результатов.

  • Истинные положительные результаты — это когда вы предсказываете, что наблюдение принадлежит классу, и оно действительно принадлежит этому классу.
  • Истинные негативы — это когда вы предсказываете, что наблюдение не принадлежит к классу, и оно на самом деле не принадлежит к этому классу.
  • Ложные срабатывания возникают, когда вы предсказываете, что наблюдение относится к классу, хотя на самом деле это не так.
  • Ложноотрицательные результаты возникают, когда вы предсказываете, что наблюдение не принадлежит к классу, хотя на самом деле оно принадлежит.
  • Точность определяется как процент правильных прогнозов для тестовых данных. Его можно легко рассчитать, разделив количество правильных прогнозов на общее количество прогнозов.

точность = правильные прогнозы/все прогнозы

  • Полнота определяется как доля примеров, которые, как было предсказано, принадлежат классу по отношению ко всем примерам, которые действительно принадлежат этому классу.

отзыв=truepositivestruepositives+falsenegatives

  • Точность определяется как доля релевантных примеров (истинных положительных результатов) среди всех примеров, которые, по прогнозам, принадлежат к определенному классу.

точность = истинные срабатывания / истинные срабатывания + ложноположительные

2-кривая ROC — рабочая характеристика приемника — AUC

Другой распространенной метрикой является AUC, площадь под кривой рабочей характеристики приемника (ROC). Кривая рабочих характеристик приемника отображает долю истинно положительных (TP) по сравнению с частотой ложноположительных (FP) при различных пороговых значениях классификации. Пороги - это разные пороги вероятности, которые разделяют два класса в бинарной классификации. Он использует вероятность, чтобы сказать нам, насколько хорошо модель разделяет классы.

СМЕЩЕНИЕ-ДИСПЕРСИЯ

Компромисс между смещением и дисперсией - это напряжение между ошибкой, вызванной смещением, и ошибкой, вызванной дисперсией.

ПОВЫШЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ МОДЕЛИ

1- Параметры модели

Это параметры в модели, которые должны быть определены с использованием набора обучающих данных. Это подогнанные параметры.

2 - Гиперпараметры

Это настраиваемые параметры, которые необходимо настроить, чтобы получить модель с оптимальными характеристиками.

Параметры модели являются внутренними для модели и оцениваются на основе данных автоматически, тогда как гиперпараметры задаются вручную и используются при оптимизации модели и помогают в оценке параметров модели.

3 -Параметры- Настройка гиперпараметров

Начнем с разницы между параметрами и гиперпараметрами, которую крайне важно знать. Параметры — это компоненты модели, которые изучаются в процессе обучения, и мы никогда не сможем задать их вручную. Модель начинает процесс обучения со случайными значениями параметров и корректирует их на протяжении всего процесса. Принимая во внимание, что гиперпараметры — это компоненты, установленные вами перед обучением модели. Значения гиперпараметров могут улучшить или ухудшить точность вашей модели.

В чем необходимость настройки гиперпараметров в машинном обучении? Модели машинного обучения недостаточно интеллектуальны, чтобы знать, какие гиперпараметры приведут к максимально возможной точности для данного набора данных. Однако значения гиперпараметров, если они установлены правильно, могут создавать высокоточные модели, и поэтому мы позволяем нашим моделям пробовать различные комбинации гиперпараметров в процессе обучения и делать прогнозы с наилучшей комбинацией значений гиперпараметров. Некоторыми из гиперпараметров в классификаторе случайного леса являются n_estimators (общее количество деревьев в лесу), max_depth (глубина каждого дерева в лесу) и критерий (метод разделения каждого дерева). Значение n_estimators, равное 1 или 2, не имеет смысла, поскольку в лесу должно быть большее количество деревьев, но как узнать, какое количество деревьев даст наилучшие результаты? И для этой цели мы пробуем разные значения, такие как [100, 200, 300]. Модель попробует все три заданных значения, и мы сможем легко определить оптимальное количество деревьев в нашем лесу.

Настройка гиперпараметров в Python

У нас есть три метода настройки гиперпараметров в python: поиск по сетке, случайный поиск и информированный поиск.

1- ПОИСК ПО СЕТКЕ

При поиске по сетке каждый квадрат в сетке имеет комбинацию гиперпараметров, и модель должна обучаться на каждой комбинации.

из sklearn.model_selection импортировать GridSearchCV

Пример:

grid_df = GridSearchCV (оценщик = модель, param_grid = grid_vals, оценка = «точность»)

2- СЛУЧАЙНЫЙ ПОИСК

Как и при поиске по сетке, мы устанавливаем значения гиперпараметров, которые хотим настроить в случайном поиске. Однако модель не обучает каждую комбинацию гиперпараметров, а выбирает их случайным образом. Мы должны определить количество образцов, которые мы хотим выбрать из нашей сетки.

из sklearn.model_selection импортировать RandomizedSearchCV