ПРОВЕРКА МОДЕЛИ-гиперпараметр
Проверка модели относится к процессу подтверждения того, что модель достигает намеченной цели, насколько эффективна наша модель.
1- Метод удержания
Удержание — это когда вы разделяете свой набор данных на «обучающий» и «тестовый» наборы. Учебный набор — это то, на чем обучается модель, а тестовый набор используется, чтобы увидеть, насколько хорошо эта модель работает с невидимыми данными. Обычное разделение при использовании метода задержки заключается в использовании 80% данных для обучения и оставшихся 20% данных для тестирования.
2-k-кратная проверка Coss
В чем разница между задержкой и перекрестной проверкой? Метод удержания — это исчерпывающий метод перекрестной проверки, который случайным образом разбивает набор данных на обучающие и тестовые данные в зависимости от анализа данных. В случае перекрестной проверки набор данных случайным образом разбивается на данные для обучения и проверки. Как правило, разделение обучающих данных больше, чем тестовых данных.
3- Проверка начальной загрузки
Начальная загрузка — это любой тест или показатель, основанный на случайной выборке с заменой. Это метод, который помогает во многих ситуациях, таких как проверка производительности прогностической модели, ансамблевые методы, оценка смещения и дисперсии параметра модели и т. д.
ПОКАЗАТЕЛИ ОЦЕНКИ МОДЕЛИ В МАШИННОМ ОБУЧЕНИИ
Оценка модели важна для оценки эффективности модели на начальных этапах исследования.
ДЛЯ РЕГРЕССИИ
1-МСЭ
Если данные содержат огромное количество выбросов, то эта метрика считается хорошей.
2- СКО
Это одна из популярных метрик, которая в основном используется в задачах регрессии. Эта метрика предполагает, что ошибка является несмещенной и следует нормальному распределению.
3- МАЭ
Этот показатель представляет собой среднее значение абсолютных различий между фактическим наблюдением и прогнозом.
ДЛЯ КЛАССИФИКАЦИИ
1-Матрица путаницы
При выполнении прогнозов классификации могут возникнуть четыре типа результатов.
- Истинные положительные результаты — это когда вы предсказываете, что наблюдение принадлежит классу, и оно действительно принадлежит этому классу.
- Истинные негативы — это когда вы предсказываете, что наблюдение не принадлежит к классу, и оно на самом деле не принадлежит к этому классу.
- Ложные срабатывания возникают, когда вы предсказываете, что наблюдение относится к классу, хотя на самом деле это не так.
- Ложноотрицательные результаты возникают, когда вы предсказываете, что наблюдение не принадлежит к классу, хотя на самом деле оно принадлежит.
- Точность определяется как процент правильных прогнозов для тестовых данных. Его можно легко рассчитать, разделив количество правильных прогнозов на общее количество прогнозов.
точность = правильные прогнозы/все прогнозы
- Полнота определяется как доля примеров, которые, как было предсказано, принадлежат классу по отношению ко всем примерам, которые действительно принадлежат этому классу.
отзыв=truepositivestruepositives+falsenegatives
- Точность определяется как доля релевантных примеров (истинных положительных результатов) среди всех примеров, которые, по прогнозам, принадлежат к определенному классу.
точность = истинные срабатывания / истинные срабатывания + ложноположительные
2-кривая ROC — рабочая характеристика приемника — AUC
Другой распространенной метрикой является AUC, площадь под кривой рабочей характеристики приемника (ROC). Кривая рабочих характеристик приемника отображает долю истинно положительных (TP) по сравнению с частотой ложноположительных (FP) при различных пороговых значениях классификации. Пороги - это разные пороги вероятности, которые разделяют два класса в бинарной классификации. Он использует вероятность, чтобы сказать нам, насколько хорошо модель разделяет классы.
СМЕЩЕНИЕ-ДИСПЕРСИЯ
Компромисс между смещением и дисперсией - это напряжение между ошибкой, вызванной смещением, и ошибкой, вызванной дисперсией.
ПОВЫШЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ МОДЕЛИ
1- Параметры модели
Это параметры в модели, которые должны быть определены с использованием набора обучающих данных. Это подогнанные параметры.
2 - Гиперпараметры
Это настраиваемые параметры, которые необходимо настроить, чтобы получить модель с оптимальными характеристиками.
Параметры модели являются внутренними для модели и оцениваются на основе данных автоматически, тогда как гиперпараметры задаются вручную и используются при оптимизации модели и помогают в оценке параметров модели.
3 -Параметры- Настройка гиперпараметров
Начнем с разницы между параметрами и гиперпараметрами, которую крайне важно знать. Параметры — это компоненты модели, которые изучаются в процессе обучения, и мы никогда не сможем задать их вручную. Модель начинает процесс обучения со случайными значениями параметров и корректирует их на протяжении всего процесса. Принимая во внимание, что гиперпараметры — это компоненты, установленные вами перед обучением модели. Значения гиперпараметров могут улучшить или ухудшить точность вашей модели.
В чем необходимость настройки гиперпараметров в машинном обучении? Модели машинного обучения недостаточно интеллектуальны, чтобы знать, какие гиперпараметры приведут к максимально возможной точности для данного набора данных. Однако значения гиперпараметров, если они установлены правильно, могут создавать высокоточные модели, и поэтому мы позволяем нашим моделям пробовать различные комбинации гиперпараметров в процессе обучения и делать прогнозы с наилучшей комбинацией значений гиперпараметров. Некоторыми из гиперпараметров в классификаторе случайного леса являются n_estimators (общее количество деревьев в лесу), max_depth (глубина каждого дерева в лесу) и критерий (метод разделения каждого дерева). Значение n_estimators, равное 1 или 2, не имеет смысла, поскольку в лесу должно быть большее количество деревьев, но как узнать, какое количество деревьев даст наилучшие результаты? И для этой цели мы пробуем разные значения, такие как [100, 200, 300]. Модель попробует все три заданных значения, и мы сможем легко определить оптимальное количество деревьев в нашем лесу.
Настройка гиперпараметров в Python
У нас есть три метода настройки гиперпараметров в python: поиск по сетке, случайный поиск и информированный поиск.
1- ПОИСК ПО СЕТКЕ
При поиске по сетке каждый квадрат в сетке имеет комбинацию гиперпараметров, и модель должна обучаться на каждой комбинации.
из sklearn.model_selection импортировать GridSearchCV
Пример:
grid_df = GridSearchCV (оценщик = модель, param_grid = grid_vals, оценка = «точность»)
2- СЛУЧАЙНЫЙ ПОИСК
Как и при поиске по сетке, мы устанавливаем значения гиперпараметров, которые хотим настроить в случайном поиске. Однако модель не обучает каждую комбинацию гиперпараметров, а выбирает их случайным образом. Мы должны определить количество образцов, которые мы хотим выбрать из нашей сетки.