ПРОВЕРКА МОДЕЛИ-гиперпараметр

Проверка модели относится к процессу подтверждения того, что модель достигает намеченной цели, насколько эффективна наша модель.

1- Метод удержания

Удержание — это когда вы разделяете свой набор данных на «обучающий» и «тестовый» наборы. Учебный набор — это то, на чем обучается модель, а тестовый набор используется, чтобы увидеть, насколько хорошо эта модель работает с невидимыми данными. Обычное разделение при использовании метода задержки заключается в использовании 80% данных для обучения и оставшихся 20% данных для тестирования.

2-k-кратная проверка Coss

В чем разница между задержкой и перекрестной проверкой? Метод удержания — это исчерпывающий метод перекрестной проверки, который случайным образом разбивает набор данных на обучающие и тестовые данные в зависимости от анализа данных. В случае перекрестной проверки набор данных случайным образом разбивается на данные для обучения и проверки. Как правило, разделение обучающих данных больше, чем тестовых данных.

3- Проверка начальной загрузки

Начальная загрузка — это любой тест или показатель, основанный на случайной выборке с заменой. Это метод, который помогает во многих ситуациях, таких как проверка производительности прогностической модели, ансамблевые методы, оценка смещения и дисперсии параметра модели и т. д.

ПОКАЗАТЕЛИ ОЦЕНКИ МОДЕЛИ В МАШИННОМ ОБУЧЕНИИ

Оценка модели важна для оценки эффективности модели на начальных этапах исследования.

ДЛЯ РЕГРЕССИИ

1-МСЭ

Если данные содержат огромное количество выбросов, то эта метрика считается хорошей.

2- СКО

Это одна из популярных метрик, которая в основном используется в задачах регрессии. Эта метрика предполагает, что ошибка является несмещенной и следует нормальному распределению.

3- МАЭ

Этот показатель представляет собой среднее значение абсолютных различий между фактическим наблюдением и прогнозом.

ДЛЯ КЛАССИФИКАЦИИ

1-Матрица путаницы

При выполнении прогнозов классификации могут возникнуть четыре типа результатов.

Истинные положительные результаты — это когда вы предсказываете, что наблюдение принадлежит классу, и оно действительно принадлежит этому классу.
Истинные негативы — это когда вы предсказываете, что наблюдение не принадлежит к классу, и оно на самом деле не принадлежит к этому классу.
Ложные срабатывания возникают, когда вы предсказываете, что наблюдение относится к классу, хотя на самом деле это не так.
Ложноотрицательные результаты возникают, когда вы предсказываете, что наблюдение не принадлежит к классу, хотя на самом деле оно принадлежит.
Точность определяется как процент правильных прогнозов для тестовых данных. Его можно легко рассчитать, разделив количество правильных прогнозов на общее количество прогнозов.

точность = правильные прогнозы/все прогнозы

Полнота определяется как доля примеров, которые, как было предсказано, принадлежат классу по отношению ко всем примерам, которые действительно принадлежат этому классу.

отзыв=truepositivestruepositives+falsenegatives

Точность определяется как доля релевантных примеров (истинных положительных результатов) среди всех примеров, которые, по прогнозам, принадлежат к определенному классу.

точность = истинные срабатывания / истинные срабатывания + ложноположительные

2-кривая ROC — рабочая характеристика приемника — AUC

Другой распространенной метрикой является AUC, площадь под кривой рабочей характеристики приемника (ROC). Кривая рабочих характеристик приемника отображает долю истинно положительных (TP) по сравнению с частотой ложноположительных (FP) при различных пороговых значениях классификации. Пороги - это разные пороги вероятности, которые разделяют два класса в бинарной классификации. Он использует вероятность, чтобы сказать нам, насколько хорошо модель разделяет классы.

СМЕЩЕНИЕ-ДИСПЕРСИЯ

Компромисс между смещением и дисперсией - это напряжение между ошибкой, вызванной смещением, и ошибкой, вызванной дисперсией.

ПОВЫШЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ МОДЕЛИ

1- Параметры модели

Это параметры в модели, которые должны быть определены с использованием набора обучающих данных. Это подогнанные параметры.

2 - Гиперпараметры

Это настраиваемые параметры, которые необходимо настроить, чтобы получить модель с оптимальными характеристиками.

Параметры модели являются внутренними для модели и оцениваются на основе данных автоматически, тогда как гиперпараметры задаются вручную и используются при оптимизации модели и помогают в оценке параметров модели.

3 -Параметры- Настройка гиперпараметров

Начнем с разницы между параметрами и гиперпараметрами, которую крайне важно знать. Параметры — это компоненты модели, которые изучаются в процессе обучения, и мы никогда не сможем задать их вручную. Модель начинает процесс обучения со случайными значениями параметров и корректирует их на протяжении всего процесса. Принимая во внимание, что гиперпараметры — это компоненты, установленные вами перед обучением модели. Значения гиперпараметров могут улучшить или ухудшить точность вашей модели.

В чем необходимость настройки гиперпараметров в машинном обучении? Модели машинного обучения недостаточно интеллектуальны, чтобы знать, какие гиперпараметры приведут к максимально возможной точности для данного набора данных. Однако значения гиперпараметров, если они установлены правильно, могут создавать высокоточные модели, и поэтому мы позволяем нашим моделям пробовать различные комбинации гиперпараметров в процессе обучения и делать прогнозы с наилучшей комбинацией значений гиперпараметров. Некоторыми из гиперпараметров в классификаторе случайного леса являются n_estimators (общее количество деревьев в лесу), max_depth (глубина каждого дерева в лесу) и критерий (метод разделения каждого дерева). Значение n_estimators, равное 1 или 2, не имеет смысла, поскольку в лесу должно быть большее количество деревьев, но как узнать, какое количество деревьев даст наилучшие результаты? И для этой цели мы пробуем разные значения, такие как [100, 200, 300]. Модель попробует все три заданных значения, и мы сможем легко определить оптимальное количество деревьев в нашем лесу.

Настройка гиперпараметров в Python

У нас есть три метода настройки гиперпараметров в python: поиск по сетке, случайный поиск и информированный поиск.

1- ПОИСК ПО СЕТКЕ

При поиске по сетке каждый квадрат в сетке имеет комбинацию гиперпараметров, и модель должна обучаться на каждой комбинации.

из sklearn.model_selection импортировать GridSearchCV

Пример:

grid_df = GridSearchCV (оценщик = модель, param_grid = grid_vals, оценка = «точность»)

2- СЛУЧАЙНЫЙ ПОИСК

Как и при поиске по сетке, мы устанавливаем значения гиперпараметров, которые хотим настроить в случайном поиске. Однако модель не обучает каждую комбинацию гиперпараметров, а выбирает их случайным образом. Мы должны определить количество образцов, которые мы хотим выбрать из нашей сетки.

из sklearn.model_selection импортировать RandomizedSearchCV

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning