В ML Concepts мы работаем над созданием веб-сайта с курсами и материалами, относящимися к области науки о данных.

Введение

Подгонка модели — это мера того, насколько хорошо модель машинного обучения обобщает данные, аналогичные тем, на которых она обучалась. Хорошая подгонка модели относится к модели, которая точно аппроксимирует выходные данные, когда она снабжена невидимыми входными данными.

Подгонка относится к настройке параметров модели для повышения точности. Этот процесс включает запуск алгоритма на данных, для которых известна целевая переменная («помеченные» данные) для создания модели машинного обучения. Затем результаты модели сравниваются с реальными наблюдаемыми значениями целевой переменной для определения точности.

Следующий шаг включает в себя настройку стандартных параметров алгоритма, чтобы снизить уровень ошибки и сделать модель более точной при определении взаимосвязи между признаками и целевой переменной. Этот процесс повторяется несколько раз, пока модель не найдет оптимальные параметры для прогнозирования с существенной точностью.

Почему важна подгонка модели?

Подбор модели — это суть машинного обучения. Если ваша модель не соответствует вашим данным правильно, результаты, которые она дает, не будут достаточно точными, чтобы быть полезными для практического принятия решений. Правильно подобранная модель имеет гиперпараметры, которые фиксируют сложные взаимосвязи между известными переменными и целевой переменной, что позволяет ей находить соответствующие понимания или делать точные прогнозы.

Подбор — это автоматический процесс, который гарантирует, что ваши модели машинного обучения имеют индивидуальные параметры, которые лучше всего подходят для решения вашей конкретной реальной бизнес-задачи с высоким уровнем точности.

Недообучение и переоснащение

Недостаточное соответствие. Считается, что статистическая модель или алгоритм машинного обучения имеют недостаточное соответствие, если они не могут уловить основной тренд данных, т. е. хорошо работают только на обучающих данных, но плохо работают на данных тестирования. (Это все равно, что пытаться подогнать штаны по размеру!) Недостаточная подгонка разрушает точность нашей модели машинного обучения. Его появление просто означает, что наша модель или алгоритм недостаточно хорошо соответствуют данным. Обычно это происходит, когда у нас меньше данных для построения точной модели, а также когда мы пытаемся построить линейную модель с меньшим количеством нелинейных данных. В таких случаях правила модели машинного обучения слишком просты и гибки, чтобы их можно было применить к таким минимальным данным, и поэтому модель, вероятно, будет делать много неверных прогнозов. Недообучения можно избежать, используя больше данных, а также уменьшая количество признаков путем их выбора.

В двух словах, Underfitting относится к модели, которая не может ни хорошо работать с обучающими данными, ни обобщать новые данные.

Причины недостаточного оснащения:

  1. Высокое смещение и низкая дисперсия
  2. Размер используемого обучающего набора данных недостаточен.
  3. Модель слишком проста.
  4. Обучающие данные не очищаются, а также содержат в себе шум.

Методы уменьшения недообучения:

  1. Увеличить сложность модели
  2. Увеличивайте количество функций, выполняя разработку функций
  3. Удалите шум из данных.
  4. Увеличьте количество эпох или увеличьте продолжительность обучения, чтобы получить лучшие результаты.

Переоснащение. Статистическая модель считается переоснащенной, если модель не дает точных прогнозов на основе данных тестирования. Когда модель обучается с таким большим количеством данных, она начинает учиться на шуме и неточных данных в нашем наборе данных. И при тестировании с тестовыми данными результаты с высокой дисперсией. Тогда модель неправильно классифицирует данные из-за слишком большого количества деталей и шума. Причинами переобучения являются непараметрические и нелинейные методы, потому что эти типы алгоритмов машинного обучения имеют больше свободы в построении модели на основе набора данных и, следовательно, могут действительно строить нереалистичные модели. Решением, позволяющим избежать переобучения, является использование линейного алгоритма, если у нас есть линейные данные, или использование таких параметров, как максимальная глубина, если мы используем деревья решений.

В двух словах, переобучение — это проблема, когда оценка алгоритмов машинного обучения на обучающих данных отличается от невидимых данных.

Причины переобучения следующие:

  1. Высокая дисперсия и низкое смещение
  2. Модель слишком сложная
  3. Размер обучающих данных

Методы уменьшения переобучения:

  1. Увеличение тренировочных данных.
  2. Уменьшите сложность модели.
  3. Ранняя остановка во время тренировочной фазы (следите за потерями в течение тренировочного периода, как только потери начнут увеличиваться, прекратите тренировку).
  4. Регуляризация хребта и регуляризация лассо
  5. Используйте отсев для нейронных сетей, чтобы справиться с переоснащением.

Для получения дополнительной информации нажмите: https://www.geeksforgeeks.org/underfitting-and-overfitting-in-machine-learning/

Совершенство Fit

Термин «Хорошее соответствие» взят из статистики, и целью моделей машинного обучения является достижение хорошего соответствия. Статистическое моделирование определяет, насколько близко результат или прогнозируемые значения соответствуют истинным значениям набора данных.

Модель с хорошей подгонкой находится между недообученной и переобученной моделью, и в идеале она делает прогнозы с 0 ошибками, но на практике этого добиться сложно.

Когда мы обучаем нашу модель какое-то время, ошибки в обучающих данных уменьшаются, и то же самое происходит с тестовыми данными. Но если мы обучаем модель в течение длительного времени, то производительность модели может снизиться из-за переобучения, поскольку модель также изучает шум, присутствующий в наборе данных. Ошибки в тестовом наборе данных начинают увеличиваться, поэтому точка непосредственно перед возникновением ошибок является хорошей точкой, и мы можем остановиться здесь для получения хорошей модели. Для получения дополнительной информации нажмите:

https://www.javatpoint.com/overfitting-and-underfitting-in-machine-learning

Спасибо за прочтение!!

Вы также можете прочитать наш предыдущий пост о подборе моделей: «https://ml-concepts.com/2022/03/04/everything-you-need-to-know-about-model-fitting-in-machine -обучение/"

Чтобы посетить наш сайт, нажмите на это: https://ml-concepts.com/