Инь и Ян машинного обучения: уравновешивание предвзятости и дисперсии

Компромисс между смещением и дисперсией – это фундаментальная концепция машинного обучения и статистики, связанная со способностью модели точно фиксировать базовые закономерности в наборе данных. По сути, компромисс между смещением и дисперсией относится к балансу между сложностью модели и ее способностью обобщать новые, неизвестные данные.

У нас есть данные, которые мы используем для обучения, и у нас также есть данные, которые мы используем для тестирования. Вероятность того, что прогноз модели или оценщика будет точно таким же, как и реальный результат, очень мала из-за множества других факторов и невидимых данных. так как же решить, являются ли эти прогнозы приемлемыми или нет? для этого мы можем выбрать определенный набор правил. Но прежде чем идти дальше, давайте разберемся,

Что такое БИАС?

Предвзятость – это степень, в которой модель способна точно фиксировать базовые закономерности в наборе данных.

«Отклонение от первоначального ответа известно как предвзятость»

Чем больше отклонение, тем выше предвзятость. Грубо говоря, неспособность алгоритма уловить реальную взаимосвязь распределения набора данных называется предвзятостью.

когда Мы говорим, что наш предсказатель непредвзят, если

E (θ_оценщик) = θ_оригинал

Смещение оценщика определяется как

смещение (θ_оценщик) = Eθ(θ_оценщик) - θ.

Разница между подгонками наборов данных называется дисперсией. Говорят, что модель с высоким смещением недообучает данные, поскольку она не способна отразить сложность истинной лежащей в основе взаимосвязи. Другими словами, модель слишком упрощена и не может отразить все соответствующие функции данных. Это может привести к снижению производительности как на обучающих данных, так и на новых, невидимых данных.

Что такое ВАРИАНТ?

Вариантность – это степень, в которой модель способна адаптироваться к новым данным.

Дисперсия измеряет «распространение» распределения.

Пусть X — случайная величина со средним значением µ. Дисперсия X, обозначаемая как σ2 или σ2 X, или V(X), или VX, определяется формулой

σ2 = E(X − µ) 2 =ИНТЕГРАЦИЯ(x − µ) **2dF(x)

дисперсия - это мера того, насколько набор данных (чисел) разбросан от их среднего (среднего) значения. Дисперсия означает найти ожидаемую разницу отклонения от фактического значения. Говорят, что модель с высокой дисперсией подгоняет данные, поскольку она слишком сложна и научилась подгонять шумы в обучающих данных, а также лежащие в их основе закономерности. Другими словами, модель слишком гибкая и фиксирует в данных все несущественные признаки. Это может привести к отличной производительности на обучающих данных, но плохой производительности на новых, невидимых данных.

Компромисс смещения и дисперсии

Компромисс между смещением и дисперсией возникает из-за того, что трудно одновременно минимизировать и смещение, и дисперсию. По мере увеличения сложности модели ее смещение уменьшается, но увеличивается дисперсия. И наоборот, по мере уменьшения сложности модели увеличивается ее смещение, но уменьшается дисперсия. Оптимальный уровень сложности модели зависит от конкретной проблемы и доступных данных.

Чтобы проиллюстрировать этот компромисс, рассмотрим задачу подбора полиномиальной кривой к набору точек данных.

Простая линейная модель будет иметь большое смещение, поскольку она не может отразить кривизну данных. Однако полиномиальная модель высокой степени будет иметь высокую дисперсию, поскольку она будет соответствовать шуму в данных и будет чрезмерно сложной. Оптимальная степень полиномиальной модели будет зависеть от конкретных данных и рассматриваемой проблемы.

Один из способов визуализировать компромисс между смещением и дисперсией - это разложение на смещение и дисперсию среднеквадратичной ошибки (MSE) модели. MSE — это среднеквадратическая разница между предсказанными значениями и истинными значениями в данных. Разложение MSE по смещению-дисперсии разделяет ошибку на компонент смещения, компонент дисперсии и компонент неустранимой ошибки, который не может быть уменьшен моделью.

Более конкретно, мы можем использовать математические термины для определения систематической ошибки и дисперсии.

Смещение — это разница между истинным значением и нашим прогнозом, а дисперсия определяется в статистике как ожидание квадрата отклонения случайной величины от ее среднего значения. Здесь f представляет модель в реальном мире. Существует случайный шум, которого мы не можем избежать, и который мы представляем ϵ. Истинная метка представлена

И мы можем вычислить ошибку.

Компромисс между смещением и дисперсией имеет важные последствия для выбора модели, регуляризации и методов ансамбля в машинном обучении. Одним из распространенных подходов к минимизации компромисса является использование метода регуляризации, такого как регуляризация L1 или L2, для наказания чрезмерно сложных моделей. Другой подход заключается в использовании ансамблевых методов, таких как упаковка или усиление, которые объединяют несколько моделей для уменьшения дисперсии при сохранении низкого смещения.

Обнаружение высокого смещения и высокой дисперсии

Высокая дисперсия

Причиной плохой работы является высокая дисперсия.

Симптомы:

  1. Ошибка обучения намного ниже, чем ошибка теста
  2. Ошибка обучения ниже желаемого порога ошибки
  3. Ошибка теста выше желаемого порога ошибки

Средства:

  • Добавьте больше обучающих данных
  • Уменьшите сложность модели — сложные модели склонны к высокой дисперсии
  • Бэгинг

Высокое смещение

используемая модель недостаточно надежна для получения точного прогноза.

Симптомы:

  1. Ошибка обучения выше желаемого порога ошибки

Средства:

  • Используйте более сложную модель (например, ядро, используйте нелинейные модели)
  • Добавить функции
  • Повышение

Если вам нужна более подробная информация и объяснение кода Python, вы можете обратиться к блогу machinelearningmastery

В итоге,

Компромисс между смещением и дисперсией — это фундаментальная концепция машинного обучения и статистики, связанная с балансом между сложностью модели и ее способностью обобщать новые, невидимые данные. Модель с высоким смещением слишком упрощена и не соответствует данным, а модель с высокой дисперсией слишком сложна и лучше соответствует данным. Оптимальный уровень сложности модели зависит от конкретной проблемы и доступных данных, и им можно управлять с помощью таких методов, как регуляризация и ансамблевые методы.

Использованная литература :

Если вы нашли эту статью полезной

Доказано, что Щедрость делает вас более счастливым человеком; поэтому ставьте хлопки статье, если она вам понравилась. Если вы нашли эту статью полезной, подпишитесь на меня в Linkedin и medium. Вы также можете подписаться, чтобы получать уведомления, когда я публикую статьи. Создадим сообщество! Спасибо за вашу поддержку!

Вы можете прочитать другие мои блоги, связанные с:









Подписание

Чинмэй