Что такое предвзятость?
Если модель машинного обучения очень плохо работает с набором данных, потому что она не обобщает все ваши точки данных, это когда вы говорите, что ваша модель имеет большое смещение, и говорят, что модель не соответствует.
- Ошибка между средним предсказанием модели и наземной правдой
- Смещение оцениваемой функции говорит нам о способности базовой модели предсказывать значения.
Что такое дисперсия?
Если модель машинного обучения пытается успешно учесть все или почти все точки в наборе данных. Если затем он работает плохо при запуске на других наборах тестовых данных, говорят, что он имеет высокую дисперсию, а модель считается переобученной.
- Средняя изменчивость прогноза модели для данного набора данных
- Дисперсия оценочной функции говорит вам, насколько функция может приспособиться к изменению набора данных.
Высокое смещение
- Чрезмерно упрощенная модель
- Подгонка
- Высокая ошибка как в тестовых, так и в обучающих данных
Высокая дисперсия
- Слишком сложная модель
- Слишком облегающий
- Низкая ошибка в данных поезда
- Высокая ошибка на тестовых данных
- Начинает моделирование шума на входе
Компромисс дисперсии смещения
- Увеличение смещения уменьшает дисперсию и наоборот
- Ошибка = Смещение² + Дисперсия + неустранимая ошибка
- Лучшая модель та, в которой ошибка уменьшена.
- Компромисс между предвзятостью и дисперсией.
Регуляризация
Метод регрессии, используемый для борьбы с высокой дисперсией, называется регуляризацией.
Мы пытаемся минимизировать ошибку (функция стоимости). Заметим, что функция стоимости зависела от коэффициентов
В таких случаях основная цель состоит в том, чтобы свести к минимуму ошибку. Нет ограничений на то, насколько малыми или большими могут быть коэффициенты для достижения этой цели. Но в реальной жизни нам нужно достигать целей с некоторыми ограничениями.
- Например, нам нужно минимизировать функцию стоимости в линейной регрессии, но с некоторыми ограничениями на значения коэффициентов. Это связано с тем, что слишком высокие значения коэффициентов могут быть ненадежными как для объяснения, так и для предсказания, поскольку они приводят к переоснащению.
- Следовательно, к функции стоимости мы добавляем эти ограничения, которые представляют собой сумму квадратов значений коэффициентов или сумму абсолютных значений коэффициентов. Если сумма больше, то значение функции стоимости увеличивается, и, следовательно, это не может быть оптимальным решением.
- Оптимальным будет решение, при котором сумма коэффициентов (или квадратов коэффициентов) будет минимальной.
- Уравнения можно определить как.
Приведенное выше уравнение известно как регрессия гребня, и вместо m², если у нас есть модуль m, то оно называется регрессией Лассо.
Практически фактор λ определяет степень наказания. Заметьте, что если λ=0, то регуляризация отсутствует (это то же самое, что и исходная функция потерь).
Функция потерь: среднеквадратическая ошибка
Если лямбда очень высока, на значения коэффициентов налагается большой штраф из-за того, что они малы.
В случае регрессии лассо коэффициент переменных можно сделать равным 0, поэтому его можно использовать в качестве модели выбора признаков.
В случае гребневой регрессии коэффициенты можно сделать близкими к нулю, но не нулевыми.
Вся идея регуляризации заключается в уменьшении переобучения. Это наблюдение, что высокие значения коэффициентов (как правило, без регуляризации) могут не обобщать данные и могут привести к переоснащению.
В то же время слишком низкие значения коэффициента (полученные при высоких значениях лямбда) могут не давать полной картины и, следовательно, модель может плохо работать как на поезде, так и на тесте. Это андерфит.
Значение лямбда должно быть выбрано соответствующим образом, чтобы уменьшить проблему переобучения/недообучения.