Введение:
Понятия предвзятости и дисперсии применимы к методам обучения с учителем. Они используются, чтобы помочь нам решить, какую модель выбрать для решения проблемы.
Что такое предвзятость?
Смещение — это термин, который обычно ассоциируется с обучающими данными. Он демонстрирует, насколько хорошо ваша модель уловила закономерности в обучающих данных. Модель с высокой степенью достоверности означает, что модель уловила большинство закономерностей в данных и наоборот.
Существует множество способов измерения смещения, таких как R², MSE, MAPE и т. д., но мерой, о которой я буду говорить, является R². Чем выше R², тем выше байс. Когда R² равен 0 или близок к нулю, мы говорим, что модель переоснащена, а когда R² высока, мы говорим, что модель недостаточно подобрана.
Ситуация с чрезмерным или недостаточным соответствием плоха, потому что вы хотите, чтобы ваша модель хорошо работала с невидимыми данными. И если модель переоснащается, то, по сути, модель запоминает взаимосвязь и использует ту же запомненную взаимосвязь для прогнозирования зависимой переменной. Если модель недостаточно приспособлена, то модель едва изучила взаимосвязь между независимыми переменными и зависимой переменной, в результате чего модель не будет хорошо работать с невидимыми данными.
Что такое дисперсия?
Дисперсия — это термин, связанный с данными тестирования. Он показывает, насколько последовательно модель предсказывала правильные значения. Высокая дисперсия означает, что построенная вами модель неправильно предсказывает переменную y и наоборот.
Опять же, вы можете измерить дисперсию с помощью тех же показателей, которые упоминались выше. Но помните, что эти показатели применяются к данным тестирования.
Предвзятость, дисперсия Компромисс
Существует компромисс между предвзятостью и дисперсией. По мере увеличения сложности вашей модели смещение начинает уменьшаться, но дисперсия начинает увеличиваться. Вы, как специалист по данным, должны найти золотую середину между дисперсией и предвзятостью. И это приятное место, когда модель, которую вы построили, имеет низкое смещение и дисперсию.
Некоторые из вас могут спросить, как можно увеличить сложность модели? Ну, есть разные способы увеличения сложности для разных моделей. Например, в случае линейной регрессии можно увеличить сложность модели, увеличив мощность независимой переменной.
Уравнение этого представляет собой полиномиальную линейную регрессию.