Введение:

Понятия предвзятости и дисперсии применимы к методам обучения с учителем. Они используются, чтобы помочь нам решить, какую модель выбрать для решения проблемы.

Что такое предвзятость?

Смещение — это термин, который обычно ассоциируется с обучающими данными. Он демонстрирует, насколько хорошо ваша модель уловила закономерности в обучающих данных. Модель с высокой степенью достоверности означает, что модель уловила большинство закономерностей в данных и наоборот.

Существует множество способов измерения смещения, таких как R², MSE, MAPE и т. д., но мерой, о которой я буду говорить, является R². Чем выше R², тем выше байс. Когда R² равен 0 или близок к нулю, мы говорим, что модель переоснащена, а когда R² высока, мы говорим, что модель недостаточно подобрана.

Ситуация с чрезмерным или недостаточным соответствием плоха, потому что вы хотите, чтобы ваша модель хорошо работала с невидимыми данными. И если модель переоснащается, то, по сути, модель запоминает взаимосвязь и использует ту же запомненную взаимосвязь для прогнозирования зависимой переменной. Если модель недостаточно приспособлена, то модель едва изучила взаимосвязь между независимыми переменными и зависимой переменной, в результате чего модель не будет хорошо работать с невидимыми данными.

Что такое дисперсия?

Дисперсия — это термин, связанный с данными тестирования. Он показывает, насколько последовательно модель предсказывала правильные значения. Высокая дисперсия означает, что построенная вами модель неправильно предсказывает переменную y и наоборот.

Опять же, вы можете измерить дисперсию с помощью тех же показателей, которые упоминались выше. Но помните, что эти показатели применяются к данным тестирования.

Предвзятость, дисперсия Компромисс

Существует компромисс между предвзятостью и дисперсией. По мере увеличения сложности вашей модели смещение начинает уменьшаться, но дисперсия начинает увеличиваться. Вы, как специалист по данным, должны найти золотую середину между дисперсией и предвзятостью. И это приятное место, когда модель, которую вы построили, имеет низкое смещение и дисперсию.

Некоторые из вас могут спросить, как можно увеличить сложность модели? Ну, есть разные способы увеличения сложности для разных моделей. Например, в случае линейной регрессии можно увеличить сложность модели, увеличив мощность независимой переменной.

Уравнение этого представляет собой полиномиальную линейную регрессию.