Оценка моделей регрессии
У нас есть следующие показатели производительности:
- Средняя абсолютная ошибка (MAE)
- Среднеквадратическая ошибка (RMSE)
- R в квадрате (R2)
- Скорректированный R2
MAE:
Проще говоря, это среднее значение абсолютной разницы между фактическим значением и прогнозируемым значением.
Если ошибка высока, мы можем считать, что производительность модели плохая. Чем ниже ошибка, тем лучше модель. Вычисленное значение ошибки также зависит от данных. Если мы измеряем MAE для интервала от 1 до 10, его значение низкое. Но когда мы рассматриваем значения в диапазоне, скажем, от 10 000 до 20 000, значение MAE больше. Мы не можем сравнивать их и предсказывать производительность модели. Поэтому у нас есть R2 и Скорректированный R2.
Прежде чем мы перейдем к R2 и скорректированному R2, давайте обсудим, что такое RMSE.
СКО:
Он очень популярен в регрессии. Является модификацией МАЕ.
Подобно MAE, это зависит от данных.
R2:
Его также называют коэффициентом детерминации. И его значение варьируется от 0 до 1, что измеряет, насколько хорошо наша линия регрессии соответствует данным. Значения R2, близкие к 1, более точны.
R2 может гарантировать, насколько хорошо работает модель.
- SS RES представляет собой сумму квадратов остатков (квадрат разницы между прогнозируемым и фактическим значением)
- SS TOT представляет собой сумму квадратов итога (квадрата разницы между фактическим и средним значением)
На приведенном выше графике у нас есть все точки данных. Расстояние зеленой линии от точек данных — SS RES. А красная линия — это усредненная линия точек данных. Расстояние между этой красной линией и точками данных дает SS TOT.
Проблемы с R2:
Количество независимых значений увеличивается, тогда R2 также увеличивается (но никогда не уменьшается). Следовательно, мы не будем знать, какое хорошее влияние наша новая независимая переменная оказывает на зависимую переменную. Как независимые переменные имеет тенденцию иметь слабую корреляцию с зависимой переменной. Это может помочь уменьшить SS RES и увеличить значение R2. Чтобы преодолеть это, мы вводим скорректированное значение R2.
Скорректированный R2:
Он имеет дело с дополнительными независимыми переменными. В отличие от R2 в скорректированном R2, если независимая переменная не является хорошей, значения R2 уменьшаются. Это помогает избежать переобучения.
где
n - размер выборки и
k - количество независимых переменных
Поэтому, когда у нас есть много независимых переменных, появляется Скорректированный R2. Он использует обратное исключение.