Регрессионные модели — это модели, которые используются для прогнозирования непрерывных или реальных значений, например, зарплаты, оценок, количества товаров, которые будут проданы, и т. д. Вот некоторые из популярных регрессионных моделей:
- Линейная регрессия
- Регрессор дерева решений
- Случайный лесной регрессор
- Регрессор опорных векторов
- Регрессор повышения градиента
- Регрессор с экстремальным градиентом
Для расчета эффективности всех вышеперечисленных моделей мы используем некоторые метрики, а именно:
- Средняя абсолютная ошибка
- Среднеквадратическая ошибка
- Среднеквадратичная ошибка
- Оценка R2
- Скорректированная оценка R2
Средняя абсолютная ошибка
Средняя абсолютная ошибка или MAE используется для нахождения средней абсолютной ошибки или потери выходных данных модели. Он дает ошибку в том же масштабе, например, если выход равен 100 процентам, то ошибка будет также в том же масштабе, т. е. 5,035 или 20,74 и т. д.
Формула, которая используется для расчета MAE:
Метод использования MAE с использованием библиотеки sklearn:
›› из sklearn.metrics import mean_absolute_error
›› mae = mean_absolute_error(model_pred, y_test)
›› print("Средняя абсолютная ошибка:", mae)
Преимущества:
- Легко интерпретировать.
- Устойчив к выбросам.
Недостатки:
- Его график не дифференцируем.
Среднеквадратическая ошибка
Среднеквадратическая ошибка или MSE используется для нахождения среднеквадратичной ошибки или потери выходных данных модели. Он вычисляет площадь в квадрате, которая находится между фактическим значением и прогнозируемым значением. MSE не дает ошибки того же масштаба, поэтому мы используем RMSE.
Формула, которая используется для расчета MSE:
Метод использования MSE с использованием библиотеки sklearn:
›› импорт из sklearn.metrics mean_squared_error
›› mse = mean_squared_error(model_pred, y_test)
›› print("Среднеквадратическая ошибка:", mse)
Преимущества:
- Его график не дифференцируем.
Недостатки:
- Неустойчив к выбросам.
Среднеквадратичная ошибка
Среднеквадратическая ошибка или RMSE используется для поиска корня среднеквадратичной ошибки или потери выходных данных модели. Он вычисляет квадрат площади, которая находится между фактическим значением и прогнозируемым значением, и возвращает квадратный корень из него. RMSE используется для получения ошибки в том же масштабе, что и MSE.
Формула, которая используется для расчета RMSE:
Метод использования RMSE с использованием библиотеки sklearn:
›› импорт из sklearn.metrics mean_squared_error
›› rmse = mean_squared_error(model_pred, y_test, squared =False)
›› print("Среднеквадратическая ошибка:", rmse)
Преимущества:
- Его график не дифференцируем.
- Легко интерпретировать.
Недостатки:
- Неустойчив к выбросам.
Оценка R2
Оценка R2 также известна как коэффициент детерминации. Оценка R2 используется для определения доли дисперсии зависимой переменной, объясняемой моделью машинного обучения. Если значение R2 близко к 1, это означает, что модель способна объяснить дисперсию зависимой переменной, а если оно близко к 0, то модель не может объяснить дисперсию зависимой переменной. Если значение оценки R2 отрицательное, модель работает хуже, чем средняя функция.
Формула, которая используется для расчета R2 Score:
Способ использования R2 с использованием библиотеки sklearn:
›› из sklearn.metrics импортировать r2_score
›› r2_score = r2_score(model_pred, y_test)
›› print("Оценка R2 равна:", r2_score)
Преимущества:
- Оценка R2 фиксирует долю дисперсии
Недостатки:
- Основным недостатком показателя r2 является то, что его значение прямо пропорционально количеству признаков, а это означает, что при увеличении признака значение r2 также будет увеличиваться, даже если признак не коррелирует с зависимым признаком.
Скорректированная оценка R2
Скорректированная оценка R2 введена для устранения недостатка оценки R2. Это модифицированная версия оценки R2.
Формула, используемая для расчета скорректированной оценки R2, выглядит следующим образом: