Регрессия — это метод оценки взаимосвязи по заданным данным для отображения характера набора данных. Затем эту взаимосвязь можно использовать для прогнозирования будущих значений или для вычислений, если существует взаимосвязь между различными переменными.

В этом посте мы рассмотрим алгоритмы линейной и полиномиальной регрессии и их свойства. Вскоре мы обнаружим, что многие из них склонны хорошо работать в определенных ситуациях и с определенными типами данных.

Линейная регрессия

В линейной регрессии существует линейная связь между переменными. Линейная связь между одной переменной ответа (зависимая переменная) и одной переменной регрессора (независимая переменная) называется простой линейной регрессией, а между одной переменной ответа и несколькими переменными регрессора называется многомерной. линейная регрессия.

Y = a_1 * X_1 + b — — для простой линейной регрессии

Y = a_1*X_1 + a_2*X_2 + a_3*X_3 ……. a_n*X_n + b — - для многомерной линейной регрессии

Это довольно легко понять, поскольку мы просто взвешиваем важность каждой переменной функции X_n, используя весовые коэффициенты a_n. Мы определяем эти веса a_n и смещение b с помощью стохастического градиентного спуска (SGD). Кривая линейной регрессии имеет вид.

Линейную регрессию очень легко понять и реализовать, но она очень чувствительна к выбросам.

Полиномиальная регрессия

Полиномиальная регрессия — это модель, которая используется, когда переменная отклика нелинейна, это скорее кривая, которая соответствует точкам данных. Общее уравнение полиномиальной регрессии имеет вид:

y = b_0 + b_1 * (x_1)² + b_2 * (x_1)³ + … . . . . . + b_k * (x_1)^k

Чтобы решить задачу полиномиальной регрессии, ее можно преобразовать в многомерную линейную регрессию с k независимыми переменными:

y = b_0 + b_1 * x_1 + b_2 * x_2 + …………+b_k * x_k

где x_1 = x¹, x_2 = x² и так далее.

Оценка параметров выполняется с использованием метода наименьших квадратов или метода градиентного спуска. используя метод наименьших квадратов, который мы получаем.

B = обратный((X*X’)) * X’*Y

где B = вектор параметров, X = векторный массив переменных, Y = вектор наблюдений.

Полиномиальная регрессия, рассчитанная для нескольких переменных регрессора, как Множественная полиномиальная регрессия. Множественное полиномиальное выражение второго порядка может быть выражено как: y = b_0 + b_1 * (x_1)+ b_2 * (x_2) + b_3 * (x_1)² + b_4 * (x_2)² + b_5*(x_1 * x_2)

Полиномиальная регрессия способна моделировать нелинейно разделяемые данные и является гораздо более гибкой, чем линейная регрессия, но некоторые из ее недостатков заключаются в том, что нам нужно некоторое знание данных, чтобы выбрать лучшие показатели, и она склонна к переподгонке, если показатели плохо выбрано.

Вывод:

В этом посте мы подробно рассмотрели два самых популярных метода регрессии (линейную и полиномиальную регрессию). Существуют и другие методы регуляризации регрессии (например, Lasso, Ridge и ElasticNet), которые хорошо работают в случае высокой размерности и мультиколлинеарности переменных в наборе данных. Я надеюсь, вам понравился этот пост и вы узнали что-то новое, не стесняйтесь хлопать в ладоши.