Регрессионный анализ — это статистический метод, который используется для описания взаимосвязи между зависимыми и независимыми переменными в простой математической форме.
Существуют различные типы регрессии:
· Линейная регрессия (для непрерывных зависимых переменных)
· Лассо-регрессия (используется как метод регуляризации)
· Ридж-регрессия (используется как метод регуляризации)
· Регрессия Elastic-Net (гибрид регуляризации L1 и L2)
· Логистическая регрессия (для дискретных зависимых переменных)
Линейная регрессия:
Это метод, используемый для изучения взаимосвязи между зависимой и независимой переменной (по крайней мере, одной).
Метод линейной регрессии отлично работает только для изучения линейных отношений между переменными, для нелинейных отношений существует несколько методов преобразования, которые используются для уменьшения нелинейности.
Существует два типа линейной регрессии:
1. Одномерная линейная регрессия:
Это метод изучения линейной зависимости между одной независимой (X) и зависимой переменной (Y).
Он дается выражением
Y = bX + c, где
Y - зависимая переменная,
X - независимая переменная,
b — параметр модели (или коэффициент регрессии),
c - точка пересечения по оси Y (это член смещения в модели)
Значения параметров a и b извлекаются статистическими средствами из заданных значений X и Y.
Пример: изменение продаж (зависимая переменная) вирусных препаратов при изменении числа случаев заболевания ковидом (независимый признак).
2. Многомерная линейная регрессия:
В большинстве сценариев одной переменной недостаточно для выражения зависимой переменной Y, в таких случаях нам нужно несколько независимых переменных, и исследование взаимосвязи между зависимыми и независимыми переменными известно как многомерная линейная регрессия.
Он дается выражением
Y = a + b1 × X1 + b2 × X2 +…+ bn × Xn
где a = точка пересечения по оси Y,
b1,b2,b3…bn — параметры модели или коэффициент регрессии,
X1,X2,.. и Xn являются независимыми функциями.
Пример: Изменение цены страхового взноса (зависимая переменная) зависит от возраста, ранее существовавших заболеваний, привычки курения, ИМТ и т. д. (это x1,x2,x3,x4,..,xn)
Свойства линий регрессии:
1. Линия регрессии проходит через среднее значение X и Y.
2. Параметры (bn) объясняют изменение Y при единичном изменении X.
3. Константа регрессии (B0) равна точке пересечения линии регрессии.
4. Линия минимизирует сумму квадратов разницы между наблюдаемыми значениями и прогнозируемыми значениями.
Допущения линейной регрессии:
1. Связь между зависимыми и независимыми переменными должна быть почти линейной.
2. MSE должен быть близок к 0, чтобы проверить, действительно ли данная линия является наиболее подходящей линией или нет.
3. Регрессионная модель должна обладать свойством гомоскедастичности.
(или равное отклонение) по всей линии регрессии. Другими словами, члены ошибки должны постоянно изменяться всякий раз, когда мы изменяем предикторную переменную.
4. В регрессионной модели не должно быть мультиколлинеарности. Обычно это происходит, когда существует высокая корреляция между двумя или более независимыми переменными.
Подготовка данных для применения этого алгоритма:
1. Линейная регрессия предполагает, что связь между всеми атрибутами зависимых и независимых переменных является линейной, что не соответствует действительности во всех реальных случаях, поэтому нам пришлось использовать методы преобразования (например, логарифмическое преобразование и обратное преобразование), чтобы сделать ее линейной. .
2. Поскольку LR чувствителен к шуму, нам нужно удалить весь шум или выбросы из нашего набора данных, IQR — эффективный способ проверить выбросы, присутствующие в наборе данных.
3. Мы должны удалить мультиколлинеарность из набора данных.
4. Чтобы получить более надежные результаты, нам нужно убедиться, что все значения независимых переменных нормально распределены, в этом случае мы можем воспользоваться помощью логарифмического преобразования или преобразования бокса-кокса.
5. Поскольку все входные переменные различны по своей природе, нам необходимо использовать нормализацию или стандартизацию для изменения масштаба входных данных.
Каковы матрицы оценки для линейной регрессии?
Некоторые популярные метрические инструменты для оценки модели:
1. MSE (среднеквадратичная ошибка) — это квадрат средней ошибки модели.
2. RMSE (среднеквадратичная ошибка). Это объясняет корень MSE, поскольку сама MSE дает очень большое значение.
3. MAE (средняя абсолютная ошибка) — это среднее значение абсолютных ошибок.
4.
(R в квадрате) — эта метрика в основном используется для проверки того, насколько лучше работает наша модель, чем базовая модель (модель, построенная на основе среднего значения данных). Его значение находится в диапазоне от 0 до 1, когда для определения прогноза используется OLS (обычный метод наименьших квадратов).
5. Скорректированный квадрат R
– (С ростом предикторов
также увеличивается, чтобы сбалансировать этот показатель используется для определения фактических улучшений)
Ограничения линейной регрессии:
1. Этот алгоритм подвержен недообучению (меньшая точность при применении к оперативным данным) из-за простоты алгоритма.
2. Он предполагает линейную зависимость между зависимыми и независимыми переменными, что не так часто встречается в реальных данных.
3. Наличие выброса может сильно повлиять на производительность алгоритма.
Как мы можем улучшить нашу модель?
Смещение и Дисперсия — две основные причины, которые создают проблемы в нашей модели, поскольку обе они обратно пропорциональны друг другу, поэтому с уменьшением смещения увеличивается дисперсия, и наоборот. наоборот Итак, нам нужно сохранить баланс между этими двумя факторами, найдя золотую середину, чтобы сбалансировать их. Этот процесс также называется компромиссом смещения и дисперсии.
Регуляризация L1 и L2:
L1 (или Регуляризация хребта): в этом методе штрафной член добавляется к RSS (остаточная сумма в квадрате), чтобы уменьшить сложность модели путем снижения некоторых параметров модели до нуля.
L2 (или регуляризация лассо): в этом методе к RSS (остаточной сумме в квадрате) добавляется штрафной член, чтобы уменьшить сложность. путем выбора функций, который преобразует некоторые параметры модели в ноль.
Метод градиентного спуска.
Этот метод используется для достижения глобальных минимумов, чтобы минимизировать функцию потерь нашей модели.
Регрессия эластичной сети:
Это помогает решать такие проблемы, как мультиколлинеарность.
Это комбинация методов Лассо и Риджа, которая устраняет проблему сильно коррелированных переменных.
Математическое выражение дается
Здесь RSS сильно страдает двумя значениями, поэтому этот алгоритм может страдать от проблемы двойного сжатия.
Логистическая регрессия:
Этот статистический метод используется для решения задач классификации с использованием процедуры, называемой оценкой максимального правдоподобия.
Здесь зависимая переменная Y представляет вероятность и, таким образом, дает значение в диапазоне от 0 до 1.
Функция стоимости логистической регрессии (бинарная классификация) определяется выражением
Где i = i-е наблюдение,
X = независимая функция,
W = параметр модели,
Y = значение вероятности.
Алгоритм градиентного спуска также можно использовать здесь для обновления параметров с целью улучшения модели.