Линейная регрессия используется, когда набор данных имеет линейную корреляцию. Перед построением модели линейной регрессии предположения должны быть проверены. Если предположения нарушаются, необходимо использовать разные методики.
Простая линейная регрессия имеет одну независимую переменную (предиктор) и зависимую переменную (ответ), а множественная линейная регрессия имеет более одного предиктора для прогнозирования ответа.
Уравнение простой линейной регрессии представлено как
Y = β0 + β1 (X1 )+ε
Уравнение множественной линейной регрессии представлено как
Y = β0 + β1 (X1 )+β2 (X 2)+β3(X3)+β4(X4)+ε
Допущения линейного регрессионного анализа:
- Линейность
- Нет гетероскедастичности
- Нет смещения пропущенной переменной
- Нормальность ошибки
- Нет автокорреляции
- Нет мультиколлинеарности
1. Линейность
Для линейного регрессионного анализа должна быть линейная связь между предсказателем (ями) и ответом. Линейные отношения можно визуализировать, нанеся точки данных с помощью диаграммы рассеяния. В случае множественной регрессии для каждой пары переменных должны быть построены диаграммы разброса.
На графике 1 ниже показано, как набор данных линейных отношений будет выглядеть на диаграмме рассеяния.
Но если мы получим такой график, как График 2, который имеет экспоненциальную кривую, то можно использовать логарифмическое преобразование для преобразования его в линейный.
В случае отсутствия линейной связи между точками данных или если данные не могут быть преобразованы в линейные, необходимо выполнить нелинейный регрессионный анализ.
2. Никакой гетероскедастичности
Для линейной связи, если дисперсия не является константой и увеличивается по мере увеличения предиктора (X), то это называется гетероскедастичностью. В таких случаях нельзя полагаться на стандартную ошибку вывода, но все же коэффициенты будут несмещенными.
Лучший способ обнаружить гетероскедастичность - использовать диаграмму разброса остатков в зависимости от значения X. Гетероскедастичности можно избежать, выполнив преобразование журнала или исследуя смещение пропущенных переменных, или выявив выбросы и попытавшись их удалить.
3. Отсутствие смещения в отношении пропущенной переменной.
Предикторы не должны коррелировать с ошибкой. Это может быть представлено ниже уравнением.
𝜎𝑋𝜀= 0: ∀𝑥,𝜀
Если предикторы коррелируют, это называется смещением пропущенной переменной. Это происходит, когда предиктор исключается, и это отражается в члене ошибки, что приводит к предвзятым и противоречащим интуиции оценкам. Его можно обнаружить, проверив корреляцию между предикторами.
При оценке заработной платы, основанной только на количестве лет образования, не учитывается переменная погрешность. Потому что зарплата зависит от многих других факторов, таких как тип образования, дополнительный социально-экономический статус. Но все же его можно использовать для прогнозов.
4. Нормальность ошибки
Мы предполагаем, что ошибка ε нормально распределена, т. Е. Среднее значение равно нулю (сумма всех ошибок будет равна нулю (0) или почти 0), а дисперсия 𝜎2 членов ошибки равна .
ε~ N(0,𝜎2)
Нормальность нарушается, когда дисперсия ошибок не согласуется между наблюдениями, например, когда модель линейной регрессии используется для выражения страховой выплаты как функции возраста клиента. Страхование не будет востребовано всеми лицами, выбравшими страховку. Следовательно, будет большое количество нулевых страховых выплат наряду с небольшими очень высокими суммами страховых выплат.
Если размер выборки очень большой, будет применяться центральная предельная теорема, и дисперсия ошибок будет согласована для всех наблюдений. Но для небольшого размера выборки это повлияет на стандартные ошибки вывода.
Это можно легко обнаружить, построив гистограмму остатков.
5. Без автокорреляции
Значения терминов ошибки не должны иметь какой-либо идентифицируемой связи.
𝜎𝜀𝑖𝜀𝑗= 0: ∀𝑖≠𝑗
Если существует какая-либо взаимосвязь между значениями члена ошибки, тогда появляется автокорреляция. Автокорреляция также известна как последовательная корреляция, которая влияет на стандартные ошибки, не влияя на коэффициенты, которые будут несмещенными. . Это не наблюдается в данных поперечного сечения, но отображается в данных временных рядов, таких как цена акций. Для анализа цен на акции феномен эффекта дня недели говорит о высокой доходности по пятницам и низкой доходности по понедельникам. Ошибки понедельника будут смещены вниз, а ошибки пятницы - вверх.
Основная причина автокорреляции связана с пропущенными переменными или неправильными функциональными формами.
Распространенный способ обнаружения автокорреляции - построить диаграмму рассеяния со всеми остатками и найти закономерности. Если паттернов нет, это означает, что автокорреляции нет. Для поиска автокорреляции также можно использовать метод теста Дурбина-Ватсона.
Если есть шаблон, автокорреляция существует, и лучше избегать моделей линейной регрессии и использовать авторегрессионную модель, или модель скользящего среднего, или авторегрессионную модель скользящего среднего, или авторегрессионную интегрированную модель скользящего среднего.
6. Нет мультиколлинеарности
Если множественная линейная регрессия представлена как
Y = β0 + β1 (X1 )+β2 (X 2)+β3(X3)+β4(X4)+ε
тогда в идеале никакой предсказатель не должен объясняться другим предсказателем.
Мультиколлинеарность возникает, когда сами предикторы коррелированы. Чтобы определить, существует ли мультиколлинеарность между предикторами, необходимо проверить корреляцию между всеми парами предикторов. Если коэффициент корреляции очень высок, это ясно указывает на то, что предсказатель объясняется другим предсказателем.
Мультиколлинеарность также можно обнаружить с помощью коэффициента увеличения дисперсии (VIF). Чтобы найти VIF, необходимо выполнить вспомогательную регрессию для всех предикторов.
Для приведенного выше уравнения вспомогательное уравнение регрессии для X1 будет
X1= β0* +β2 *(X 2)+β3* (X3)+β4* (X4)+ε*
Это поможет понять, насколько X1 объясняется другими предикторами. Если R-квадрат для этой модели равен RX1, то коэффициент инфляции дисперсии,
VIF = 1 / (1-R-КвадратX1)
Это означает, что чем выше R-squareX1, тем выше будет VIF.
Более высокое значение VIF указывает, что X1 объясняется другими предикторами.
Точно так же должен быть рассчитан VIF всех других кредиторов, чтобы проверить, объясняется ли этот предиктор другим предиктором.
Чтобы преодолеть это, нам нужно будет выяснить, дают ли два предиктора одинаковую информацию, в этом случае удалим один из них. При удалении хищников необходимо позаботиться о смещении пропущенных переменных. Другой метод - преобразовать коррелированные предикторы в один предиктор.