Обсуждение экзогенной переменной, экзогенной переменной, пропущенной переменной, ошибки измерения ипогрешности одновременности

В моей предыдущей статье мы обсудили некоторые распространенные проблемы при разработке линейной регрессии — исключение важных переменных и включение нерелевантных переменных. В этой статье мы обсудим эндогенность в модели линейной регрессии, особенно в контексте причинно-следственной связи.

Модель линейной регрессии — это популярный инструмент, используемый для построения причинно-следственной связи между переменной ответа (Y) и переменной лечения (т. е. T) при контроле других ковариат (например, X), как показано ниже. Смещение (точность) и дисперсия (точность) эффекта лечения (т.е. α) является приоритетом таких исследований.

Что такое Эндогенность?

Эндогенность относится к ситуациям, в которых предиктор (например, переменная лечения) в модели линейной регрессии коррелирует с ошибкой.

Вы называете такой предиктор эндогенной переменной. Коэффициент оценки эндогенной переменной больше не является СИНИМ (лучшая линейная несмещенная оценка), поскольку эндогенность нарушает одно из классических предположений линейной регрессии: Все независимые переменные не коррелируют с термин ошибки.

С другой стороны, переменная называется экзогенной переменной, если она не объясняется другими переменными в модели (например, переменной отклика, другой объясняющей переменной и термином ошибки). Экзогенная переменная определяется факторами вне модели.

Каковы источники эндогенности?

Существует широкий спектр источников эндогенности. Общие источники эндогенности могут быть классифицированы как: пропущенные переменные, одновременность и ошибка измерения.

Источник 1: пропущенные переменные

Если переменная Z коррелирует как с переменной отклика, так и с предикторами, мы называем такую ​​переменную вмешивающейся переменной.

Если смешанная переменная Z опущена в модели линейной регрессии, тогда затронутый предиктор (например, переменная лечения) станет эндогенным, поскольку в этом случае «необъяснимое ” переменная Z просачивается в ошибочный термин, тогда затронутый предиктор будет коррелирован с ошибочным термином.

Если существует эндогенность из-за пропущенной переменной, оценки затронутой переменной (например, переменной лечения) станут смещенными (т. е. смещение пропущенной переменной). Смотрите доказательство здесь. Это означает, что у нас есть неточный причинно-следственный эффект.

Если смешанная переменная Z добавляется в модель линейной регрессии, то затронутый предиктор (например, переменная лечения) больше не будет эндогенным. Таким образом, оценка коэффициента эффекта лечения больше не будет смещенной.

Источник 2: Sодновременность

Одновременность является еще одной распространенной причиной эндогенности. Одновременность возникает, когда один или несколько предикторов (например, переменная лечения) определяются переменной отклика (Y). Проще говоря, X вызывает Y, а Y вызывает X. Например, мы можем использовать уровень образования для объяснения дохода домохозяйства, потому что люди с высшим образованием, как правило, зарабатывают больше. В то же время мы знаем, что людям с более высоким доходом легче позволить себе высшее образование.

Обычно такие отношения можно объяснить с помощью одновременных уравнений (также называемых структурными уравнениями).

Решая два приведенных выше уравнения, мы получаем сокращенную форму модели.

В контексте причинно-следственной связи, если эффект лечения X определяется переменной отклика, то легко увидеть, что эффект лечения коррелирует с погрешностью u на рисунке 2.

Таким образом, и эффект лечения, и переменная отклика являются эндогенными переменными, если мы применим МНК на рисунке 2. Это приведет к смещенной оценке эффекта лечения (т. е. Смещение одновременности). Поэтому лечебный эффект никогда не может быть истинным эффектом.

Источник 3: ошибка измерения

В модели линейной регрессии предполагается, что наблюдения правильно измерены без какой-либо ошибки. Во многих случаях это предположение нарушается. Некоторые переменные (например, способность и желание людей заниматься спортом) невозможно измерить, тогда мы используем прокси-переменные (например, показатели IQ людей и количество часов в тренажерном зале), чтобы измерить эффект. Иногда трудно сделать правильные выводы. Например, переменная age обычно записывается целым числом, а месяц и день обычно игнорируются. В этих случаях истинные значения переменных не включаются в модель. Разница между наблюдаемым и истинным значениями переменной называется ошибкой измерения.

Сценарий 1: когда ошибка измерения находится в зависимой переменной Y, она не вызывает эндогенности, поскольку в этом случае необъяснимая ошибка измерения является экзогенной переменной, которая не зависит от включенных объясняющих переменных. Следовательно, объясняющие переменные не будут коррелировать с членом ошибки, даже если необъяснимая ошибка измерения просачивается в член ошибки.

Сценарий 2. Напротив, когда ошибка измерения находится в независимой переменной, возникает проблема эндогенности.

Допустим, X* – это наблюдаемая независимая переменная (переменные), а X – истинное значение переменной (переменных). Связь между X* и X можно объяснить следующим образом:

Мы настроили линейную регрессию, как обычно, без включения члена ошибки измерения v, потому что он не поддается измерению.

Тогда модель, которую мы на самом деле оцениваем,

Приложив немного математики, мы можем выяснить, что X* коррелирует с фактическим членом ошибки, u, тогда возникает эндогенность.

На рисунке 9 Cov(X, v) равно 0, поскольку ошибка измерения не зависит от независимых переменных, X, а Cov(X, ε) и Cov(v, ε) равны 0, поскольку предполагается, что ε не зависит от X и ε очень маловероятно коррелируют с ошибкой измерения.

Затем в линейной регрессии с ошибкой измерения оценка МНК β_hat больше не является несмещенной. Более того, оценщик всегда будет занижен (например, Смещение затухания).

Как исправитьэндогенность?

Одним из популярных методов учета эндогенности в модели линейной регрессии является введение одной или нескольких инструментальных переменных с помощью двухэтапного метода наименьших квадратов (2SLS).

Давайте определим эту инструментальную переменную Z:

  • Z не коррелирует ни с какими другими ковариатами (включая член ошибки) в модели.
  • Z значимо и сильно коррелирует с затронутым предиктором (например, переменной лечения), поэтому косвенно влияет на Y через X

На практике модель инструментальной переменной (IV) может быть реализована в два этапа (2SLS):

  • Шаг 1: Мы регрессируем инструментальную переменную для затронутого предиктора X. Имейте в виду, что нам нужна сильная корреляция между IV и X. В противном случае у нас все еще может быть смещение в отношении затронутого предиктора.
  • Шаг 2: Мы регрессируем Y на подобранном X с шага 1 и других ковариат. Оценка, которую мы получим на шаге 2, будет более точной и последовательной, чем оценка на рисунке 11.

Заключительные примечания

При использовании модели линейной регрессии для вывода о причинно-следственной связи эндогенность — это проблема, которую нам необходимо решить, иначе мы получили бы смещенный эффект лечения из-за опущенных переменных, одновременности или ошибки измерения.

Вот несколько статей по теме, которые вы можете изучить, если вам интересны линейная регрессия и причинно-следственный вывод.

Спасибо за чтение !!!

Если вам понравилась эта статья и вы хотите Купить мне кофе, нажмите здесь.

Вы можете подписаться на членство, чтобы разблокировать полный доступ к моим статьям и иметь неограниченный доступ ко всему на Medium. Пожалуйста, подпишитесь, если хотите получать уведомления по электронной почте всякий раз, когда я публикую новую статью.