Причинно-следственный вывод — важнейший инструмент науки о данных. Мы изучаем Синтетический Diff-in-Diff, чтобы установить причинно-следственную связь между ESG и финансовыми показателями.

Авторы: Хайме Оливер Хуидобро и Фелипе Масиэль (Data Science @ ClarityAI)

Если вы в какой-то момент изучали статистику, велика вероятность, что вы слышали выражение «корреляция — это не причинно-следственная связь». Чтобы пройти курс, вам нужно в совершенстве повторять эту мантру. Но вы все еще можете задаться вопросом: а что же тогда такое причинно-следственная связь?

По мере продвижения по карьерной лестнице специалисты по данным понимают, что отрасль обычно больше заинтересована в использовании новейшей модели GPT, чем в выявлении причинных факторов, лежащих в основе процесса; точные прогнозы обычно предпочтительнее более простых интерпретируемых моделей. Итак, почему вы должны заботиться о причинно-следственных связях?

В этом посте мы приводим пример современных методов причинно-следственного вывода, которые мы используем в Clarity AI. Мы исследуем взаимосвязь между событиями, связанными с ESG, и финансовыми показателями фирмы через призму причинно-следственных связей.

Причинный вывод в Clarity AI

Итак, во-первых, что делает Clarity AI?

В прошлом столетии предприятия капиталистической экономики были в первую очередь заинтересованы в максимизации своей прибыли. Однако наше общество все больше озабочено проблемами устойчивого развития и социальной справедливости. Предпочтения инвесторов и потребителей смещаются в сторону учета экологических, социальных и управленческих факторов (ESG) в процессе принятия решений. Кроме того, некоторые фирмы меняют свою стратегию и корпоративную политику в сторону более экологичных целей, потому что искренне верят в устойчивость или хотят привлечь капитал.

В Clarity AI мы предоставляем соответствующую информацию ESG лицам, принимающим решения, сокращая разрыв между поведением компании и тем, что мы о ней знаем. Таким образом, мы хотим сделать процесс распределения капитала максимально эффективным с точки зрения ESG.

Наша команда Data Science использует различные методы NLP и ML для масштабирования этого процесса. А в некоторых случаях нам нужно глубже изучить утверждение «корреляция не является причинно-следственной связью» и использовать самые современные методы вывода о причинно-следственных связях.

Природный эксперимент — Тесла и запрет ДВС

В июле 2021 года ЕС предложил запретить двигатели внутреннего сгорания с 2035 года. То есть, начиная с 2035 года, граждане ЕС больше не будут покупать автомобили, работающие на топливе. Если предположить, что запрет ДВС не сократит автомобильный рынок, а скорее изменит распространение двигателей внутреннего сгорания на электрические, этот запрет, по-видимому, пойдет на пользу компаниям, которые производят электромобили, и навредит тем, кто этого не делает. И мы можем предположить, что эта информация влияет на цену акций этих компаний, отражая, таким образом, предпочтения инвесторов.

Одна компания, которая может прийти на ум, — это Tesla Inc. Не только из-за ее эксцентричного генерального директора, но и потому, что сегодня это, возможно, самый значимый производитель электромобилей на рынке.

Возможно, цена акций такой компании, как Tesla Inc, должна выиграть от такого законодательства. Но как правильно оценить этот эффект?

Чтобы ответить на этот вопрос, мы могли бы посмотреть на цену до и после события и сделать вывод, что эффект был полностью связан с запретом ICE. Если цена акций Tesla изменилась после события, это произошло по какой-то причине, и тогда мы могли бы предположить, что это было событие запрета ICE. Вы понимаете, почему это предположение может быть ошибочным?

Очевидно, что этот анализ недостаточно надежен, чтобы говорить о причинно-следственной связи. Изменение цены может быть вызвано другими факторами (или вмешивающимися факторами на жаргоне причинно-следственной связи), влияющими на цены акций одновременно с событием. Мы можем выделить 3 основных ингредиента для импульсивных изменений цен:

  • Общее изменение рыночных цен: инфляция, изменение процентных ставок, любое разрушительное макроэкономическое событие…
  • Изменение цен в автомобильной промышленности: рост спроса на автомобили, потрясения в цепочке поставок и т. д.
  • Изменения в характерных для Tesla показателях: изменение фундаментальных показателей компании, объявление о хороших доходах и т.п. Внимание, спойлер: хотя представленный здесь анализ дает значительно более надежные результаты по сравнению с наивным подходом, было бы сложно выделить эти эффекты без явного включения этой информации.

Причинный вывод на помощь — Синтетическое различие в различии

Чтобы контролировать эти факторы, нам нужно провести контрфактический анализ: что, если бы запрета ICE не было? Была бы цена акций Tesla такой же? Если бы мы знали, что произошло в этой альтернативной реальности, мы могли бы сравнить и оценить реальный эффект события. К сожалению, у нас есть только информация о том, что произошло в реальном мире, так как же мы можем оценить этот эффект? Чтобы ответить на этот вопрос, мы можем использовать инструментарий причинно-следственного вывода.

В частности, мы будем использовать модель Synthetic Difference in Difference, позволяющую проверить работу Tesla в альтернативной реальности, или другими словами: создать синтетическую компанию в качестве контрольной группы. Показатели этой компании являются средневзвешенными показателями других автопроизводителей. Веса таковы, что они максимизируют сходство между показателями фондового рынка синтетической компании до запрета ICE и Tesla Inc. Кроме того, модель придает больший вес отметкам времени до запрета ICE, чтобы максимизировать сходство между синтетический контроль и производительность Tesla.

Затем мы сравниваем производительность «контрфактической компании» в отношении запрета ICE с производительностью Tesla Inc. Предполагается, что причинно-следственный эффект заключается в разнице в производительности синтетического контроля и Tesla.

Эта модель реализована в pysynthdid и легкодоступна, поэтому вы можете использовать ее прямо из коробки! Тем не менее, теперь, когда мы подошли к этому вопросу, как на самом деле работает Синтетическая разница в разнице на самом деле?

Технический раздел, который можно пропустить, хотя и не следует

Synthetic Diff-in-Diff представляет собой смесь еще двух классических моделей панельных данных: Difference in Difference и Synthetic control. С одной стороны, модель Diff-in-Diff, по сути, представляет собой регрессионную модель с обычными наименьшими квадратами (OLS), в которой вы добавляете фиктивные значения времени (до и после вмешательства) и отдельных лиц (полученных и не получивших лечение). . С точки зрения математики это выглядит так:

Где Y – это логарифм (цена), mu – общий уклон, альфа – индивидуальный фиктивный параметр, бета — временная фиктивная переменная, а D — фиктивная величина для обработанной единицы после обработки. Идея состоит в том, что в то время как альфа и бета будут соответственно отражать предубеждения людей и временные тенденции, тау представляет собой причинно-следственный эффект.

С другой стороны, мы могли бы использовать другую модель под названием Synthetic Controls. В этом случае мы создаем синтетическую компанию-производителя автомобилей, которая максимально точно отслеживает цену Tesla, взвешивая остальных автопроизводителей в одной единице (все до того, как обработка вступит в силу).

Где w — вес компании. Мы оцениваем причинный эффект как разницу между поведением обработанных животных после лечения и синтетическим контролем. Наконец, синтетические элементы управления — это метод, который смешивает два предыдущих, взяв лучшее из обоих миров:

Обратите внимание, как мы взяли фиктивные модели для исключения тренда из анализа Diff-in-Diff, а также взвешивание синтетического контроля. Таким образом, мы можем объяснить дисперсию терминами тренда, допуская непараллельные тренды в качестве синтетического контроля. Кроме того, мы добавляем вес для наиболее репрезентативных временных меток и срок регуляризации для них! Таким образом, мы можем максимально приблизиться к несуществующему элементу управления, используя имеющиеся у нас данные.

Еще одно преимущество метода Синтетическая разница в разнице заключается в том, что нам не нужны характеристики компании для построения модели (модель основана только на результате Y). Это имеет два основных преимущества: с одной стороны, мы можем моделировать поведение любой компании только с помощью цен (нет необходимости в финансовых показателях компании, географической информации и т. д.). С другой стороны, мы избегаем риска контроля над переменными, которые нам не следует контролировать (например, коллайдер).

Вернемся к Тесле и запрету ДВС

Возвращаясь к нашему первоначальному вопросу, мы хотели изучить влияние запрета ICE на цены акций Tesla. Чтобы создать надежную контрольную группу, мы включили только фирмы, присутствующие на рынке ЕС, и исключили те, у которых были конкурентоспособные электромобили в то время (Kia, Volkswagen, Hyundai и Renault). Используя модуль Pysinthdid, мы можем получить наши оценки из коробки, используя модель Синтетическая разница в разнице: синтетический контроль, который мы получили для Tesla, представляет собой комбинацию Suzuki (54%), Ferrari (25%) и Nissan (21%). ). Мы видим, что синтетическая управляющая компания имела более ровную производительность после запрета ICE, и что причинно-следственный эффект оценивается как разница в разнице между двумя: влияние увеличилось на 10%.

Так что же случилось с ценой конкурентов Tesla в сфере электромобилей? Мы повторили тот же анализ и получили отрицательное влияние: Kia Corp (-2,1%), Volkswagen (-2,9%), Hyundai (-7,3%) и Renault (-4,4%).

Конечно, в этом анализе есть много предостережений. Главная из них заключается в том, что мы предполагали, что запрет ICE был единственным событием, повлиявшим на цену акций Tesla за это время. Чтобы перейти на следующий уровень строгости, нам нужно было бы включить идиосинкразические эффекты Теслы, такие как твиты Элона, призывы Теслы зарабатывать и т. д. Кроме того, мы решили проанализировать влияние в течение одного квартала, но влияние могло длиться дольше.

Выводы

Стандартных инструментов машинного обучения и глубокого обучения не всегда достаточно для того, чтобы сделать причинно-следственные выводы. Методы причинно-следственного вывода, такие как модель «Синтетическая разница в разнице», обеспечивают дополнительную информацию и могут быть полезны при анализе окружающей среды, социальных отношений и управления (ESG). В этой статье мы применили модель «Синтетическая разница в разнице», чтобы оценить причинно-следственное влияние европейского запрета ICE на цену акций Tesla.

Как и у любого другого подхода, у синтетического Difference in Difference есть свои оговорки. Тем не менее, это интуитивно понятный метод анализа воздействия на политику, который позволяет избежать рисков, связанных с пропуском некоторых искажающих факторов или обусловливанием коллайдера.

Как специалисты по данным, мы должны лучше понимать наши модели и сигналы, которые мы в них вводим. Более простые, но более причинно-следственные модели могут дать объяснимые результаты, которые обеспечивают прочную основу для принятия обоснованных решений, особенно с учетом проблем, которые могут принести с собой модели черного ящика, даже если мы попытаемся объяснить, как они работают.

Дополнительные ресурсы

Есть много хороших ресурсов, если вы хотите узнать больше о синтетическом diff-in-diff:

  • Оригинальная статья: Архангельский, Дмитрий, Сьюзен Ати, Дэвид А. Хиршберг, Гвидо В. Имбенс и Стефан Вагер. Синтетическая разница в различиях. American Economic Review 111, вып. 12 (декабрь 2021 г.): 4088–4118. https://doi.org/10.1257/aer.20190159.
  • Хорошее объяснение в последней главе Причинного вывода для смелых и верных (описано в нашем книжном клубе в Clarity AI)
  • Реализация в pysynthdid
  • Статья о более глубоком прозрении о рисках кондиционирования на коллайдерах