Введение
Подумайте о том, чтобы начать предлагать кредит определенным клиентам, чтобы увеличить продажи. Можете ли вы сделать вывод, что кредитное предложение привело к увеличению покупок этих клиентов, пока вы делали специальное предложение?
Попробуйте сравнить условия «до» и «после» клиентов, принявших предложение, чтобы узнать ответ. Попробуйте сравнить продажи потребителей, получивших предложение, и тех, кто его не получил. Однако вполне возможно, что ваши заинтересованные стороны сейчас подвергают сомнению эти исследования из-за двойного учета или других смешанных факторов, которые они могут видеть или уже знают.
Таким образом, причинно-следственный вывод часто используется для получения ответов на вопросы, например, как определить, что различия в продажах связаны исключительно с кредитным предложением. Большинство исследований в области медицинских, социальных и поведенческих наук основаны на причинно-следственных, а не на ассоциативных проблемах. Конкретно этот экземпляр хорош. Мы также можем подумать о некоторых связанных причинных запросах. Какова эффективность препарата в определенной группе населения?
Могут ли данные установить вину работодателя в дискриминации при приеме на работу? Сколько преступлений в прошлом могла бы предотвратить определенная политика? Такие причинно-следственные запросы требуют некоторого понимания процесса генерации данных, который является фундаментальным компонентом причинно-следственного вывода.
Причинный вывод относится к интеллектуальной дисциплине, которая рассматривает предположения, дизайн исследования и стратегии оценки, которые позволяют исследователям делать причинно-следственные выводы на основе данных [1]. В основном это зависит от следующих областей:
1. Контрфактический анализ
2. Непараметрические структурные уравнения:
3. Графические модели
4. Симбиоз контрфактического и графического методов.
Причинный вывод может быть полезен в нескольких связанных ситуациях. Базовым является анализ воздействия инвестиций или вмешательства, который по своей сути представляет собой проблему «эффекта лечения» — проблему, в которой вмешательство (или «лечение», например, предложение кредита) оказывает причинно-следственное воздействие на переменную результата (такую как решение о покупке). Эффект лечения можно измерить на уровне популяции, группы, подгруппы и индивидуума.
Расширяя эту иллюстрацию, эффект лечения определяется как различие между двумя возможными результатами для каждой отдельной изучаемой единицы: один результат, если единица подвергается обработке, и другой результат, если единица подвергается контролю. Поскольку отдельные единицы могут быть только в лечебной или контрольной группе, но не в обеих, эффект индивидуального лечения не очевиден в практике Causal Inference 2. В результате в основе причинно-следственного вывода лежит то, что произошло бы, если бы не было вмешательства, а оценка контрфактуалов представляет наибольшие возможности, но в то же время создает наибольшее количество препятствий во многих контекстах.
Имея это в виду, причинно-следственный вывод может помочь найти ответы на следующие вопросы:
● Каков средний лечебный эффект вмешательства?
● Как лечебное воздействие влияет на расходы, вовлеченность и удержание клиентов. , и скоро?
● Будет ли лечение работать?
● Почему лечение помогло?
● В случае сценария с несколькими видами лечения, какие инвестиции мы должны порекомендовать клиентам?
Разрыв между предсказанием и принятием решения заполняется причинным выводом. Это полезно, поскольку даже для моделей прогнозирования с исключительно высокой точностью они сами по себе бесполезны для прогнозирования того, что произойдет, если мы изменим систему или предпримем определенное действие. Это связано с тем, что не всегда легко перейти от прогноза к решению. Типичный алгоритм контролируемого машинного обучения максимизирует разницу между ожидаемыми и фактическими значениями, однако принятие решений на основе прогнозов не всегда максимизирует желаемый результат. Прогностическая ценность прогностической модели может быть снижена из-за простого процесса принятия решений на ее основе, поскольку она может привести к изменению окружающей среды таким образом, что мы попадем на неизведанную территорию.
ДАННЫЕ
Данные, которые я собираюсь сделать для вывода о причинно-следственных связях, — это набор данных рака молочной железы, штат Висконсин
(диагностический), который можно найти в репозитории машинного обучения Kaggle и UCl.
Характеристики вычисляются на основе оцифрованного изображения тонкой иглы. аспирация (ТНА) массы молочной железы. Они описывают характеристики ядер клеток, присутствующих на изображении.
Данные содержат следующие 32 признака:
1. Идентификационный номер
2. Диагноз (M = злокачественное, B = доброкачественное)
3. Остальные (3–32)
Для каждого клеточного ядра вычисляются десять вещественных характеристик:
1. радиус (среднее значение расстояний от центра до точек на периметре)
2. текстура (стандартное отклонение значений шкалы серого)
3. Периметр
4. Площадь
5. Гладкость (локальное изменение длин радиусов)
6. Компактность (периметр²/площадь — 1,0)
7. Вогнутость (выраженность вогнутости участков контура)
8. вогнутые точки (количество вогнутых участков контура)
9. Симметрия
10. фрактальная размерность («приближение береговой линии» — 1)
Анализ
Описание данных, которое я получил, выглядит следующим образом.