Как сделать науку о данных правильным способом для бизнес-действий
Почему мы никогда не должны использовать прогнозные данные в качестве причинно-следственной связи.
Мы занимаемся наукой о данных неправильно (обычно).
Большинство групп данных, с которыми я сталкивался, предоставляют аналитические данные и прогностические модели другим командам, влияющим на бизнес. Другие команды могут неправильно действовать в соответствии с этими выводами.
Все мы знаем из статистики 101, что корреляция не равна причинно-следственной связи.
Мы также знаем, что мы не можем доказать, что что-то правильно, мы можем только доказать, что все правильно неправильно. [1]
Большинство моделей в DS, которые мы используем (регрессия, деревья решений, модели Gradient Boost и т. д.), используют корреляцию, и мы можем определить важность функций для этих прогностических моделей.
Да, мы можем оптимизировать метрику производительности в тестовом наборе, но главная функция по важности функций модели не обязательно означает, что она является причиной целевой переменной.
Допустим, мы пытаемся выяснить, какие функции больше всего влияют или способствуют удержанию клиентов. Что мы делаем? Давайте рассмотрим пример традиционной модели машинного обучения и объясним, почему это не то, что вы хотите сделать, чтобы найти причинно-следственную связь.
Например, мы обнаружили, что главной особенностью нашей модели удержания клиентов является количество зарегистрированных ошибок. Это может быть связано с тем, что пользователи с высоким уровнем использования, которые ценят продукт, чаще сообщают об ошибках и продлевают свои подписки. Но представьте, что вы говорите вице-президенту вводить новые ошибки, чтобы увеличить удержание клиентов. Это проблема корреляции в прогностической модели при попытке принять решение о действиях, которые необходимо предпринять, чтобы изменить удержание клиентов.
Это может быть полезно для оценки (или прогнозирования) удержания клиентов. Но это не помогает нам решить, какие действия предпринять, чтобы повлиять на удержание клиентов. Вопрос заключается в следующем: «Что вызывает удержание клиентов, чтобы мы могли настроить рычаги, которые мы контролируем, чтобы положительно повлиять на этот показатель для бизнеса?»
Опять же, функция количества сообщений об ошибках полезна для прогнозирования, но предположим, что команда выбирает нашу модель прогнозирования с новой целью определить, какие действия наша компания может предпринять, чтобы удержать больше клиентов, исходя из результатов нашей прогнозной модели.
Эта команда на самом деле заинтересована в причинно-следственной связи признаков, а не в прогнозируемом весе признаков. Их интересует контрфактический сценарий, созданный, когда переменные в реальном мире динамичны и изменяются.
Мы больше не можем просто определять сильную корреляцию между переменными, нам нужно знать, изменит ли манипулирование функцией цель (удержание клиентов) существенным образом.
Есть несколько методов, которые мы можем исследовать, чтобы найти причинно-следственную связь. Я напишу продолжение о том, как на самом деле делать случайное моделирование и какие библиотеки доступны нам сегодня для этих задач.
Этот пост был написан Остен Майерс, и его также можно посмотреть в их блоге здесь: https://www.austenmyers.com/2021/08/09/how-to-do-data-science-the-right-way- для бизнеса/
[1] Будущие эксперименты могут изменить вывод о том, что правильно, а что неправильно (см. Фейнман о научном методе https://www.youtube.com/watch?v=EYPapE-3FRw).