Как крупные технологические компании используют машинное обучение и причинно-следственную связь для принятия решений на основе данных

Крупные технологические компании постоянно стремятся улучшить взаимодействие с пользователем и улучшить все, что они делают, чтобы предоставить клиентам то, что они действительно хотят. Но как они узнают, чего на самом деле хотят клиенты? Похоже, ответ – не что иное, как тестирование.

Впервые я столкнулся с концепцией тестирования, читая книгу Эрика Райса Бережливый стартап. В главе своей книги Измерение Райс знакомит с A/B-тестированием. A/B-тестирование, также известное как сплит-тестирование, широко используется в маркетинге и разработке продуктов для получения результатов, основанных на данных.

Чтобы понять, как работает A/B-тестирование, давайте рассмотрим пример внедрения новой функции.
Мы исходим из гипотезы о том, что данная функция, например, улучшит определенный ключевой показатель эффективности (KPI). Затем клиенты делятся на две группы, и только одна группа имеет доступ к этой новой функции. После этого из обеих групп собираются соответствующие данные для измерения влияния новой функции на KPI. Эти данные в конечном итоге используются для принятия решения о том, следует ли сохранить функцию или отказаться от нее.
Однако по мере того, как функции умножаются, а варианты использования усложняются, стандартный метод A/B-тестирования становится отнимающим много времени и требует классификации. Например, Netflix использует причинное машинное обучение для выбора своих произведений искусства, а Spotify использует сложные методы экспериментирования для персонализированных, контекстно-зависимых систем рекомендаций…

Чтобы лучше понять сложность проведения тестов, вот что говорят Netflix, Spotify и Amazon:

Из Каузального машинного обучения для творческих идей Netflix:

Учитывая обширный и все более разнообразный каталог Netflix, сложно разработать эксперименты, которые одновременно работали бы в рамках A/B-тестирования и были бы репрезентативными для всех жанров, сюжетов, художников и многого другого.

Spotify представляет Confidence — экспериментальную платформу от Spotify:

Наши команды увязли в возобновлении экспериментов, ручном расчете статистического анализа в блокнотах и ​​координации тестовых групп в электронных таблицах.

Инструменты машинного обучения Amazon повышают эффективность проверки гипотез

В идеале, тестируя цвета фона, вы хотели бы контролировать все остальные элементы на странице — содержимое страницы, размер и размещение рекламных баннеров, макеты для настольных компьютеров и мобильных устройств и т. д. Но это означало бы тестирование всех возможных комбинаций всех этих элементов для каждого цвета фона и сбор достаточного количества данных о каждом из них, чтобы получить статистически значимый результат.

Причинный вывод и причинное машинное обучение

Когда сплит-тестирование невозможно или дорого, исследователи собирают данные наблюдений. После того как данные собраны, аналитики данных и инженеры хотят понять из них смысл, понять, что причинило изменение показателей, формулируется набор гипотез и, наконец, запускаются конкретные алгоритмы. чтобы протестировать их. Причинно-следственный вывод направлен на предсказание того, что произойдет, если мы применим манипуляцию/вмешательство к объекту.

Проблема в том, что, хотя модели машинного обучения хорошо справляются с поиском закономерностей, использованием корреляций и прогнозированием, им сложно объяснить причину определенного результата. Это важно понимать: корреляция не является причинно-следственной связью,например, хотя высокие цены обычно связаны с высокими продажами, это не означает, что повышение цены приведет к росту продаж.

Именно здесь причинно-следственное машинное обучение становится особенно полезным: оно сочетает в себе причинно-следственные выводы с методами машинного обучения, что позволяет нам выявлять фактические причинно-следственные связи. Существует множество алгоритмов причинного машинного обучения, использующих такие методы, как случайные леса, нейронные сети и вариационное обучение.

Предварительные сведения о причинно-следственной связи

Чтобы понять, как работает причинное машинное обучение, необходимо понять концепции причинного вывода, лежащие в его основе.

В основе причинно-следственного вывода лежит концепция потенциальных результатов.
Пусть Y_i(1) представляет потенциальный результат для отдельного i при воздействии лечения или вмешательства X = 1, а Y_i(0) представляет потенциальный результат когда не подвергались лечению X = 0. Наблюдаемый результат Y_i является одним из следующих потенциальных результатов, в зависимости от того, получал ли человек лечение или нет:

Однако мы можем наблюдать только один из этих потенциальных результатов для каждого человека, в зависимости от лечения, которое он фактически получил. Именно здесь в игру вступает концепция контрфактических данных. Контрфактический результат для человека представляет собой то, что произошло бы, если бы он получил противоположное обращение. Другими словами, это сценарий «а что, если».

Используя эти два результата, мы можем определить эффект лечения как разницу между наблюдаемым потенциальным результатом и контрфактическим результатом:

Используя разницу между наблюдаемыми потенциальными результатами, мы можем определить «средний эффект лечения» (ATE).

Этот показатель полезен, поскольку помогает ответить на вопрос: «Насколько лечение в среднем меняет результат?»

Если мы хотим сосредоточиться на подгруппе населения, мы также можем определить «условный средний эффект лечения» (CATE), чтобы понять, как эффект лечения варьируется в зависимости от разных подгрупп или состояний. Для определенного набора значений ковариат x, определенного набором ковариат X, мы определяем CATE как:

предположения

Причинное машинное обучение включает в себя несколько предположений, гарантирующих обоснованность и надежность оцененных причинных эффектов.

Последовательность. Это предположение означает, что между запланированным лечением и фактическим лечением нет расхождений.

SUTVA (допущение о стабильной стоимости лечения единицы): SUTVA предполагает, что назначение лечения и потенциальные результаты одного отделения не зависят от назначения лечения или результатов других отделений. Это особенно актуально в ситуациях, когда между подразделениями могут возникнуть взаимодействия или побочные эффекты.

Необоснованность: нет скрытых или ненаблюдаемых переменных, которые влияют как на лечение, так и на результат.

Позитивность. Допущение положительности гарантирует, что у отделения есть некоторый шанс получить лечение. С математической точки зрения это означает, что вероятность получения лечения (T=1) с учетом ковариат (X) должна быть больше нуля и меньше единицы:

Вмешательства

Мы называем вмешательство, изменяющее значение переменной. Это отличается от обусловления, поскольку мы фиксируем значение, а не берем подмножество единиц, в которых переменная принимает интересующее нас значение. Мы используем оператор «do» для представления вмешательства или лечения в причинных моделях. Обозначение do(X = x) означает, что мы вмешиваемся, чтобы установить для переменной X определенное значение x, независимо от ее исходного состояния. Эти обозначения помогают различать ассоциации наблюдений и причинно-следственные связи и определять две разные вероятности.

Проблема сбивающих с толку

Вполне возможно, что некоторые переменные, называемые искажающими переменными, влияют как на лечение, так и на результат. Это может внести предвзятость в анализ и привести к неправильной причинно-следственной связи. Их решение может оказаться сложной задачей; это требует сбора данных о дополнительных переменных, ковариатах, и включения их в анализ. Предпринимаются и другие шаги, такие как анализ чувствительности, чтобы оценить, насколько чувствительны результаты к различным предположениям о искажающих переменных.

Методы машинного обучения, о которых мы упоминали выше, а также старая добрая линейная регрессия также помогают изолировать причинно-следственный эффект. Методы машинного обучения особенно полезны при выявлении нелинейных зависимостей, а в некоторых случаях, например, при вариационном обучении, они оценивают или аппроксимируют распределение искажающих переменных, которые непосредственно не наблюдаются в исследовании.

Как Netflix использует причинное машинное обучение

В случае с Netflix Artworks Netflix использует Double ML, так выглядит его фреймворк Causal ML.

Подробнее о том, как компании используют причинно-следственный вывод

Spotify указывает здесь свои стратегии для принятия более обоснованных решений

1. Начните с решения, которое необходимо принять.

2. Используйте локализацию для внедрения инноваций в интересах однородного населения.

3. Разбейте функцию на наиболее важные части.

Локализация

Из-за различий в предпочтениях разных стран и культур технологические компании считают полезным создавать целевой продукт или произведение искусства, а не делать его глобальным.

Эффект сетей

Ранее мы упоминали о допущении о стабильной единице стоимости лечения (SUTVA), означающем, что назначение лечения и потенциальные результаты одной единицы не зависят от назначения лечения или результатов других единиц. Однако во многих случаях предположение SUTVA может оказаться непрактичным, особенно в социальных сетях, где один пользователь может влиять на другого. Это называется сетевыми помехами. Многие методы были разработаны для учета важных условий сетевых помех, когда побочные эффекты могут существенно повлиять на достоверность причинных выводов.

Также возможно, что компании захотят оценить новую социальную функцию, которая будет работать только в том случае, если ее увидят пользователь и определенное количество его друзей. Они очень распространены среди приложений Fcebook и могут быть распространены на потоковые платформы. Подумайте, например, о функции Netflix, где друзья могут вместе смотреть фильмы или шоу в режиме реального времени, или о функции Spotify, где пользователи могут создавать совместные плейлисты со своими друзьями. Чтобы решить эту проблему, Facebook объясняет в Сетевом тестировании, как он использует набор нескольких независимых подграфов для обеспечения рандомизации населения при сохранении социальных сетей.

Заключение

Тестируя и анализируя реальные сценарии на основе собираемых данных, крупные технологические компании, такие как Amzon, Facebook, Spotify и Netflix, получают представление о том, чего на самом деле хотят их пользователи. В этой статье показано, как эти компании в значительной степени полагаются на исследования в области машинного обучения и причинно-следственных связей, чтобы решить проблему помех, социальных сетей, скорости и масштабируемости, помогая им удовлетворить разнообразные предпочтения пользователей.