В этой серии статей мы покажем вам, как работают конвейеры машинного обучения, которые определяют показатель поведения Эйнштейна, ключевую особенность Pardot Einstein, которая помогает маркетологам понять, когда потенциальные клиенты готовы к покупке. Мы опишем наши подходы к моделированию и поделимся своим путешествием по интерпретируемым моделям, чтобы заслужить доверие наших клиентов, предоставляя практические идеи с нашими прогнозами. Кроме того, мы также опишем, как мы генерируем оценки и аналитические данные для всех клиентов с помощью модельного турнира, чтобы предприятия и малые предприятия могли извлечь выгоду из наших продуктов машинного обучения. Наконец, мы дадим вам представление об архитектуре, которая обеспечивает эти прогнозы для наших клиентов и наших конвейеров мониторинга, чтобы убедиться, что наши модели работают в производственной среде.

Воронка продаж и маркетинга

Команды продаж и маркетинга часто имеют слишком много потенциальных клиентов, имея в своем распоряжении ограниченное время и бюджет. Чтобы создать сильную воронку продаж, маркетологи должны нацеливать своих потенциальных клиентов на правильный контент, чтобы заинтересовать их интересы и взращивать их, прежде чем передавать их своим отделам продаж. Эффективные стратегии оценки потенциальных клиентов и возможностей помогают отделам продаж расставлять приоритеты для правильных потенциальных клиентов, а точное прогнозирование возможностей помогает им выявлять проблемы на раннем этапе, чтобы скорректировать курс и достичь своих целей в случае дефицита.

Функции продуктов семейства Pardot Einstein и Sales Cloud Einstein помогают клиентам Salesforce создавать и развивать эффективные воронки продаж и маркетинга, причем первые ориентированы на группы маркетинга, а вторые - на группы продаж.

В следующих разделах мы сосредоточимся на том, как мы построили оценку поведения Эйнштейна, а не на характеристиках и функциях этого компонента Pardot Einstein. Если вы хотите узнать больше о различных функциях любого из этих продуктов или о том, как использовать их в своем бизнесе, мы рекомендуем вам ознакомиться с материалами Основы Эйнштейна для Pardot или Облако продаж Эйнштейна на Trailhead.

Оценка поведения Эйнштейна: обзор

Концепция оценки лидов или потенциальных клиентов на основе таких атрибутов, как их модели вовлеченности, фирма и демография, является основополагающим компонентом любого процесса маркетинга или продаж. Модели на основе правил часто используются для управления распределением баллов, оценок или оценок, присваиваемых каждому интересу или потенциальному клиенту; тем не менее, этот процесс часто описывают как игру в угадывание, когда нет уверенности в конечном результате. Если вы подумаете о количестве данных о привлечении потенциальных клиентов или потенциальных клиентов, которые ваша организация генерирует каждый месяц между вашим инструментом автоматизации маркетинга и вашим решением CRM, проблема точной оценки ваших потенциальных клиентов на основе моделей взаимодействия идеально подходит для машинного обучения. Откажитесь от игры в угадывание устаревших правил оценки и откройте для себя истинные модели взаимодействия, открывающие новые возможности для вашего бизнеса, - и все это одним щелчком мыши!

Оценка поведения Эйнштейна (EBS) использует машинное обучение чтобы определить уникальные модели взаимодействия, которые используют ваши потенциальные клиенты, которые сигнализируют о том, что они могут открыть новые возможности для вашей команды продаж. Для этого Эйнштейн смотрит на то, какое поведение (отправка форм, просмотры видео, открытие электронной почты и т. Д.) Является потенциальным клиентом, который приобретает квалификацию продаж, или способствует созданию возможности, принимая участие в своем пути взаимодействия с вашим маркетинговым контентом. Эйнштейн не только узнает, какие типы действий наиболее или наименее значимы для реализации возможностей, но он также узнает о значении взаимодействия с конкретными маркетинговыми активами и о сроках или давности каждого взаимодействия.

Наш путь к моделированию оценки поведения Эйнштейна

Клиенты Pardot имели доступ к Оценке и оценке перспективы задолго до того, как мы представили Эйнштейна. Эта оценка, основанная на правилах, позволяла маркетологам создавать рабочие процессы, которые автоматически присваивали баллы потенциальным клиентам в зависимости от того, чем они занимались. Эта оценка была неограниченной, поэтому со временем она росла. С помощью этой системы маркетолог не мог отличить потенциального клиента, который в последнее время продемонстрировал большую вовлеченность, от неактивного потенциального клиента, который был активен много месяцев назад, поскольку у них обоих были бы одинаковые оценки потенциальных клиентов. Весной 2019 года мы запустили программу Оценка поведения Эйнштейна в рамках программы« Пардо Эйнштейн », используя неконтролируемую модель оценки и анализа. Веса действий основывались на правилах, закодированных экспертами, которые менялись во времени, так что более недавние действия получали более высокие веса. Тогда нашей целью было развернуть эту мощную функцию для клиентов Pardot, чтобы любой клиент, независимо от его размера или длины исторических данных, мог воспользоваться ею. Совсем недавно мы представили два улучшения оценки поведения Эйнштейна с использованием контролируемых моделей.

Далее мы опишем каждый из этих подходов ниже, проблемы, с которыми мы столкнулись, и улучшения, которые мы внесли в наши модели следующего поколения.

Неконтролируемая модель

Модель неконтролируемого поведения для оценки поведения создается для активных потенциальных клиентов на основе их действий в прошлом году. Существует две широкие категории функций: функции на основе рейтинга, такие как коэффициент открытий электронной почты и частота кликов по электронной почте, а также функции на основе подсчета, которые фиксируют частоту каждого типа активности и сочетаний имен типов, обнаруженных в каждой организации. Каждой функции присваиваются разные параметры веса и времени спада в зависимости от предметной области.

Например, щелчок по электронной почте или отправка формы означает более активное участие, чем простое открытие электронной почты, поэтому Первым двум событиям присваивается более высокий вес по сравнению со вторым. Кроме того, недавним действиям присваивается более высокий вес, чем действиям в далеком прошлом. Например, событие щелчка по электронной почте сегодня могло иметь такое же влияние, как пять разных щелчков по электронной почте девять месяцев назад. Сочетание различных параметров временного затухания и пользовательских весов обеспечивает большую гибкость при моделировании реальных сценариев. Действия могут немедленно повлиять на счет, но их влияние со временем исчезает.

Затем скалярное произведение значений характеристик и весов для каждого потенциального клиента нормализуется до диапазона от 0 до 100. Наличие оценок в заранее определенном диапазоне помогает сохранить значение различных сегментов оценок, чтобы маркетологи могли используйте Engagement Studio, чтобы создавать и разнообразить свои стратегии кампании в зависимости от уровней вовлеченности. Оценка, близкая к 100, означает наивысший уровень или вовлеченность, а близкая к 0 - самая низкая.

Помимо отображения оценки для каждого потенциального клиента, мы также выявляем особенности, которые положительно и отрицательно повлияли на оценку как процентильный ранг ценности функций среди всех оцениваемых потенциальных клиентов.

Вызовы

Хотя эта простая модель без учителя более эффективна, чем присвоение оценок поведения потенциальным клиентам на основе правил, у нее есть несколько очевидных проблем:

  • Включение дополнительных функций обременительно: веса, связанные с действиями, были закодированы на основе данных, полученных от экспертов в данной области. Со временем клиенты могут вводить новые активы, с которыми их потенциальные клиенты могут взаимодействовать, что может помочь улучшить их взаимодействие. Например, если потенциальный клиент исходит из организации, с которой наши клиенты ранее вели дела (пример: потенциальный клиент с идентификатором электронной почты [email protected]), то вероятность конверсии этого потенциального клиента, вероятно, больше, чем у фирмы, с которой они ». раньше я не имел дела с. Включение этих дополнительных сигналов обременительно.
  • Ограниченные средства проверки оценок поведения: неконтролируемая модель полагается на качественную обратную связь для оценки эффективности полученных оценок. Настройка весов одного или нескольких действий потребует от нас повторной проверки всего конвейера. Со временем, по мере изменения характера бизнеса клиента, некоторые действия могут считаться более важными, чем другие, что затрудняет проверку значимости полученных оценок.
  • Учесть отзывы пользователей сложно: при использовании модели без учителя единственный способ для нас включить любые отзывы, которые наши клиенты могут предоставить нам относительно качества наших оценок, - это вручную настроить веса и нормализацию / калибровку подход, который генерирует окончательные баллы.
  • Возможность четко объяснить оценки ограничена: предоставление глобального понимания ключевых факторов, влияющих на оценку поведения, а также местных аналитических данных о конкретной перспективе ограничено. Сравнение ценности потенциального клиента для определенного вида деятельности с остальной частью населения возлагает на пользователя бремя принятия решения о том, следует ли им продолжать развивать перспективу или преследовать другие перспективы. Кроме того, это предполагает, что взаимосвязь между действиями и оценкой поведения потенциального клиента является линейной, что нет никаких взаимодействий между различными типами активности. Это снова остается на усмотрение пользователя, исходя из своего опыта.

Если бы мы взмахнули волшебной палочкой и построили мощную контролируемую модель для оценки поведения, мы могли бы устранить многие ограничения и масштабировать эту систему для десятков тысяч клиентов. Поскольку с помощью контролируемой модели мы машинно изучаем веса, включение дополнительных атрибутов - это просто вопрос объединения правильного набора данных. Определяя и согласовывая целевую переменную, которую мы пытаемся предсказать, мы можем легко проверить эффективность нашей модели относительно этого результата и отслеживать ее во времени во всех организациях, используя стандартные метрики модели, такие как AUC, Точность, Напомним и результаты F1 . Отзывы пользователей могут быть получены путем заполнения целевой переменной данными более высокого качества. Оценки можно объяснить с помощью глобальных моделей, таких как меры важности характеристик или графики частичной зависимости (PDP), и локальных моделей, таких как Аддитивные объяснения SHAPley (SHAP), которые могут учитывать сложные взаимодействия функций, зафиксированные нелинейными моделями. В следующем разделе мы опишем именно это.

Контролируемая модель

Чтобы построить контролируемую модель для EBS, нам важно понимать жизненный цикл потенциального клиента в Pardot, чтобы иметь возможность определять результаты, которые мы заинтересованы в моделировании. На иллюстрации ниже показан жизненный цикл потенциального клиента в Pardot. Когда посетитель веб-сайта предоставляет адрес электронной почты, по которому мы могли бы отслеживать его, он становится потенциальным клиентом. Затем потенциальный клиент может быть связан с лидером CRM, и в этом случае он может в конечном итоге преобразовать в контакт. В качестве альтернативы потенциальный клиент может быть напрямую связан с контактом в CRM, пропуская этап создания лида. С этого момента контакт может в конечном итоге быть связан с возможностью через роль контакта по возможности (OCR), завершив его преобразование. Для потенциальных клиентов, которые были напрямую связаны с контактом и не были связаны с возможностью через OCR, мы можем продолжать отслеживать, вовлечены ли они (например, будут ли они проявлять постоянную активность на следующей неделе?). В Pardot могут быть некоторые потенциальные клиенты, которые прошли квалификацию в качестве квалифицированного лида по маркетингу (MQL), а затем в категорию квалифицированного лида по продажам (SQL), прежде чем быть привязаны к лиду или контакту CRM. Этот процесс квалификации дает нам слабый прокси для определения того, что является многообещающим, а что нет. Наконец, в Pardot могут быть потенциальные клиенты, которые долгое время неактивны и, следовательно, не имеют квалификации, чтобы связать их с лидом или контактом CRM. На всех этих путях, которые потенциальный клиент может выбрать в своем жизненном цикле, он может в конечном итоге не превратиться в возможность или может просто отказаться от него; мы предполагаем, что эти потенциальные клиенты не обратятся, следовательно, они не являются хорошими кандидатами для взращивания.

Цензурированные данные

Как мы описали выше, потенциальный клиент проходит множество различных стадий в своем жизненном цикле, прежде чем ссылаться на возможность. Ниже показаны две типовые воронки. Как видно, только небольшая часть потенциальных клиентов становится квалифицированным лидером по маркетингу (MQL), еще меньшая часть становится квалифицированным лидером по продажам (SQL), и в конечном итоге предоставляется гораздо меньше возможностей. Проблема, помимо таких низких коэффициентов конверсии, заключается в том, что маркетолог не может определить, когда потенциальный клиент перейдет на следующий этап воронки или перейдет ли он вообще. Некоторые потенциальные клиенты могут быстро переходить от одного этапа воронки к следующему, в то время как для многих других может потребоваться много времени. Таким образом, мы сталкиваемся с проблемой «правильной цензуры» при определении нашего результата, т. Е. Если перспектива еще не связана с возможностью, мы не обязательно знаем, что это никогда не произойдет.

Вот два примера графика Каплана-Мейера вероятности отсутствия конверсии потенциальных клиентов с момента их создания.

Мы можем сделать два быстрых наблюдения: во-первых, у разных организаций есть циклы продаж разной продолжительности, а во-вторых, что подавляющее большинство потенциальных клиентов, которые действительно совершают конверсию, делают это в течение определенного периода времени. Мы определяем этот период времени как «горизонт прогноза» и рассматриваем те перспективы, которые не связаны с возможностью в этом временном интервале, как отрицательные выборки.

По сути, эта проблема сродни прогнозированию оттока клиентов. Есть много способов моделирования этого, будь то модель последовательности, модель ранжирования или простая старая двоичная классификация. Для удобства и гибкости мы решили смоделировать это как традиционную задачу классификации, чтобы мы могли применять множество инструментов для измерения, мониторинга и отладки наших моделей в производстве. Заинтересованным читателям следует ознакомиться с сообщением в блоге Эгиля Мартинссона на тему WTTE-RNN, где более подробно рассматриваются различные методы моделирования для проблем подобного рода.

Горизонт прогноза

Как мы описали выше, мы определяем пороговое значение для времени конверсии потенциального клиента, называемое горизонтом прогноза, и применяем этот порог для решения проблемы правильно цензурированных данных. Мы вычисляем горизонт прогноза как время в днях, которое потребовалось для того, чтобы 90 процентов потенциальных клиентов совершили конверсию среди всех потенциальных клиентов, которые совершили конверсию. Далее мы сокращаем это количество до ближайших 30, 90, 180 и 365 дней для каждой организации. Если мы сталкиваемся с потенциальным клиентом, который находился в системе меньше, чем прогнозируемый период времени, то мы не можем определить его результат. В этом случае мы игнорируем эту перспективу в нашем наборе обучающих данных. Если потенциальный клиент находится в системе дольше, чем время горизонта прогноза, то мы предполагаем, что этот перспективный объект не конвертируется, и маркируем его как отрицательную выборку. Таким образом, прогнозы наших моделей показывают, будет ли потенциальный клиент ссылаться на возможность в течение периода времени прогноза.

Наборы данных моделирования

Мы используем различные сигналы от Pardot, а также от CRM при создании EBS. Чтобы модель под наблюдением работала хорошо, мы ожидаем, что по крайней мере шесть месяцев истории взаимодействия с потенциальными клиентами с минимум 20 связанными перспективами, которые связаны с возможностью в этот период времени.

Вектор функции подсчета активности каждого потенциального клиента разделен по времени, то есть они отражают количество действий, которые потенциальный клиент выполнял в последний день, неделю, месяц и год. Кроме того, мы делаем снимок этого вектора функции подсчета активности для каждого месяца, в течение которого потенциальный клиент оставался нереализованным. Например, предположим, что перспектива P_0123 была создана 12 января 2018 г. и связана с возможностью 14 декабря 2018 г. Давайте также предположим, что горизонт прогноза, как мы описали ранее, для этой организации составляет 6 месяцев, затем снимок записи для этого потенциального клиента в наборе обучающих данных будут выглядеть следующим образом:

Описанный выше набор данных моделирования дополнительно разделен на три набора данных, как описано ниже:

  1. Набор для обучения и проверки поиска по сетке: это наборы данных, которые используются для настройки гиперпараметров наших моделей для каждой организации. Мы обучаем модель с набором параметров, выбранных из сетки на обучающем наборе g rid search, и измеряем ее точность на наборе тестов поиска по сетке. Параметры с максимальной точностью выбраны для обучения двух других моделей, перечисленных ниже.
  2. Набор для обучения и проверки метрик модели: это наборы данных, используемые для измерения ожидаемой точности наших моделей, когда мы генерируем оценки потенциальных клиентов на основе набора оценок. Обучающий набор метрик модели - это набор данных, на котором мы обучаем модель с использованием оптимальных параметров, полученных в результате поиска по сетке, описанного на шаге выше, а тестовый набор метрик модели - это набор данных, по которому мы измеряем точность обученной модели.
  3. Обучающий набор и оценка окончательной модели: это набор данных, который используется для обучения нашей окончательной модели для генерации оценок для потенциальных клиентов, которые в настоящее время не связаны с возможностью. Набор данных справа от обучающего набора, используемого для окончательной модели, представляет собой часть потенциальных клиентов, результаты которых подвергаются цензуре. По сути, это горизонт прогноза.

Как проиллюстрировано выше, каждый из наборов данных моделирования не перекрывается во времени, чтобы гарантировать, что метрики модели отражают то, что, вероятно, будет наблюдаться во время оценки потенциальных клиентов с ненаблюдаемыми результатами в будущем.

Модели

У наших клиентов есть данные различных форм и размеров, у некоторых есть множество исторических данных, на которых можно учиться, а у других только начало. В то время как одни клиенты могут получить выгоду от более сложных моделей, а другие - с недостаточными данными, базовые модели также могут работать одинаково.

В настоящее время в производстве находятся следующие модели:

  • Модель без учителя, которая, как мы описали выше, высоко оценивает недавние действия.
  • Контролируемый классификатор XGBoost с базовыми сигналами активности с временным интервалом, как мы описали выше.
  • Модель ранжирования XGBoost, которая ранжирует потенциальных клиентов по их прогнозируемому «времени до конверсии».
  • Классификатор XGBoost обучен базовым сигналам активности в сочетании с расширенными сигналами активности, основанными на взаимодействии потенциальных клиентов с конкретными маркетинговыми активами, такими как конкретная страница продукта, конкретная целевая страница кампании и т. Д.

Резюме

В первой части этой серии статей мы выяснили, что лежит в основе оценки поведения Эйнштейна - мощного инструмента для отделов маркетинга и продаж как на предприятиях, так и на малых предприятиях. Мы описали эволюцию наших подходов к моделированию и проблемы, которые побудили нас найти эффективные решения, подходящие для всех наших клиентов.

Во части второй мы опишем наш конвейер генерации идей и наш путь к объяснимости модели. Мы также покажем, как каждая из описанных выше моделей соревнуется в модельном турнире, где победитель определяет, какие оценки и идеи в конечном итоге видят наши клиенты. Наконец, мы также рассмотрим архитектуру, на которой основан Пардо Эйнштейн.