Компания Trips & Travel.Com хочет создать жизнеспособную бизнес-модель для расширения клиентской базы. Одним из способов расширения клиентской базы является внедрение нового предложения пакетов. На данный момент компания предлагает 5 типов пакетов — «Базовый», «Стандарт», «Делюкс», «Супер Делюкс», «Кинг». Глядя на данные прошлого года, мы заметили, что пакеты приобрели 18% клиентов. Однако затраты на маркетинг были довольно высокими, поскольку с клиентами связывались случайным образом, не изучая имеющуюся информацию. Сейчас компания планирует запустить новый продукт — пакет оздоровительного туризма. Оздоровительный туризм определяется как путешествие, которое позволяет путешественнику поддерживать, улучшать или начинать здоровый образ жизни, а также поддерживать или повышать свое чувство благополучия. Однако на этот раз компания хочет использовать имеющиеся данные о существующих и потенциальных клиентах, чтобы сделать маркетинговые расходы более эффективными».
Постановка задачи
- Туристическая компания Trips & Travel предлагает новейшие пакетные предложения для отдыха. Чтобы быть более эффективной, компания хочет решить существующие проблемы.
- В прошлом году только 19% клиентов купили предлагаемые праздничные пакеты.
- Выручка компании не претерпела существенного роста.
Одномерный анализ
В столбце «Возраст» распределение данных почти нормальное.
- В столбце DurationOfPitch видно, что распределение имеет положительную асимметрию, где большинство частот данных
разбросаны по значениям ‹ 20. Также есть выбросы при значениях › 120, поэтому мы изменим их позже
распределение становится нормальным во время предварительной обработки данных. - В столбце MonthlyIncome данные распределены по значениям 20 000–30 000, а выбросы имеются в значениях ‹ 10 000
и › 80 000. Как и в случае со столбцом DurationOfPitch, позже мы изменим распределение данных на
нормальное во время предварительной обработки данных. - В столбце NumberOfTrips есть выбросы, где есть крайние значения, достигающие ‹ 19, поэтому
позже мы удалим выбросы во время предварительной обработки. - Очень немногие клиенты имеют профессию фрилансера (0,04%) по сравнению с
другими профессиями. - В целевом столбце ProdTaken наблюдается дисбаланс классов или дисбаланс данных, при котором клиент, берущий путевки (ProdTaken = 1), имеет частоту менее 1000. Между тем, клиенты, которые не берут путевки (ProdTaken = 0), очень доминирующий, что составляет около 4000 клиентов, так что дисбаланс данных на целевом объекте должен быть обработан путем понижения или включения передискретизации во время предварительной обработки данных позже.
Многомерный анализ
Видно положительное значение корреляции (хотя и слабое) целевой переменной ProdTaken с переменными Passport. Это означает, что чем выше значение паспорта покупателя (1), тем выше и стоимость принимаемого товара. Другими словами, клиенты, имеющие паспорт, с большей вероятностью покупают специальные пакеты, чем клиенты, у которых нет паспорта.
На графике видно, что две функции имеют довольно сильную корреляцию, а именно NumberOfPersonVisiting и NumberOfChildrenVisiting, которые образуют положительную корреляцию. В процессе выбора функций мы можем исключить избыточные функции (имеющие аналогичную информацию), чтобы в дальнейшем в модели машинного обучения не происходило переоснащение.
Существует отрицательная корреляция между переменной Age и ProdTaken и переменной MonthlyIncome с ProdTaken. Это означает, что чем меньше значение возраста или ежемесячного дохода, тем больше значение полученного продукта. Другими словами, клиенты молодого/малого возраста с большей вероятностью будут покупать праздничные пакетные предложения по сравнению с клиентами старшего возраста, а клиенты с низкой оплатой, как правило, покупают праздничные пакетные предложения по сравнению с высокооплачиваемыми клиентами.
Бизнес-инсайт
График владения паспортами и количество клиентов, которые отказываются/покупают пакетные предложения
Из графика видно, что среди клиентов, отказывающихся от предложения путёвок, преобладают клиенты, не имеющие паспортов.
- Бизнес-рекомендация, которую мы рекомендуем, — создать кампанию по привлечению новых клиентов, у которых уже есть паспорта, чтобы повысить шансы на получение путевки.
- Ориентация на клиентов: поощрение клиентов к приобретению паспортов путем предоставления специальных предложений. Например, при той же стоимости, что и пакеты отдыха внутри страны, клиентам, имеющим паспорта, предоставляется возможность поехать за границу с более длительным отпуском или лучшим размещением.
Распределение по возрасту и решение клиентов отклонить или купить праздничные пакеты
Из графика видно, что больше всего предложений праздничных пакетов покупают молодые клиенты (около 20–35 лет).
- Бизнес-рекомендация, которую мы рекомендуем, — создать кампанию по привлечению новых, более молодых пользователей, чтобы в дальнейшем шансы получить пакетное предложение на отдых были выше.
- Компании также могут предлагать тематические праздничные пакеты, специально разработанные для молодежи и привлекающие внимание молодежи. Например, экстремальные приключенческие туры, творческие кулинарные туры или поездки на музыку и фестивали. Адаптируйте праздничные пакеты с учетом интересов и образа жизни молодого поколения.
Распределение заработной платы и решение клиентов отказаться или купить праздничные пакеты
Из графика видно, что высокооплачиваемые клиенты чаще отказываются от пакетных предложений
отпуска.
- Бизнес-рекомендации, которые мы предлагаем, такие же, как и раньше, а именно создание кампании по привлечению пользователей
молодых клиентов, поскольку у молодых клиентов не такая большая зарплата, как у клиентов старшего возраста.
Моделирование
Метод
Мы обрабатываем этот набор данных методом классификации. Мы хотим обнаружить и отличить, кто является потенциальными клиентами, а кто нет. Этим потенциальным клиентам позже будут предложены новейшие праздничные пакеты, так что есть надежда, что они смогут увеличить доходы компании и оптимизировать маркетинговые расходы.
Метрики
Используемая метрика — точность, поскольку мы хотим уменьшить количество ложных срабатываний (FP). Ложные срабатывания — это ошибки в прогнозировании количества потенциальных клиентов. Некоторым клиентам компания предлагает путевки на отдых, но эти клиенты в конечном итоге не покупают путевку. Это, конечно, неэффективно.
Алгоритм
Реализованные алгоритмы: KNN, дерево решений, случайный лес, AdaBoost и XGBoost. Выбор этого алгоритма обусловлен его нелинейной моделью данных. Затем из этих пяти алгоритмов будет выбран лучший алгоритм модели.
Результаты оценки
Поскольку наилучшие результаты по точности дают модели из случайного леса и XGBoost, мы выбрали эти две модели, чтобы перейти к этапу настройки гиперпараметров, чтобы получить более оптимальные результаты по точности.
Алгоритм модели показывает признаки переобучения, поскольку оценка поезда данных слишком высока, равная 1. Переобучение происходит, когда модель слишком хорошо сопоставляется с данными поезда, поэтому в дальнейшем она не может точно предсказать неизвестные тестовые данные. Поэтому необходимо выполнить настройку гиперпараметров.
Настройка гиперпараметров
Если оставить в стороне результаты оценки, то моделью, которая дает наилучшие результаты, является случайный лес, поскольку разница в значениях тестовых данных и данных обучения в модели случайного леса меньше, чем у XGBoost. Поэтому мы выбрали случайный лес как наиболее подходящую модель.
Важность функции
По результатам моделирования случайного леса, выполненного с настройкой гиперпараметров, приведены наиболее важные основные функции, а именно Passport, ProductPitched и Age.
- Passport: функция Passport, показывающая положительное влияние на ProdTaken. Таким образом, клиенты, имеющие паспорта, чаще всего покупают путевки.
- ProductPitched: функция ProductPitched оказывает негативное влияние на ProdTaken. Таким образом, чем меньше класс упаковки, тем больше сумма покупки.
- Возраст: функция «Возраст» оказывает негативное влияние на ProdTaken. Так, пакеты с большей вероятностью покупают клиенты молодого возрастного диапазона (±20–35 лет).
Бизнес-симуляция
- ТН = 3305 клиент
- НФ = 76 клиентов
- ФП = 26 клиентов
- ТП = 721 клиент
(коэффициент конверсии = товар_взят / товар_взят + товар_не_взят).
До моделирования компания получила коэффициент конверсии 19.
Компания будет предлагать свои новые продукты только на основе рекомендаций по машинному обучению. То есть, если прогнозируется, что покупатель возьмет товар. По результатам машинного обучения ожидается, что 747 клиентов примут предложение. Однако по фактическим данным 721 клиент получил товар, а 26 клиентов отказались.
После моделирования коэффициент конверсии составляет 97%. (коэффициент конверсии = товар_взят / товар_взят + товар_не_взят).