Абстрактный
Для эффективного и успешного развития бизнеса и маркетинга необходимо анализировать данные о клиентах с помощью сегментации клиентов. Сегментация клиентов просто означает группировку клиентов по различным характеристикам. Целью данной статьи является попытка классифицировать клиентов по разным категориям с использованием алгоритма K-средних и анализа основных компонентов. Цель состоит в том, чтобы помочь организациям понять, как понимать своих клиентов. Зная различия между группами клиентов, легче принимать стратегические решения относительно роста продукта и маркетинга, а также ориентироваться на определенные группы клиентов с продуктами, которые будут соответствовать их потенциальным потребностям и желаниям.
Раздел 1: Введение
Анализ личности клиента — это подробный набор данных или анализ целевых клиентов компании. Анализ собирает метаданные о клиентах, такие как их возраст, годовой доход, семейное положение, уровень образования и многое другое. В реальном мире этот анализ помогает компаниям лучше понять своих клиентов и облегчает продвижение на рынок и модификацию своих продуктов в соответствии с конкретным поведением и потребностями различных клиентов. Это позволяет компаниям получать максимальную прибыль от рекламы определенных продуктов нужным типам клиентов. Используя анализ клиентов, компания может продвигать конкретный проект, в котором клиент особенно заинтересован, на основе их личной информации и недавних поисков.
Наиболее важными частями анализа клиентов будет определение того, кто является целевыми клиентами и каковы их общие потребности и желания. Некоторые другие важные части будут заключаться в определении и сборе конкретных метаданных, которые будут важны для определения типа клиентов, таких как доход, образование, семейное положение и т. д. Этот набор данных содержит метаданные о многих людях, таких как год их рождения, доход, семейное положение, размер семьи, а также сколько они потратили на определенные продукты. Он также содержит информацию о количестве ежемесячных покупок или о том, сколько покупок было совершено в магазинах или на веб-сайте. Используя этот набор данных, мы будем очищать и группировать данные, а затем анализировать и создавать наши закономерности и тенденции.
В этой работе мы проведем вас через анализ личности клиента с использованием алгоритма k-средних. В разделе 2 мы обсудим литературу, связанную с этой работой. В разделе 3 мы обсудим методологии, которые мы используем для наших экспериментов. В разделе 4 мы опишем наш эксперимент. В разделе 5 мы обсудим наши результаты. В разделе 6 мы завершаем эту статью.
Раздел 2: Связанные работы
В этом разделе мы обсудим различные работы, связанные с кластеризацией данных клиентов.
Раджагопал рассказывает об использовании методов классификации и интеллектуального анализа данных в бизнес-индустрии и о том, насколько они полезны при кластеризации и анализе данных. Целью этой статьи является выявление клиентов с высокой прибылью, высокой ценностью и низким уровнем риска путем группирования клиентов. На первом этапе Rajagopal очищает данные и разрабатывает шаблоны посредством демографической кластеризации с использованием IBM-I-Miner. На заключительном этапе Rajagopal профилирует данные и разрабатывает кластеры, а также идентифицирует ценных клиентов с низким уровнем риска.
Кашван и Велу рассказывают о методе кластеризации K-средних и инструменте SPSS и используют оба метода для разработки системы реального времени и онлайн-системы для прогнозирования продаж в сезонных циклах. Цель статьи проходит через разработку и успешные результаты модели. Модель получает входные данные из записей данных о продажах за несколько месяцев и делится на четыре аналогичные группы. Они использовали анализ ANOVA для проверки стабильности кластеров и обнаружили, что он обладает высокой точностью.
Музаммилл рассказывает об алгоритме кластеризации K-средних и работе, стоящей за ним, а также о том, как предприятия и компании используют свои исторические данные для изучения поведения своих клиентов и понимания закономерностей и тенденций. Он использует формулу евклидова расстояния, чтобы понять, как перемещаются кластеры и центроиды внутри кластера.
Трипати, Бхардвадж и Пуваммал рассказывают о сегментации клиентов и ее значении в управлении взаимоотношениями с клиентами как маркетинговой стратегии для построения хороших отношений с клиентами. В документе также исследуются различные модели и достоинства и недостатки нескольких методов кластеризации для сегментации клиентов, таких как K-средние и иерархическая кластеризация, а также результаты их использования.
Талкар объясняет сегментацию клиентов как процесс разделения клиентов на группы, в каждой из которых есть люди со схожими характеристиками. Характеристики будут иметь отношение к маркетингу, такие как пол, возраст, интересы и различные привычки в отношении расходов. С помощью этого процесса сегментация может определить подходящие продукты, которые будут ассоциироваться с каждой группой людей, поддерживать и развивать хорошие бизнес-решения и успешно управлять спросом и предложением продукта, ориентируясь на его потенциальный сегмент клиентов и прогнозируя любой отказ клиентов. Цель статьи — продемонстрировать процесс алгоритма кластеризации K-средних для объединения клиентов в определенные группы, каждая из которых имеет схожие характеристики.
Дуллаган и Розаки говорят о том, насколько полезна модель бизнес-аналитики в телекоммуникационной отрасли для достижения минимальных затрат на маркетинг и оптимального уровня оттока клиентов. Далее в документе показано, как можно использовать приложения и методы машинного обучения и интеллектуального анализа данных для обеспечения эффективных маркетинговых стратегий с использованием сегментации клиентов. Целью статьи является анализ алгоритма C.5 с байесовским моделированием для сегментации клиентов электросвязи на категории с профилированием поведения.
Патанкар, Диксит, Бхамаре, Дарпел и Райна обсуждают, как сегментация клиентов разделяет клиентов на основе их поведенческих характеристик, таких как расходы и доход, а затем использует их для создания эффективных маркетинговых стратегий. Цель этой статьи — показать, как алгоритм K-средних используется для разделения схожих поведенческих характеристик на несколько кластеров. Эти кластеры помогут компании рекламировать определенный контент, ориентированный на потребности и желания отдельных клиентов.
Смеряну, Руксанда и Бадеа говорят о важности сегментации и классификации клиентов в частном банковском секторе. Это позволяет развивать прибыльный бизнес и позволяет финансовым учреждениям представлять свои продукты и услуги многим клиентам. Цель статьи состояла в том, чтобы изучить и использовать 2 метода машинного обучения, такие как нейронные сети и машины опорных векторов, а затем описать, как каждый метод работает в процессе сегментации.
Koca исследует влияние маркетинга на основе данных на потребительские сегменты и маркетинговые стратегии сегмента. Цель статьи состоит в том, чтобы классифицировать различные виды поведения потребителей для разработки определенных стратегий и того, как это можно сделать аналитически. Koca использует набор данных за 2018 год, который содержит несколько миллионов строк метаданных клиентов пиццерии в Турции. Затем Koca использует алгоритм K-Means, алгоритм Gaussian Mixture и алгоритм DBSCAN для кластеризации и сегментации клиентов, а затем использует программу Python для выполнения регрессионного анализа. В результате 91 % данных относится к кластеру, а остальные 9 % классифицируются как выбросы. Кока указывает, что алгоритмы K-Means и Gaussian Mixture дали лучшие результаты, в то время как алгоритм DBSCAN не подходил для этого набора данных. В заключение, документ охватывает все процессы с интеллектуальным анализом данных и множественным регрессионным анализом для создания кластеров клиентов, а затем для создания будущих моделей поведения, которые затем предлагают аналитикам и маркетологам образцовую модель и правильную методологию стратегии.
Раздел 3: Методологии
Чтобы поэкспериментировать с попытками извлечь ценную информацию о каждом покупателе и попытаться создать кластеры различных типов клиентов, мы используем коэффициент корреляции, анализ основных компонентов и k-средних. Чтобы определить релевантность определенных атрибутов в наборе данных, мы используем коэффициент корреляции. Из-за размера размерности набора данных мы используем принцип; компонентный анализ. Чтобы сгруппировать клиентов в разные группы, мы используем кластеризацию методом k-средних. Ниже мы указываем различные методы, которые мы используем.
Коэффициент корреляции. Коэффициент корреляции измеряет силу связи между двумя переменными. Значения коэффициента корреляции варьируются от -1 (сильная отрицательная связь) до +1 (сильная положительная связь). Значения, равные или близкие к нулю, означают слабую линейную зависимость или ее отсутствие.
Анализ основных компонентов (PCA) — это статистическая процедура, позволяющая обобщать информацию, содержащуюся в больших таблицах данных, с использованием меньшего набора «суммарных индексов», которые легче визуализировать.
K-Means — это алгоритм обучения без учителя. Метод K-средних направлен на поиск дискретных группировок в данных, в которых члены группы максимально похожи и максимально отличаются от членов других групп.
Раздел 4: Эксперимент
Анализ личности клиента — это подробный анализ идеальных клиентов компании.
Это помогает бизнесу лучше понять своих клиентов и облегчает им модификацию продуктов в соответствии с конкретными потребностями, поведением и проблемами различных типов клиентов. Например, вместо того, чтобы компания тратила деньги на продвижение продукта для всех своих клиентов в своей базе данных, компания x может проанализировать, какой сегмент клиентов с наибольшей вероятностью купит, и продать его только своим клиентам. Чтобы выполнить кластеризацию по суммированию различных сегментов клиентов, мы используем набор данных Cluster Personality Analysis от Kaggle.
Набор данных
Набор данных анализа личности клиента состоит из 27 атрибутов. Ниже мы определяем атрибуты.
Основываясь на этих атрибутах, мы используем год рождения клиентов, чтобы получить их возраст. Мы используем переменные «образование», «боевой_статус» и «доход». Для образования число сопоставляется с различными типами образования. 0 означает «Выпускной». 1 означает «Доктор философии». 2 означает «Магистр». 3 означает «Базовый». Четыре означает «2-й цикл». Для боевого_статуса 0 означает одиночное, а 1 означает взятое. Из-за большого количества переменных мы пытаемся сократить количество переменных, которые у нас есть. Мы создаем новую переменную под названием «количество детей», которая объединяет количество детей и подростков в доме клиента. Мы создали новую переменную под названием «Размер семьи», которая объединяет общее количество детей в домохозяйстве плюс наличие других значимых детей. мы создаем переменную под названием расходы, которая представляет собой сумму, потраченную на различные продукты. Мы также создаем переменную с именем Purchases, которая представляет собой количество совершенных покупок. Мы создаем переменную с именем AcceptedCampaigns, которая предоставляет информацию о том, принял ли клиент предложение по кампании. Мы создаем переменную с именем «Клиент для», которая дает период, в течение которого человек был клиентом. Здесь у нас должно быть 11 рисунков, показывающих распределение каждой переменной, которую мы будем рассматривать.
Раздел 5: Результаты эксперимента
Основываясь на методе локтя и силуэта, мы можем выделить 4 кластера.
Эта круговая диаграмма показывает, что 26 % клиентов в наборе данных относятся к кластеру 1, 46 % клиентов — к кластеру 2, 6 % клиентов — к кластеру 3, а оставшиеся 21 % — к кластеру 4.
Эта гистограмма показывает примерно 595 клиентов в кластере 1, 1000 клиентов в кластере 2, 100 клиентов в кластере 3 и 500 клиентов в кластере 4.
Образование и семейное положение
В результатах мы заметили, что независимо от группы клиент, скорее всего, находится в отношениях. Кроме того, независимо от группы, наиболее частым типом обучения является «Выпускной».
Подсчет детей
Основываясь на блочной диаграмме, мы замечаем, что клиенты в кластерах 1 и 2 имеют одинаковое количество детей на домохозяйство, за исключением клиентов в кластерах 0 и 3.
Размер семьи
Максимальный размер семьи, независимо от кластера, составляет четыре человека. Кластеры 2 и 3 имеют одинаковые размеры семей. В то время как кластер один имеет самый низкий размер семьи. Скорее всего, клиенты в кластере 1 одиночные. Кластер 0, данные более разбросаны. Размер семьи для клиентов в кластере 0 кажется больше.
Возраст
На основе групп 0, 1 и 2 средний возраст составляет от 53 до 55 лет. В то время как средний возраст для группы 3 составляет 47 лет. Группы 0, 1, 2 и 3 имеют аналогичный минимальный возраст. Но группа 3, по-видимому, имеет более низкий максимальный возраст, чем группы 0, 1 и 2.
Клиент для
Основываясь на блочной диаграмме, мы замечаем, что большинство людей были клиентами в течение одного и того же времени.
Давность
Независимо от того, к какой группе относится клиент, время, прошедшее с момента его последней покупки, показывает очень небольшую разницу между группами и не имеет никакого значения для их происхождения.
Доход
Лица из кластера 3 имеют более низкий доход. Средний доход для кластера 3 составляет 23 381. В то время как люди в кластерах 0, 1 и 2 имеют средний доход более 40 000. Лица в кластере 1 имеют самый высокий доход, так как средний доход составляет 82 717. В кластере 1 некоторые люди зарабатывают почти 160 000 долларов. Скорее всего, лица из первого кластера более финансово устойчивы. В то время как люди в кластере 3, кажется, испытывают большие финансовые трудности по сравнению с другими кластерами.
Покупки
Основываясь на блочной диаграмме, мы замечаем, что клиенты в кластере 1 и кластере 3 совершили больше всего покупок. Максимальное количество покупок в кластере 1 составило 44, а в кластере 3 — 43. В кластере 3 наименьшее среднее количество покупок. В среднем около 7,4. В то время как среднее количество покупок для кластеров 1 и 2 составляет примерно 20. Среднее количество покупок для кластера 0 составляет 11,23.
Покупка
Процент расходов на товары первой необходимости, такие как фрукты, рыба и сладости, очень одинаков во всех сегментах. Расходы на мясо варьируются в зависимости от сегмента. Люди в кластере 0 тратят на золото больше, чем в других сегментах. Люди из кластера 2 тратят больше на вино. Расходы на кластер 1 отключены, и это то, что нам нужно изучить для будущей работы.
Расходы
Данные о расходах в каждом кластере напрямую соответствуют данным о доходах. Поскольку клиенты в кластере 1, по-видимому, имеют более высокие доходы, чем клиенты в других кластерах, как видно из этой диаграммы, клиенты в кластере 1 также тратят больше всего со средним значением 1421. Аналогично, клиенты в кластере 3 с более низкими доходами, поэтому тратьте меньше всего со средним значением 76.
Принятые кампании
Клиенты из кластера 1, которые тратили больше всего, также принимали больше всего предложений. Покупатели в кластере 2 также кажутся стабильными в финансовом отношении, поскольку некоторые из них принимают предложения, аналогичные предложениям в кластере 1. Согласно блочной диаграмме, клиенты в кластерах 0, 2 и 3 очень редко принимают предложения.
Раздел 6: Будущая работа
Для этого конкретного набора данных могут работать многие альтернативные модели кластеризации.
Мы хотели бы поэкспериментировать с DSCAN, Gaussian Mixture Model, BIRCH и алгоритмом Optics.
Алгоритм кластеризации DBSCAN означает пространственную кластеризацию шумовых приложений на основе плотности. Этот алгоритм хорошо работает с данными необычной формы и очень хорошо работает при поиске выбросов между областями с низкой плотностью и кластерами с высокой плотностью.
Алгоритм модели гауссовой смеси работает очень хорошо, поскольку он будет использовать несколько распределений Гаусса для соответствия данным странной формы и не потребует данных круглой формы.
Алгоритм BIRCH, также известный как алгоритм сбалансированного итеративного сокращения и кластеризации с использованием иерархий, также может работать в качестве альтернативы, поскольку он разбивает данные на небольшие сводки и отлично работает с числовыми значениями данных.
Алгоритм OPTICS, известный как упорядочение точек для определения структуры кластеризации, работает очень хорошо, поскольку он похож на DBSCAN, но также может находить кластеры в данных, которые различаются по плотности.
Раздел 7: Заключение
В этой работе мы исследовали набор данных анализа личности клиента. Набор данных содержит метаданные о клиентах неизвестной компании. На основе метаданных клиента мы попытались сгруппировать похожих клиентов с помощью алгоритма K-Means. В результате кластерные группы чрезвычайно разнообразны. В результате разнообразия в данных, относящихся к каждому кластеру, существует несколько вариаций и взаимосвязанных закономерностей. Кажется, что люди в кластере 1 являются самыми богатыми из-за их расходов, покупок и доходов. В кластерах 0, 2 и 3 эти люди происходят из разных экономических слоев. Основываясь на этих данных, неразумно обслуживать всех клиентов одной и той же моделью продукта. Универсальный подход к бизнесу, как правило, приводит к меньшему вовлечению, меньшему количеству продаж и т. д. Решением этой проблемы является сегментация клиентов. Поиск оптимального количества уникальных групп клиентов поможет понять, чем отличаются клиенты, и поможет компаниям лучше понять своих потребителей. В целом, сегментация клиентов — это то, как компании ориентируются и продают свои продукты для разных демографических групп, чтобы увеличить продажи и прибыль.
Библиография
Трипати, Шрея и Бхардвадж, Адитья и Эсваран, Пуваммал. (2018). Подходы к кластеризации в сегментации клиентов. Международный журнал техники и технологий. 7. 802. 10.14419/ijet.v7i3.12.16505.
Кашван, К.Р. и Чандер Велу. «Сегментация клиентов с использованием методов кластеризации и интеллектуального анализа данных». Международный журнал компьютерной теории и инженерии (2013 г.): 856–861.
Раджагопал, доктор «Кластеризация данных клиентов с использованием метода интеллектуального анализа данных». препринт arXiv arXiv:1112.2663 (2011 г.).
Музаммил, Мохаммед. Понимание кластеризации K-средних с сегментацией клиентов. Analytics Vidhya, 27 июля 2021 г., https://www.analyticsvidhya.com/blog/2021/07/understanding-k-means-clustering-using-customer-segmentation/.
Смеряну И., Руксанда Г. и Бадеа Л. М. (12 ноября 2012 г.). СЕГМЕНТАЦИЯ КЛИЕНТОВ В ЧАСТНОМ БАНКОВСКОМ СЕКТОРЕ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ. Бухарест, Румыния; Журнал экономики бизнеса и управления.
Талкар, В. Р. (10 декабря 2021 г.). Сегментация клиентов с помощью машинного обучения. Международный журнал научных исследований в области компьютерных наук, техники и информационных технологий.
Дуллаган, К., и Розаки, Э. (2017, 1 января). Анализ сегментации мобильных клиентов. Дублин, Ирландия; Международный журнал процесса интеллектуального анализа данных и управления знаниями.
Кока, О.Б. (nd). ОПРЕДЕЛЕНИЕ СЕГМЕНТАЦИИ КЛИЕНТОВ И МОДЕЛЕЙ ПОВЕДЕНИЯ С ПОМОЩЬЮ МАРКЕТИНГА БАЗ ДАННЫХ И МАШИННОГО ОБУЧЕНИЯ.