В своей предыдущей статье я рассказал о сегментации клиентов с помощью метода RFM. Я снова расскажу о сегментации клиентов. Но на этот раз я буду использовать алгоритм машинного обучения без присмотра: кластеризация K-средних.

Что такое алгоритм кластеризации K-средних?

K-Means Clustering — это алгоритм обучения без учителя, который используется для решения проблем кластеризации в машинном обучении. Этот алгоритм пытается сгруппировать похожие элементы в виде кластеров. Количество групп представлено K. Здесь K определяет количество предопределенных кластеров, которые необходимо создать в процессе, так как если K=2, будет два кластера.

Как выполнить?

Чтобы выполнить кластеризацию методом K-средних, все точки данных группируются в k кластеров, каждый из которых представлен своими центроидами. Центроид кластера часто является средним значением всех точек данных в этом кластере.

Точки данных в кластере находятся ближе всего к центроидам этого кластера. Существует большое сходство между точками данных в кластере, и точки данных из одного кластера отличаются от точек данных из другого кластера. Сходство назначений кластеров определяется путем вычисления суммы квадратов ошибок (SSE)после сходимости центроидов. SSE определяется как сумма квадратов евклидовых расстояний от каждой точки до ее ближайшего центроида. Поскольку это мера ошибки, цель k-средних — попытаться минимизировать это значение.

Этапы K-Means:

Сегментация клиентов с помощью K-средних

Мы используем набор данных Online Retail, как и в предыдущей статье.

Kaggle: https://www.kaggle.com/code/ahmetokanyilmaz/k-means-and-customer-segmentation

Github: https://github.com/aoyilmaz/DataScience_Projects/blob/main/CRM/K-Means/k-means.py