Розничная аналитика: анализ данных для розничной торговли
Retail Industry занимается продажей товаров и услуг покупателям. Имея много доступной истории покупок потребителей, мы можем применять аналитику данных для правильного прогнозирования потребностей в запасах, движения цепочки поставок, размещения товаров, отношений между товарами для рекомендации и т. Д., Что соответствует термину Retail Analytics.
Одна из важных частей Retail Analytics - найти взаимосвязь между такими товарами, как хлеб хорошо сочетается с маслом, а зубная паста хорошо сочетается с зубной щеткой. Заменители - это альтернативные товары разных производителей, используемые для той же цели. Примерами заменителей могут быть чай и кофе или зубная паста разных марок (Pepsodent и Colgate). Эти предметы по сути являются конкурентами друг друга. С другой стороны, дополнения - это предметы, которые покупаются и используются вместе. Эти товары помогают увеличить продажи друг друга в корзине клиентов. Примерами дополнений могут быть «Хлеб и масло», «Авиабилеты и такси» и т. Д.
Знание таких отношений помогает принимать решения на основе данных. Возможные преимущества после определения заменителей и дополнений могут быть:
- Размещение товаров в магазинах. Дополнительные предметы можно разместить вместе / ближе.
- На веб-сайте электронной коммерции каждый раз, когда покупается товар, рекомендуется рекомендовать дополнительные товары, поскольку они покупаются вместе.
- О недоступности товара, рекомендуя его замену.
- Предоставление комбо-предложений по предмету и его дополнениям, чтобы поднять продажи или очистить складские запасы.
- Каждый раз, когда происходит скачок / падение цены на товар, отслеживание воздействия на продажи / спрос на его заменитель. Это помогает принимать осознанные и спланированные ценовые решения.
Association Rule Mining - это ветвь методов интеллектуального анализа данных, которая вводит такие понятия, как Поддержка, Уверенность, Лифт, Убеждение, Априорный алгоритм, которые помогают найти такую взаимосвязь. В этом сообщении в блоге я намерен предложить альтернативный и интуитивно понятный способ поиска взаимосвязей между элементами. Таким образом, не требуется никаких предварительных знаний, поскольку это новый способ, и для него нет предварительных условий.
Чтобы продемонстрировать работу и эффективность алгоритма, запустим предложенную схему на Kaggle's Instacart Dataset. Используемый код можно скачать отсюда.
В поисках дополнений
Дополнения - это предметы «X» и «Y», которые обычно покупаются вместе. Одна из стратегий поиска таких пар товаров может заключаться в определении отношения количества покупок «X» и «Y» вместе к количеству покупок «X» и «Y» среди всех клиентов. корзины.
Коэффициент дополнения = (X ∩ Y) / (X ⋃ Y)
Чтобы элементы «X» и «Y» дополняли друг друга, коэффициент дополнения должен быть как можно более высоким. Его верхний предел равен 1. Во всех парах предметов мы найдем пары предметов с высоким коэффициентом комплимента.
Также из Теории множеств мы знаем,
Мы найдем дополнения для разных отделов из наборов данных Instacart. Давайте сначала посмотрим на набор данных.
Всего в этих заказах 3,2 миллиона заказов и 32,4 миллиона единиц товара.
Всего 49,6 тыс. Различных элементов.
Всего существует 21 отдел.
Затем мы выполним перекрестное объединение таблицы заказов, чтобы узнать, сколько раз товары покупаются вместе. Мы также объединяем его с таблицами продуктов и отделов, чтобы найти подробную информацию о продуктах. Окончательная таблица вывода при сортировке в порядке убывания отношения дополнения выглядит так:
Давайте посмотрим, что алгоритм предлагает в качестве дополнений:
Результаты выглядят действительно хорошо. Имеет смысл покупать прозрачный подсластитель Stevia Clear Sweetener с подщелачиваемой водой, поскольку несколько капель подсластителя при смешивании с водой придают ему приятный вкус.
Точно так же люди предпочитают пиццу с энергетическим напитком и лаваш или картофельные чипсы с хумусом или луковыми соусами.
Поиск замены
Заменители - это альтернативные товары разных производителей, используемые для той же цели. Предметы «X» и «Y» являются заменителями, если они являются прямыми конкурентами друг друга и люди обычно покупают один из них. В отличие от дополнений, повышение или снижение цен на товар может повлиять на продажи его заменителей противоположным образом.
Коэффициент замены = (X ∩ Y) / минимум (X, Y)
Для двух позиций, «X» и «Y», которые должны быть заменяющими, мы предпочитаем, чтобы коэффициент замены был как можно более низким.
Почему в формуле есть функция Minimum?
Некоторые продукты, такие как бананы или яблоки, могут быть очень популярными и входить во многие корзины. Функция минимума помогает устранить такое смещение и приводит сравнение к справедливому стандарту.
Мы найдем замену в том же отделе из наборов данных Instacart. Мы выполним перекрестное объединение таблицы заказов, чтобы определить, сколько раз товары покупаются вместе, чем товары, купленные отдельно. Мы также объединяем его с таблицами продуктов и отделов, чтобы найти подробную информацию о продуктах. Окончательная таблица вывода при сортировке в порядке возрастания отношения дополнения выглядит так:
Результаты выглядят нормально. Имеет смысл, что люди в основном покупают большие яйца на открытом воздухе или большие коричневые яйца из органических продуктов.
Точно так же люди покупают 2% обезжиренное молоко или органическое молоко с витамином D или обезжиренное молоко.
Заключение
С помощью этого сообщения в блоге мы получили альтернативный и интуитивно понятный способ поиска заменителей и дополнений. Эти простые показатели дали мне лучшие результаты, чем поиск поддержки, уверенности, подъема, убеждения или других алгоритмов майнинга правил ассоциации. Кроме того, эти метрики очень интуитивно понятны и просты в масштабировании. Результаты подтверждают правильность этих показателей. Набор данных можно загрузить из Набор данных Kaggle's Instacart. Используемый код можно скачать отсюда. Обязательно посмотрите мой другой интересный пост о Retail Analytics здесь.
Мой канал Youtube для получения дополнительной информации:
Об авторе:
Абхишек Мунголи - опытный специалист по данным с опытом работы в области машинного обучения и компьютерных наук, охватывающий различные области и способ решения проблем. Отлично разбирался в различных задачах машинного обучения и оптимизации, характерных для розничной торговли. С энтузиазмом относятся к масштабному внедрению моделей машинного обучения и обмену знаниями через блоги, выступления, встречи, публикации и т. Д.
Мой мотив всегда состоит в том, чтобы упростить самые сложные вещи до их наиболее упрощенной версии. Я люблю решение проблем, науку о данных, разработку продуктов и масштабируемые решения. Я люблю исследовать новые места и заниматься спортом в свободное время. Подпишитесь на меня в Medium, Linkedin или Instagram и просмотрите мои предыдущие сообщения. Приветствую отзывы и конструктивную критику. Некоторые из моих блогов -
- Сила статистики определяет победителя
- Разложение временных рядов простым и интуитивно понятным способом
- Какой выбрать? Вычисления на GPU против Apache Spark для масштабирования вашей следующей большой задачи
- Как вычисления на GPU буквально спасли меня на работе?
- Теория информации и расхождение KL Часть I и Часть II
- Обработка Википедии с помощью Apache Spark для создания горячих наборов данных
- Нечеткая кластеризация на основе полууправляемого вложения
- Сравните, какая модель машинного обучения работает лучше