Система рекомендаций для электронной коммерции с использованием совместной фильтрации

О совместной фильтрации и ALS:

Совместная фильтрация - это процесс выработки рекомендаций или прогнозов относительно интереса пользователя на основе предпочтений и вкусов многих других пользователей. Прогнозы, сделанные с использованием метода совместной работы, специфичны для пользователя, но используют информацию, полученную от множества разных пользователей.

ALS (альтернативный метод наименьших квадратов) - это алгоритм неявных рекомендаций, позволяющий рекомендовать пользователям продукты и категории продуктов. ALS - это итеративный процесс оптимизации, при котором на каждой итерации он пытается приблизиться к факторизованному представлению исходных данных.

Путем случайного присвоения значений в пользовательской матрице (U), которая является матрицей (nxp), и в матрице элементов (V), которая является (pxm) матрица, а затем с помощью итеративного использования наименьших квадратов мы можем получить веса, которые дают наилучшее приближение к R , который будет матрицей (nxm). Подход наименьших квадратов в его основных формах означает подгонку некоторой линии к данным, измерение суммы квадратов расстояний от всех точек до линии и попытку получить оптимальное соответствие, минимизируя это значение.

При альтернативном подходе наименьших квадратов мы используем аналогичный метод, но итеративно чередуем оптимизацию U (матрица пользователя) и исправление V (матрица элементов) и наоборот. Мы делаем это для каждой итерации, чтобы приблизиться к R = U x V, где R - матрица рейтингов, U - матрица пользователей, а V - матрица элементов. В нашем случае, товар - это категория продукта (MCAT). Полный подход основан на исследованиях Ифань Ху, Иегуды Корена, Криса Волински в их статье.

Вычислительным узким местом в этом методе является вычисление матрицы пользователя (U) и матрицы элементов (V). Сначала мы использовали простой математический подход, который занимает много времени, но позже мы использовали неявный метод в cython для решения вычислительных проблем. В ALS мы итеративно вычисляем пользовательские векторы (U_i) и векторы элементов (Y_i), используя следующую формулу:

X_u = ((Y.T*Y + Y.T*(Cu — I) * Y) + λ*I)^-1 * (X.T * Cu * p(u))
Y_m = ((X.T*X + X.T*(Cm — I) * X) + λ*I)^-1 * (Y.T * Cm * p(m))

Где:

X и Y: X - это пользовательские матрицы, а Y - это матрица элементов. В ALS эти матрицы будут обновляться поочередно.
Cu и Cm: доверительные значения для пользователей и mcats.
Лямбда (λ): значение регуляризатора. Обычно используется для уменьшения переобучения в модели машинного обучения (мы используем 0,1).
p (u) и p (m): предпочтение элемента (двоичный). Если известно, предпочтение равно 1, а если неизвестно - ноль.
I (Identity /np.eye): единичная матрица. Квадратная матрица с единицами на диагональных элементах и нулями во всем остальном

Этапы реализации:

Подготовка и очистка данных: первым шагом в каждом проекте машинного обучения является подготовка данных, которая включает в себя (извлечение данных, очистку (удаление ненужных данных и обработку недостающих значений ). Мы подготовили данные для User_ID (в нашем случае продавец), MCAT (категории продуктов), в которых был отображен их продукт, и количество BL, которые они покупают у mcats (включая те mcats, товары которых не были доступны в каталоге продавцов, но в нем они покупают потенциальных клиентов). Пример набора данных:

* Приведенные выше данные представляют собой просто случайно сгенерированную выборку, не содержащую никакой исходной информации о данных. Количество приобретенных лидов может неявно варьироваться от 0 до n.

Создание разреженной матрицы (Пользователь x Элемент / MCAT): После подготовки вышеуказанных данных мы создали разреженную матрицу (R), которая представляет собой комбинацию данных пользователя и MCAT. . Это большая матрица, охватывающая все функции пользователя и MCAT. Код Python для обработки данных и создания разреженной матрицы

Вычисление пользовательских векторов и MCAT-векторов: Пользовательские векторы и MCAT-векторы были рассчитаны с использованием той же формулы, которую мы обсуждали ранее, мы использовали ту же формулу в python (spsolve в пакете scipy linear algebra ) для вычисления этих векторов признаков.

Рекомендация mcats пользователям: После того, как мы создали векторы наших пользователей и MCAT (категории продуктов), мы готовы рекомендовать mcats против пользователя, взяв скалярные произведения векторов пользователей, транспонировав вектор элементов и отсортировав их в порядке убывания оценки рекомендации.

Ускорение процесса и сокращение времени вычислений. Поскольку эти шаги занимают много времени при создании очень многомерной матрицы и файла обучающей модели. Мы использовали Cython-реализацию того же подхода, созданного Беном Фредериксоном. Подробная библиотека этой реализации доступна здесь.

Сохранение файла модели. После того, как мы создали модель, используя подход, нам нужно сохранить модель, чтобы не было необходимости повторно обучать во время тестирования или развертывания. Существует несколько способов, таких как joblib из sklearn.external, pickle и т. Д., для выполнения аналогичных задач. Мы использовали pickle dump для сохранения файла модели и pickle load для дальнейшей загрузки обученной модели в любую систему.

Образцы результатов

Мы запустили эту модель, чтобы получить прогнозируемые mcats относительно пользователя и оценку рекомендации относительно того же самого.

например, продавец, который в настоящее время имеет дело с mcats, такими как счетчик валюты, спотовый биллинговый аппарат, переносные принтеры штрих-кодов, портативный биллинговый аппарат и т. д. Давайте посмотрим, какая модель рекомендует.

Резюме

В этой статье мы обсудили, как построить систему рекомендаций с использованием метода альтернативных наименьших квадратов неявной совместной фильтрации. Мы рассмотрели оптимизацию модели для экономии времени вычислений и использования системы, а также обсудили, как сохранить и перезагрузить нашу модель с помощью pickle.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning