Поведение онлайн-покупателя

Введение

1. В этой статье мы проанализируем поведение онлайн-покупателя, чтобы предсказать покупательское намерение посетителя, которое приведет к получению дохода или к его отсутствию.

2. Мы изучим различные факторы и их взаимосвязь с получением дохода.

3. Мы используем неконтролируемое обучение для уменьшения размеров и, таким образом, выясняем, сколько кластеров могут быть сгруппированы факторизованные переменные аналитики Google и страниц продуктов.

4. Мы использовали обучение с учителем (линейная регрессия), заменив показатель отказов в качестве предиктора получения дохода, и увидели, насколько ключевые факторы, такие как выходные, тип посетителя, месяц и особый день, влияют на доход.

5. Мы использовали другое обучение с учителем (логистическая регрессия), чтобы увидеть влияние всех переменных на получение дохода и убедиться, что все переменные действительно значимы.

Описание данных

Этот набор данных содержит 18 переменных, выделенных ниже.

Страницы веб-сайта электронной коммерции разделены на административные, информационные и связанные с продуктом страницы, представляющие собой ряд различных типов страниц, посещаемых посетителем в этом сеансе.

1. Административная страница: относится к первой странице веб-сайта, на которой находится каталог. (целочисленное значение)

2. Информационная страница: эта страница идет сразу после административной и содержит информацию обо всех продуктах, доступных на веб-сайте. (целочисленное значение)

3. Продукт Связанный: информационная страница затем переходит к отдельным продуктам, которые входят в переменную, связанную с продуктом. Это демонстрирует более подробное описание одного продукта, который нужно добавить в корзину для покупки. (целочисленное значение)

Эти три переменные проявляются своей продолжительностью, которая представляет собой общее время, проведенное в каждой из этих категорий страниц. Значения этих функций извлекаются из информации URL-адресов страниц, посещенных пользователем, и обновляются в режиме реального времени, когда пользователь выполняет действие, например, переходит с одной страницы на другую.

4. Административная продолжительность:(числовая переменная)

5. Информационная продолжительность: (числовая переменная)

6. Продолжительность, связанная с продуктом: (числовая переменная)

Далее идут функции, представляющие показатели, измеряемые «Google Analytics» для каждой страницы на сайте электронной коммерции.

7. Показатель отказов Показатель отказов. Значение параметра «Показатель отказов» для веб-страницы относится к проценту посетителей, которые заходят на сайт с этой страницы, а затем покидают его (« bounce»), не инициируя никаких других запросов к серверу аналитики во время этого сеанса. (Числовая переменная)

8. Коэффициент выхода: значение функции «Коэффициент выхода» для конкретной веб-страницы рассчитывается как для всех просмотров страницы, процент, который был последним в сеансе. (Числовая переменная)

9. Ценность страницы. Функция «Ценность страницы» представляет собой среднюю ценность веб-страницы, которую пользователь посетил до завершения транзакции электронной торговли. (Числовая переменная)

Далее идут переменные, которые, по прогнозам, будут влиять на доходы.

10. Особый День. Эта функция указывает на близость времени посещения сайта к определенному особому дню (например, Дню матери). Значение определяется продолжительностью между датой заказа и датой поставки. Например, для дня Валентины это значение принимает ненулевое значение между 2 и 12 февраля, ноль до и после этой даты, если только она не близка к другому особому дню, и максимальное значение 1 8 февраля. (Числовая переменная)

11. Месяц: (категориальная переменная)

12. Выходные: (двоичная переменная)

Кроме того, он включает категориальные/бинарные переменные, которые могут указать тип пользователя.

13. Операционная система: (категориальная переменная)

14. Регион: (категориальная переменная)

15. Тип трафика: (категориальная переменная)

16. Тип посетителя:указывает, является ли посетитель вернувшимся, новым или другим. (категориальная переменная)

17. Браузер: (категориальная переменная)

Наконец, переменная, для которой проводится анализ:

18. Доход. Это бинарная переменная, указывающая 1/0 для транзакций, состоявшихся или нет. (Двоичная переменная)

Корреляция между числовыми переменными:

График показывает, что, как и ожидалось, исходные переменные, то есть типы страниц и их продолжительность, сильно коррелируют друг с другом. Кроме того, мы видим, что коэффициент выхода и показатель отказов также демонстрируют огромную корреляцию.

Понимание взаимосвязи между категориальными переменными и доходом

Неконтролируемая модель

Как мы видели ранее, существует огромная корреляция между переменными разнообразия страниц и всей продолжительностью. А также между коэффициентом выхода, показателем отказов и ценностью страницы. Таким образом, используя PCA, мы отдельно учитывали две комбинации коррелированных переменных и извлекали PC1 как Исследовательскую нагрузку (комбинацию начальных типов переменных страниц) и Время сеанса (выход, отказ и т. д.).

Как мы видим, можно сформировать 3 кластера. Также не существует высокой исследовательской нагрузки и большого времени сеанса.

Линейная модель с учителем

Поскольку мы знаем, что показатель отказов считается основным предиктором дохода, давайте возьмем его в качестве целевой переменной для построения линейной модели, чтобы увидеть, насколько сильно влияют такие переменные, как особый день, квартал, тип посетителя и выходные. показатель отказов.

Это показывает, что все переменные, взятые в этой линейной модели, значимы, за исключением квартала 2, где не наблюдается большой активности. В дополнение к этому мы также можем видеть, что:

1. Разница в среднем увеличении показателя отказов между вернувшимися и новыми посетителями составляет 0,018, или, другими словами, вернувшиеся посетители увеличат средний показатель отказов на 0,018 единиц больше, чем вернувшиеся. Указание новых типов посетителей лучше для получения дохода.

2. Далее, Четверть 2, которая незначительна. Другие четверти (3,4) хотя и имеют отрицательный наклон, но добавление к нему точки пересечения делает их положительными. Следовательно, средний показатель отказов увеличивается.

3. Точно так же выходной также увеличит показатель отказов, но среднее увеличение показателя отказов между выходными и не выходными будет отрицательным. Следовательно, будние дни лучше подходят для получения дохода.

4. Особые дни также увеличивают средний показатель отказов на 0,01.

Использование логистической регрессии для всего набора данных:

Интерпретация:

· R удалил из модели переменные, которые не были очень значимыми. Хотя с учетом p-значений выходные-1 и регион 9 также не очень значимы при уровне значимости 5%.

· Коэффициенты наклона указывают на то, что вероятность получения доходов в выходные дни и в регионе 9 составляет 0,217.

· Вероятность исследовательского коэффициента 0,23

· Коэффициент вероятности сеанса равен 0,04.

· Вероятность особого дня 0,066

Учитывая, что выходные и регион не имеют значения, мой вывод будет заключаться в том, что фактор исследования, фактор сеанса и особый день являются лучшими переменными, которые следует учитывать. Другие категориальные переменные сталкиваются с дисбалансом классов, который необходимо исправить.