Сехай Чавла, Таро Спириг, Лотос Ся, Хизер Лю

Эта статья была подготовлена ​​в рамках финального проекта Гарвардского курса AC297R Spring 2022.

Партнеры по модели: Джейкоб Миллер, Гамильтон Ноэль

Научный сотрудник: Виктор Аврам

Инструктор: Крис Таннер

1. Мотивация и описание проблемы

Электронная коммерция завоевывает господствующее положение на мировом розничном рынке. Из-за отсутствия личного взаимодействия на виртуальных торговых площадках отзывы клиентов становятся одним из наиболее важных каналов для общения клиентов друг с другом и предоставления отзывов розничным продавцам.

С одной стороны, клиенты полагаются на отзывы прошлых клиентов, чтобы оценить качество продукта и принять соответствующее решение о покупке. С другой стороны, понимание отзывов клиентов также имеет решающее значение для успеха интернет-магазинов. Например, розничные продавцы могут улучшить качество продукции или изменить маркетинговую стратегию, основываясь на предпочтениях и предложениях покупателей. Розничные продавцы также могут полагаться на мнение обзоров, чтобы прогнозировать объемы продаж в ближайшем будущем и определять количество запасов, которые необходимо приобрести.

В этом проекте мы работаем с Pattern, ускорителем электронной коммерции, чтобы создать модель обработки естественного языка (NLP) на основе отзывов клиентов, чтобы предсказать будущую производительность продукта. В частности, нас интересуют как краткосрочные прогнозы (например, от месяца к месяцу), так и долгосрочные прогнозы (например, успех недавно запущенного продукта через год). С одной стороны, краткосрочные прогнозы могут помочь розничным торговцам прогнозировать продажи и управлять своими запасами. С другой стороны, долгосрочные прогнозы информируют розничных продавцов о том, стоит ли продолжать выпускать новый продукт или как они могут изменить продукт, чтобы повысить его успех.

Далее мы разделяем каждый из двух горизонтов прогнозирования на две подзадачи.

  1. Мы стремимся точно прогнозировать будущие продажи продуктов (как краткосрочные, так и долгосрочные) на основе отзывов клиентов. В частности, мы хотели бы оценить эффективность использования текстов отзывов в дополнение к метаданным отзывов в прогнозировании продаж.
  2. Получите представление о том, какие ключевые слова или темы предсказывают популярные продукты

На высоком уровне краткосрочный прогноз заключается в прогнозировании медианных продаж в следующем месяце с использованием исторических данных, таких как прошлые продажи и исторические обзоры. Долгосрочный прогноз заключается в том, чтобы предсказать, попадет ли продукт когда-либо в топ-3000 BSR в течение одного года после его запуска, используя данные за первые три месяца после запуска продукта.

Для подзадачи 1 мы реализуем отдельные модели, используя только метаданные отзывов и используя только тексты отзывов. Мы сравниваем производительность этих двух классов моделей, чтобы получить представление о преимуществах каждого класса. Мы также строим ансамблевую модель из двух классов моделей и оцениваем количество улучшений, если таковые имеются, от использования текстов обзора в дополнение к метаданным обзора.

Для подзадачи 2 мы надеемся создать словарь ключевых слов или фраз, которые предсказывают эффективность продаж, интуитивно понятны и информативны для интернет-магазинов с точки зрения будущей стратегии продаж.

2. Наборы данных и ресурсы

2.1. Наборы данных

Для этого проекта мы используем два основных набора данных — набор данных истории Best Seller Rank (BSR) и набор данных истории обзора.

Набор данных истории BSR представляет собой историю рейтинга бестселлеров продуктов Amazon в категории «Витамины и пищевые добавки» за период с июля 2017 года по июль 2021 года. Данные собираются сторонним поставщиком услуг Keepa. BSR — это оценка эффективности, рассчитываемая Amazon с использованием текущего объема продаж продукта, а также исторических продаж продукта. Ранг 1 в категории — это самый продаваемый продукт, 2 — второй по популярности и т. д. Этот набор данных содержит около 29 миллионов строк и охватывает 9 991 уникальный продукт. Поля набора данных включают ASIN (уникальный идентификатор продукта), рейтинг бестселлера, среднюю цену продукта за последние 180 дней и дату наблюдения. На рис. 1 показан пример изменения BSR во времени.

Набор данных истории отзывов представляет собой набор отзывов Amazon о продуктах в категории Amazon Vitamins and Dietary Supplements, которые продаются на момент очистки. Самый ранний обзор относится к январю 2004 г., а последний обзор в этом наборе данных — к июлю 2021 г. На 9 977 уникальных продуктов имеется около 5 миллионов отзывов. Поля набора данных включают ASIN, название продукта, название отзыва, рейтинг отзыва, дату отзыва, отзывы за отзыв, количество комментариев отзыва и двоичное поле, указывающее, подтверждена ли покупка (отзыв «Amazon Verified Purchase» означает, что Amazon подтвердил, что человек при написании отзыва купил товар на Amazon и не получил товар с большой скидкой). Два набора данных охватывают 9 958 товаров.

Отметим два основных ограничения наборов данных. Во-первых, временной интервал неодинаков для разных продуктов. Keepa, сторонний поставщик данных, уделяет больше внимания популярным продуктам на Amazon, очищая и обновляя их рейтинговую информацию чаще, чем непопулярные продукты. Таким образом, популярные продукты с большей вероятностью будут иметь частую и непрерывную информацию о BSR в нашем наборе данных, чем непопулярные продукты, которые, как правило, имеют длительные периоды отсутствия BSR. В результате, когда мы ограничиваемся продуктами, которые имеют частые обзоры и записи BSR, окончательная выборка может не отражать истинное количество продуктов и обзоров на Amazon. Кроме того, даты, когда мы знаем рейтинг продукта, могут не совпадать с датами, когда были добавлены обзоры для указанного продукта, что иногда приводит к небольшому совпадению периодов для нашей работы.

Во-вторых, порядковый характер BSR скрывает некоторую важную и актуальную информацию, которая может быть интересна нам как интернет-магазинам. Например, объем продаж ранга 1 может резко отличаться от объема продаж ранга 2, хотя они отличаются только на 1 с точки зрения ранжирования. Кроме того, Amazon не раскрывает, как именно они рассчитывают BSR. Расчет, по-видимому, больше всего зависит от ежедневных продаж с небольшим весом от продаж продукта за прошлые периоды. В результате ранги могут внезапно резко увеличиться или уменьшиться, добавляя шум к данным BSR.

Чтобы устранить второе ограничение, Pattern дополнительно предоставляет нам расчетные объемы продаж, соответствующие каждому BSR (как показано на рисунке 2). Сопоставление построено на основе фактических объемов продаж и рейтингов их розничных продавцов-клиентов, хотя точная функция сопоставления между BSR и объемом продаж нам не раскрывается. Недостатком является то, что оценка лучших продуктов может быть неточной, поскольку клиенты Pattern редко достигают очень низкого рейтинга (например, ниже 100). Оценки этих лучших продуктов в основном основаны исключительно на экстраполяции подобранной функции.

2.2. Целевая переменная

Целевые переменные различаются для двух подзадач. Для краткосрочного прогнозирования мы используем «медианные продажи за месяц» в качестве целевых переменных. Для долгосрочного прогнозирования целевой переменной является успешный продукт. Мы определяем продукт как успешный, если он когда-либо достиг топ-3000 с точки зрения BSR Amazon в течение одного года после запуска. Мы опишем, как генерируются эти три величины, в разделе обработки данных.

2.3. Обработка данных

2.3.1. Краткосрочные прогнозы

Мы предпринимаем следующие шаги для предварительной обработки оценочных данных о продажах: для рангов без оценочного объема продаж (т. е. рангов больше 454 302) мы экстраполируем оценку, используя линию между 0,05 (что является оценочным объемом продаж для ранга 454 302) и 0. Затем мы объединяем оценочные данные о продажах с исходными данными BSR, используя ранг, чтобы присвоить каждому рангу соответствующий оценочный объем продаж. Затем мы группируем данные по продукту-месяцу и рассчитываем средний объем продаж продукта за каждый месяц. Мы используем среднемесячный объем продаж в качестве целевой переменной в некоторых наших моделях. Мы называем это количество «медианным объемом продаж за месяц» во всем отчете.

После разделения данных в целях обучения у нас есть 2298 уникальных продуктов, содержащих 61199 наблюдений в обучающем наборе, и 851 уникальный продукт, содержащий 21813 наблюдений в тестовом наборе. Наборы для обучения и тестирования одинаковы для всех моделей краткосрочного прогнозирования.

2.3.2. Долгосрочные прогнозы

На основе данных, обработанных на предыдущих этапах, мы предпринимаем следующие шаги для создания новых переменных для задачи долгосрочного прогнозирования: Мы удаляем все продукты, первая дата проверки которых предшествует их первой дате BSR. Затем мы определяем дату запуска продукта как его первую дату BSR. Затем мы рассчитываем оптимальный (минимальный) BSR для продукта на последующий годичный период после первого года запуска. Период времени в один год выбран для минимизации влияния сезонных изменений (которые сильно влияют на рынок витаминов). Затем мы используем этот оптимальный BSR для создания нашей новой целевой переменной «успешный продукт». Мы определяем продукт как успешный, если он когда-либо попадал в топ-3000 с точки зрения BSR Amazon в течение одного года после первого года запуска. Для каждого продукта мы предскажем, будет ли он классифицирован как 1, успешный продукт, или 0, как неудачный продукт. Мы выбираем 3000 по двум причинам. Во-первых, интуитивно это хороший рейтинг — быть одним из 3000 лучших товаров в категории «Здоровье и домохозяйство» Amazon (которая содержит миллионы товаров) — однозначное достижение. Во-вторых, при использовании этого порога около 18% продуктов в наших наборах данных будут классифицированы как успешные. Порог — хороший баланс между реальным успехом и сбалансированной классификацией. Затем мы генерируем функции, агрегируя данные обзоров и вычисляя некоторую статистику по данным BSR за первые три месяца после запуска продукта. Таким образом, мы можем наблюдать, как первоначальный обзор и первоначальный BSR продукта после его запуска влияют на его долгосрочный BSR.

После того, как мы разделили данные в целях обучения, у нас есть 2768 уникальных продуктов в обучающем наборе и 923 уникальных продукта в тестовом наборе. Наборы для обучения и тестирования одинаковы для всех моделей долгосрочного прогнозирования.

3. Модели

Для обеих задач, представленных во введении, то есть краткосрочного и долгосрочного прогнозирования, мы разработали два разных типа регрессионных моделей.

  1. модели, основанные на метаданных обзоров, и
  2. модели на основе текстов обзоров.

Идея, лежащая в основе этого подхода, состоит в том, чтобы рассматривать прогностическую силу текста как дополнительную ценность модели без текста. Мы делаем это, собирая наши две модели. Это помогает нам с интерпретируемостью моделей (наша вторая цель), а также дает ценную информацию о моделировании для нашей задачи прогнозирования.

3.1. Нетекстовые модели

Первый набор моделей, которые мы запускаем, состоит из моделей, основанных на метаданных отзывов, под которыми мы подразумеваем всю информацию, относящуюся к продукту, кроме текста отзывов. В частности, мы вводим функции, связанные с прошлыми показателями продаж продукта, т. е. функции, связанные с BSR, а также прошлые рейтинги продукта.

В краткосрочных прогнозах мы используем все метаданные обзора продукта, который был опубликован в этом месяце или ранее, чтобы предсказать медианные продажи в следующем месяце. Для долгосрочных прогнозов мы учитываем все метаданные обзора в течение трех месяцев после запуска продукта, чтобы предсказать его успех через год.

Что касается моделей, мы используем модель линейной регрессии, регрессор XGB и регрессор RF для краткосрочного прогнозирования. Для долгосрочного прогнозирования мы используем модель логистической регрессии, классификатор XGB и классификатор RF.

3.2. Текстовые модели

Второй набор моделей, которые мы используем, — это текстовая модель, которая использует только тексты обзоров в качестве функций. Эти модели не имеют доступа к метаданным обзора, таким как рейтинг или подтверждение покупки; они также не знают о каких-либо исторических показателях продаж. Обоснование состоит в том, что компонентная текстовая модель должна быть способна в некоторой степени улавливать общее настроение каждого отзыва из необработанного текста.

В частности, мы используем все отзывы о продукте, опубликованном в этом месяце или ранее, для краткосрочного прогнозирования медианных продаж в следующем месяце; для долгосрочного прогноза успешного продукта мы смотрим все отзывы в течение трех месяцев после запуска нового продукта.

Сначала мы используем модель мешка слов из-за ее двух основных достоинств. Во-первых, он легко поддается обучению и обеспечивает базовую производительность, которую можно сравнить с более сложной моделью на основе трансформатора. Во-вторых, модель мешка слов легко интерпретируется. Например, мы можем просто посмотреть на фразы, связанные с положительными или отрицательными коэффициентами в линейной регрессии, и получить некоторое представление о том, какие темы связаны с высокими или низкими показателями продаж.

Предикторами являются (взвешенные) частоты 500 наиболее распространенных фраз в обучающем корпусе. Для обработки текста мы экспериментируем с моделью набора слов, где мы просто подсчитываем появление каждой из этих 500 фраз, а также с моделью частотно-инверсивной частоты документа (TF-IDF), где взвешенная частота каждая фраза рассчитывается из частоты термина и обратной частоты документа. Преимущество модели TF-IDF заключается в корректировке того факта, что некоторые слова в целом используются чаще. Затем мы используем регуляризованную модель линейной (логистической) регрессии, чтобы предсказать среднемесячные продажи в следующем месяце (успех за 1 год).

Набор гиперпараметров, с которыми мы экспериментируем, включает в себя: простую модель мешка слов в сравнении с моделью TF-IDF, униграмму в сравнении с биграммой в сравнении с триграммой, регуляризацию L1 и L2, а также различные степени штрафа.

Несмотря на интерпретируемость модели мешка слов, она часто слишком упрощена, чтобы уловить целостный смысл полнотекстовой последовательности. На этом фронте модель на основе трансформатора является современным. Поэтому мы также используем модели трансформаторов, в частности крошечный BERT, чтобы попытаться выполнить ту же задачу, которая была описана ранее. Структура нашей модели на основе BERT описана на рисунке 3 ниже. Сначала мы пропускаем все наши обзоры через модель преобразования, чтобы создать отдельные вложения для каждого обзора, затем объединяем все вложения, чтобы сделать модель устойчивой к изменениям количества обзоров, которые мы проходим через модель, и, наконец, мы передаем наш совокупный обзор. встраивание через плотные слои для создания нашего прогноза (регрессия или классификация в зависимости от задачи).

Набор гиперпараметров, с которыми мы экспериментируем для модели на основе BERT, включает в себя: максимальную длину последовательности, количество периодов обучения, количество плотных слоев в нейронной сети, ведущих к встраиванию отдельных обзоров, и сети, публикующей встраивание совокупного обзора, и скрытые размеры встраивания.

3.3. Модели ансамбля

Напомним, что основная цель этого проекта — оценить эффективность использования текстов отзывов в дополнение к метаданным отзывов в прогнозировании продаж. Этот вопрос особенно интересен и актуален в сценарии долгосрочного прогнозирования. Для нового продукта мы хотели бы понять, раскрывают ли первоначальные обзоры какую-либо дополнительную информацию о продукте, которая не отражена в первоначальных показателях продаж. Другими словами, можем ли мы оценить потенциал роста нового продукта, используя отзывы в первые несколько месяцев после запуска продукта.

В результате мы реализуем ансамблевую модель, учитывающую прогнозы четырех отдельных моделей: случайный лес, XGBoost, мешок слов и BERT.

Целевая переменная ансамбля — это фиктивная переменная того, является ли продукт успешным. Переменные-предикторы — это предсказанные вероятности из четырех моделей. Мы экспериментируем с двумя моделями: простой логистической регрессией и классификатором дерева решений. Модель ансамбля намеренно сделана простой, чтобы избежать переобучения, особенно после исчерпывающей настройки гиперпараметров в каждом классе модели. В любом случае мы подгоняем модель к проверочному набору и делаем прогнозы на тестовом наборе, чтобы оценить производительность моделей ансамбля.

4. Результаты

Для краткосрочных прогнозов мы используем R2 и RMSE для оценки эффективности регрессионных моделей путем сравнения прогнозируемого объема продаж со значением истинности.

Для долгосрочных прогнозов мы используем матрицы путаницы, ROC и AUC для оценки и настройки моделей, а также используем показатель F1 в качестве основного критерия оценки для сравнения производительности различных моделей. Мы можем считать точность и полноту из матрицы путаницы, где точность — это доля правильно идентифицированных успешных случаев, а полнота — это доля правильно идентифицированных фактических успешных случаев. Мы заботимся о точности наших моделей, потому что хотим, чтобы наши модели давали точные прогнозы о будущих характеристиках каждого продукта. Мы также заботимся об отзыве наших моделей, потому что мы не хотим, чтобы наши модели легко переоценивали будущие характеристики продукта и, таким образом, давали ложный сигнал нашим клиентам. Чтобы получить наилучшую точность и полноту одновременно, мы используем F1-оценку, которая представляет собой гармоническое среднее значений точности и полноты для задачи классификации. Вышеупомянутые метрики изменяются с изменением пороговых значений в задаче бинарной классификации. Таким образом, мы генерируем кривые AUC-ROC, чтобы легко визуализировать, какой порог дает нам лучший результат. Кривая ROC — это показатель оценки для задач бинарной классификации. Это кривая вероятности, которая отображает процент истинных положительных результатов в сравнении с уровнем ложных положительных результатов при различных пороговых значениях. AUC — это мера способности классификатора различать классы. Чем выше AUC, тем лучше модель различает положительные и отрицательные классы.

4.1. Нетекстовые модели

Мы настраиваем гиперпараметры трех нетекстовых моделей и находим результаты, показанные в таблице 1. Результаты нетекстовых моделей чрезвычайно хороши для краткосрочных прогнозов. Это интуитивно понятно, поскольку текущие показатели продаж являются определяющим фактором для краткосрочных прогнозов показателей продаж, т. е. текущий успех продукта будет четким предсказателем его успеха в краткосрочной перспективе. Эта интуиция станет более ясной при анализе моделей в следующем разделе.

Для прогнозирования долгосрочного успеха мы настраиваем гиперпараметры трех классификаторов и находим результаты, показанные в таблице 2. Результаты удивительно высоки для длительного периода времени, в котором модели делают прогнозы.

Интуитивно понятно, что для долгосрочных прогнозов текущие и прошлые показатели продаж будут менее предсказуемы, чем для краткосрочных. Основываясь на этой интуиции, мы также рассматриваем для сравнения те же три модели, используя только функции, основанные на рейтинге. Оценки этих моделей с уменьшенным количеством признаков показаны в таблице 3. Эти результаты почти сопоставимы с результатами моделей со всеми признаками в таблице 2. Таким образом, ясно, что для долгосрочных прогнозов рейтинг - связанные функции важны.

4.2. Текстовые модели

Для краткосрочной задачи наша лучшая модель BoW достигает оценки R2 0,14 с моделью bigram TF-IDF с регрессией LASSO с использованием штрафной силы 0,1. Оценка R2 довольно высока, особенно с учетом того, что мы используем только простую линейную модель на очень разреженной матрице модели. С другой стороны, наша лучшая модель на основе BERT имеет показатель R2 0,164, что примерно на 10% лучше нашей лучшей модели набора слов, но далеко от производительности моделей, использующих импульсные данные в качестве признаков. Это приводит нас к выводу, что для краткосрочных прогнозов данные импульса гораздо важнее, чем обзорные данные.

Интересная, но ожидаемая тенденция, которую мы видим при сравнении производительности модели на основе BERT с моделью мешка слов для краткосрочной задачи, заключается в том, что модель преобразователя лучше справляется с правильными прогнозами хвоста. Это видно на графике разброса бинов ниже.

История немного отличается для задачи долгосрочного прогнозирования — текстовые модели, особенно модель BERT, начинают превосходить нетекстовые модели, основанные на исторических продажах.

Используя модель BoW, самый высокий балл F1 составляет 0,34, что достигается с использованием модели TF-IDF с униграммой и штрафом L2 при силе 0,5. Рисунок TODO сводит в таблицу оценку F1 по набору задержек проверки для различных комбинаций модель/гиперпараметр.

Сделаем два основных замечания. Во-первых, триграммные модели в целом работают хуже всего. Потенциально это связано с отсутствием вариаций в характеристиках триграмм. Обратите внимание, что мы используем обзоры только за первые три месяца для долгосрочных прогнозов, что приводит к небольшому обучающему корпусу. В частности, 500 наиболее распространенных триграмм, собранных из обучающего корпуса, обычно имеют низкую частоту со средним значением 3. Во-вторых, модели униграмм в целом работают лучше всего. Одна из возможных причин заключается в том, что вариация частоты униграмм намного выше, что делает модель способной объяснить вариацию целевых переменных. Другая потенциальная причина заключается в том, что простой подсчет слов уже может уловить большое значение или прогностическую силу отзывов.

Переходим к модели на основе BERT. На рис. 6 показана производительность для разных моделей:

Из приведенных выше результатов видно, что оценка F1 довольно стабильна и не очень чувствительна к выбору модели, которую мы делаем. Однако выбор модели существенно влияет на AUC. Мы видим, что небольшой размер встраивания (10 элементов) работает лучше — возможно, это связано с тем, что меньшее количество обучаемых параметров снижает дисперсию модели, не позволяя ей переобучаться на обучающих данных.

Мы также видим, что лучшая модель — это та, которая обучена на 10 эпохах и имеет 2 плотных слоя для каждой структуры FFNN. 2 плотных слоя работают лучше, чем 1, вероятно, указывают на то, что наличие большего количества слоев позволяет нам уменьшить смещение модели и противодействовать жесткости, вызванной небольшим размером встраивания. 10 эпох — это артефакт принятой нами структуры модели, в которой мы берем среднее значение по всем вложениям, чтобы сделать один прогноз — это означает, что каждое вложение обзора не имеет собственного цикла обратной связи, а вместо этого должно делиться им с другими обзорами. в этой точке данных. Возможно, это причина, по которой нам нужно регрессировать по каждой точке данных 10 раз, чтобы получить наилучший результат.

На рисунке 7 ниже мы видим производительность модели на основе BERT в зависимости от гиперпараметра максимальной длины последовательности.

На приведенном выше графике мы видим, что производительность модели низкая, когда максимальная длина последовательности очень мала — это потому, что мы, возможно, избавляемся от важной информации и усекаем обзоры, чтобы они были слишком маленькими. Мы также видим, что общая производительность выходит на плато, когда максимальная длина последовательности превышает среднюю длину обзора. Это указывает на то, что модели не нужно читать весь обзор, чтобы получить информацию, необходимую для прогноза, и после определенного порога более длинный обзор содержит сигнал, аналогичный началу обзора, поэтому мы не Не нужно читать весь обзор, чтобы сделать прогноз. Это также можно сделать еще дальше и интерпретировать как порог, до которого большинство клиентов перестанут читать обзор, прежде чем принять решение о покупке.

4.3. Модели ансамбля

Ансамблевые модели демонстрируют заметное улучшение прогнозирования, предполагая, что текст отзыва способствует долгосрочному прогнозированию продаж в дополнение к обзорным метаданным и историческим показателям продаж.

В таблице 4 ниже мы сравниваем производительность наших отдельных моделей на тестовом наборе по различным показателям производительности.

Кроме того, на рисунке 8 мы строим кривую ROC прогнозов ансамбля, а также прогнозов отдельных моделей.

В целом, ансамблевые модели превосходят все индивидуальные модели. Единственным исключением является оценка точности: в то время как точность модели BERT равна 1, модель ансамбля обеспечивает гораздо более низкую точность. В частности, модель BERT дает 46 положительных прогнозов, и все они верны. Для сравнения: 86 из 152 и 59 из 106 положительных прогнозов верны, соответственно, из дерева решений и модели ансамбля логистической регрессии.

Повышение производительности ансамблевой модели предполагает, что нетекстовые модели и текстовые модели имеют разные преимущества. В частности, использование текстов отзывов помогает моделировать прогнозы, даже если у нас есть исторические данные о продажах. В частности, показатель F1 значительно увеличивается с 0,4 в нетекстовой модели случайного леса до более 0,5 в модели ансамбля деревьев решений.

Также трудно определить, какая из двух ансамблевых моделей лучше — дерево решений приводит к более высокому F1, в то время как логистическая регрессия приводит к более высокому AUC. На самом деле, в зависимости от соответствующей метрики производительности, ни одна из ансамблевых моделей не может быть идеальной для окончательного прогноза. Чтобы убедиться в этом, вспомните, что модель BERT на 100 % верна для положительных прогнозов. Однако ни одна модель ансамбля полностью не соответствует положительным предсказаниям BERT. Например, модель ансамбля логистической регрессии неправильно предсказывает, что 24 из 46 положительных наблюдений будут отрицательными, а модель ансамбля дерева решений неправильно предсказывает, что 2 из 46 положительных наблюдений будут отрицательными. В некоторых реальных приложениях для розничных продавцов может быть вредным пропустить даже один успешный продукт, и в этом случае ансамблевая модель, которая берет все положительные прогнозы из модели BERT (и, возможно, некоторые положительные прогнозы из других отдельных моделей) может быть неэффективной. более выгодно.

5. Интерпретация: что делает продукт успешным?

5.1. Краткосрочный успех: динамика

Для краткосрочных прогнозов будущие показатели продаж почти полностью предсказываются текущими и прошлыми показателями. В частности, нетекстовые модели значительно превосходят текстовые модели. По этой причине мы рассматриваем нетекстовые модели только для краткосрочных прогнозов. Их наиболее предсказуемыми характеристиками являются средние характеристики продуктов за данный месяц, что можно наблюдать на рисунке 9 для модели XGB. Эта функция, безусловно, является самой важной функцией модели XGB, что указывает на то, что она делает прогнозы почти полностью на основе прошлой производительности.

График частичной зависимости для среднемесячной производительности продуктов, показанный на рисунке 10, указывает на то, что модель XGB делает прогнозы на основе принципа импульса, т. е. низкая среднемесячная производительность приведет к более низкой прогнозируемой эффективности продаж в следующем месяце. Это наблюдение ожидается интуитивно. Действительно, объем продаж продукта сильно колеблется примерно в течение дня из-за изменений в цене и доступности. С другой стороны, средняя эффективность продаж продукта за месяц не сильно колеблется. Таким образом, логично, что модель показывает линейную зависимость от объема продаж предыдущего месяца.

5.2. Долгосрочный успех: количество отзывов

Количество обзоров является важной характеристикой для долгосрочного прогноза нетекстовой модели. Это подтверждает интуицию, упомянутую в отношении результатов долгосрочного прогнозирования нетекстовой модели, а именно: по сравнению с краткосрочным прогнозированием для долгосрочного прогнозирования важны не только прошлые показатели, но и метаданные обзора.

В частности, количество подтвержденных отзывов является прогностической функцией, с помощью которой мы можем получить некоторые интересные сведения о стратегиях продаж и маркетинга поставщиков электронной коммерции на Amazon. Действительно, гистограмма важности признаков для долгосрочного прогнозирования нетекстовых моделей хорошо распределена по сравнению с краткосрочным прогнозом, как видно на рисунке 11. Это означает, что для прогнозирования модели требуется несколько признаков. Более того, функции, не связанные с прошлой эффективностью, также имеют значение: количество проверенных отзывов — пятая по важности функция.

Особенно интересен график частичной зависимости числа отзывов верификатора для модели XGB, показанный на рис. 12. Действительно, зависимость от количества проверенных отзывов поначалу противоречит здравому смыслу. Обычно мы ожидаем, что чем больше проверенных отзывов, тем успешнее продукт, поскольку это показывает, что продукт пользуется большой популярностью. На самом деле это поведение, которое мы наблюдаем для общего количества отзывов, то есть проверенных и непроверенных, как обсуждается ниже. Однако известно, что многие поставщики электронной коммерции создают поддельные проверенные отзывы в течение первых нескольких месяцев после запуска своих продуктов, чтобы создать искусственную привлекательность для своих продуктов. Мы интерпретируем тенденцию, показанную на рисунке 12, как представление этого явления, т. е. чем больше проверенных отзывов, тем больше подозрений в том, что они фальшивые и, следовательно, предсказывают неудачный продукт.

Из сопоставления наших лучших прогнозов модели на основе BERT с количеством обзоров на рисунке 13 мы видим еще один признак того, что количество обзоров является сильным показателем успеха. Это показано на графике binscatter ниже.

Важно отметить, что в отношении этого результата важно отметить, что в том, как мы структурируем нашу модель на основе BERT, модель не имеет явного указания на количество обзоров (поскольку мы используем среднее значение наших вложений для создания агрегированного вложения, а не суммирования по эта ось). Это означает, что наша модель способна не только вывести количество отзывов, но и понять, что чем больше отзывов, тем больше продаж и, следовательно, выше вероятность успеха. Еще одна вещь, которую важно прояснить, это то, что график здесь отличается от графика для XGB, где мы смотрели на количество проверенных отзывов, а здесь мы смотрим на общее количество обзоров.

5.3. Долгосрочный успех: пересмотрите рейтинги

Рейтинги отзывов дают такое же представление о данных, как и количество проверенных отзывов, о которых говорилось выше. Средняя оценка отзывов является одной из наиболее важных характеристик для долгосрочных прогнозов модели RF, как показано на графике важности признаков на рисунке 14. Как и в модели XGB, мы делаем вывод из графика важности признаков, что долгосрочные прогнозы требуют больше функций, чем краткосрочные, и что функции, связанные с обзором, также имеют отношение к этой задаче.

График частичной зависимости для среднего рейтинга отзывов показан на рисунке 15. Мы наблюдаем аналогичную нелогичную тенденцию для этого признака, как и для количества проверенных отзывов, представленных выше, т.е. очень высокий средний рейтинг отзывов соответствует небольшой вероятности успеха. Мы полагаем, что этот результат также связан с фальшивыми отзывами, сделанными вендорами в течение первых нескольких месяцев после запуска их продукта. Действительно, слишком высокая средняя оценка отзыва не отражает реальных данных, а показывает, что она была сфабрикована. С другой стороны, средний рейтинг отзывов около 4 соответствует наибольшей вероятности успеха, поскольку он более репрезентативен для распределения действительно хороших отзывов.

5.4. Долгосрочный успех: средняя длина отзывов

Мы также исследуем взаимосвязь предсказаний модели преобразователя со средней продолжительностью обзора и видим интересную тенденцию, показанную на рисунке 16. Эта тенденция показывает, что для очень коротких или очень длинных обзоров наша модель преобразователя с большей вероятностью предсказывает, что продукт будет неудачными, в то время как для обзоров длины где-то посередине с большей вероятностью можно предсказать, что они будут успешными. Возможно, это связано с компромиссом, который мы видим с длиной. А именно, когда обзоры слишком короткие, модель-трансформер не имеет достаточного сигнала в тексте, чтобы сделать уверенный прогноз успеха продукта (здесь стоит отметить, что модель-трансформер определенно была одной из наиболее консервативных моделей). С другой стороны, когда обзоры очень длинные, они, скорее всего, будут негативными, потому что они содержат длинные комментарии о жалобах, которые есть у рецензентов. Таким образом, обзоры в середине (средняя длина около 40) — это те, которые, скорее всего, приведут к предсказанию успеха, потому что у них достаточно токенов для BERT, чтобы получить достаточный сигнал, и они также с большей вероятностью будут положительными отзывами по сравнению с к более длинным обзорам.

5.5. Долгосрочный успех: пересмотрите содержание

Модель BoW дает некоторое представление о том, какие фразы связаны с более высокой вероятностью успеха.

Во-первых, обзоры, в которых упоминаются ингредиенты, с большей вероятностью сделают продукт успешным. Чтобы убедиться в этом, мы изучим регрессионные модели на основе BoW и отметим, что униграммы, связанные с 50 наиболее положительными коэффициентами, включают следующие ингредиенты: клетчатка, acv (яблочный уксус), b12, рыба, масло, куркума, кофе, бузина, и ферменты. С другой стороны, мы не видим ингредиентов среди 50 самых отрицательных коэффициентов. В целом представляется, что объективное описание ингредиентов оказывается более важным, чем субъективное ощущение продукта. На самом деле мы видим как положительные, так и отрицательные коэффициенты, связанные с дополнительными словами: «улучшать», «идеально» и «потрясающе» — одни из самых положительных униграмм, тогда как «облегчение», «помощь» и «приятный» — одни из них. из самых отрицательных униграмм. Это довольно интуитивно понятно, так как некоторые из бесплатных отзывов могут быть фальшивыми и размещаться продавцами. С другой стороны, клиенты могут искать определенные эффективные ингредиенты в желаемых витаминных продуктах, и объективные описания ингредиентов могут показаться более достоверными.

Во-вторых, отзывы, которые передают ощущение здоровья, связаны с долгосрочным успехом. В этом случае мы смотрим на слова, которые часто появляются в положительных (по сравнению с отрицательными) предсказаниях BERT. Например, «натуральный», «органический» и «здоровый» — это три общих слова в положительных отзывах BERT, но они не появляются или редко встречаются в отрицательных отзывах BERT. Кроме того, «малыш» также часто появляется в положительных отзывах. Похоже, что коннотация заключается в том, что продукт безопасен для детей, что дает еще один уровень уверенности.

В-третьих, частое отрицание в отзывах — это признак неуважения. Например, «не» и «не» — это два слова, которые часто встречаются в отрицательных отзывах, но не в положительных. Интуитивно эти отрицания связаны с жалобами: например, «этот продукт мне не подходит». В целом негативные настроения связаны с некачественной продукцией.