Авторы Вячеслав Базалий, Слободан Милованович, Антти Нисканен, Даниэль Сак и Ян Бейтнер
Для любого бизнеса прогнозирование спроса является важнейшим компонентом сквозного (E2E) процесса планирования. Он позволяет принимать оптимальные решения в условиях неопределенности, способствует эффективному управлению цепочками поставок и действует как индикатор актуальных рыночных тенденций в режиме реального времени. Независимо от того, используется ли прогнозирование спроса для планирования продаж зрелых продуктов по известным каналам или совершенно новых продуктов на новаторском рынке, процесс принятия решений становится более глубоким. Однако, как и все, что касается будущих событий, прогнозирование вносит неопределенность в процесс планирования. Планирование может быть выполнено оптимально только в том случае, если эти неопределенности правильно определены количественно, что смещает задачу в сторону получения наилучшей точности прогнозирования.
Только за последние три года BCG GAMMA осуществила более 40 крупномасштабных преобразований, основанных на улучшенном прогнозировании. В совокупности эти преобразования обеспечили рост доходов более чем на 10 миллиардов долларов. Подход GAMMA создает ценность и конкурентное преимущество на стыке науки о данных, технологий, людей, бизнес-опыта, процессов и способов работы. Мы заметили, что благодаря недавним тенденциям к сильной цифровизации и демократизации данных точность прогнозирования спроса значительно повысилась — и это произошло во многих отраслях. Это долгожданное событие, учитывая, что скорость выхода продуктов на рынок увеличивается из года в год. Это улучшение точности во многом является результатом совершенствования методов машинного обучения (ML). Передовые модели машинного обучения теперь могут учитывать тысячи факторов, извлекать закономерности из прошлых данных и предоставлять обзор рынка, что позволяет улучшить процесс принятия бизнес-решений.
При использовании методов машинного обучения специалисты по данным, как правило, сообщают о своих достижениях и прогрессе, используя показатели вне выборки, такие как среднеквадратическая ошибка (MSE). Те, у кого есть техническое образование, обычно могут понять значение таких показателей, как MSE, потому что эти понятия изучаются в университетах и имеют четкие вероятностные интерпретации. Но для многих бизнес-лидеров, в том числе со степенью STEM, может быть почти невозможно понять производительность модели без четкого контекста масштаба проблемы, понятных контрольных показателей производительности и, что наиболее важно, прямой связи с бизнес-процессами. Руководители компаний обычно обладают солидным знанием предметной области и отличным пониманием бизнес-контекста. Однако для многих бизнес-лидеров оценка технического контекста и быстрое принятие обоснованных решений остаются сложной задачей.
Итак, существует ли единая оценочная метрика для оптимального планирования бизнеса?
Прогнозирование с точки зрения руководства
Представьте, что у нас есть небольшой киоск, в котором продаются кофе, выпечка и различные кондитерские изделия. У нас есть друг, специалист по данным, который любезно согласился помочь нам с нашими решениями о покупке инвентаря. Она обучила три модели на наших прошлых данных и теперь показала нам результаты тестирования на прошлой неделе для одного из продуктов. Отныне мы будем использовать никнеймы No-sales, Average и ML для соответствующих прогнозов, отображаемых на графике ниже.
Получив этот результат, мы теперь можем выбрать, какую из этих трех моделей прогнозирования использовать. Но какую модель выбрать нам, руководителям этого малого бизнеса? Ответ во многом зависит от характера продукта и бизнес-ограничений нашего кофейного киоска. Мы углубимся в бизнес-контекст нашего примера в следующих разделах. Но сначала мы воспользуемся нашим обширным опытом BCG GAMMA, чтобы помочь нашему другу, специалисту по данным, создать техническую основу для оценки прогнозирования спроса.
Трехэтапный подход к выбору модели прогноза
Давайте сделаем шаг назад и рассмотрим, как подходить к оценке прогнозирования спроса с точки зрения бизнеса. Этот тип оценки вписывается в общую структуру оценки модели ML. Целью платформы является создание процедуры, которая приводит к несмещенной оценке точности за пределами выборки. Однако несколько аспектов усложняют оценку прогнозирования спроса:
1. Измерение времени, которое накладывает дополнительные допущения на процесс генерации и ограничивает нас от рандомизированного разбиения данных для вневыборочных оценок ошибок.
2. Разница между наблюдаемым спросом, который ограничен такими факторами, как уровень запасов и продажи, и фактическим ненаблюдаемым (неограниченным) спросом.
3. Данные с нулевым завышением при низком уровне детализации и предположения о нарушении нормальности для остатков модели.
Это сокращенный список сложностей, которые могут отличать прогнозирование спроса от традиционных задач регрессии. Такие осложнения всегда присутствуют в той или иной степени. Мы предлагаем трехэтапный подход, который позволяет нам оценить прогностическую модель с точки зрения бизнеса, чтобы систематически решать их. Обратите внимание, что он отличается от моделирования или оценки обучения, которые могут потребовать совершенно других уровней агрегирования и параметров метрик потерь. Давайте углубимся в детали всех шагов.
Шаг 1. Выберите уровень агрегации
Мы предлагаем выбрать уровень агрегации в качестве первого шага, потому что этот выбор повлияет на ваши варианты как для процедуры проверки, так и для применимых показателей. Как сказано выше, мы рассматриваем это исключительно с точки зрения бизнеса. С точки зрения моделирования этот вопрос может быть неуместным, например, иерархические модели машинного обучения могут использовать все уровни и извлекать выгоду из методов согласования.
С этой точки зрения наиболее подходящий уровень агрегации естественным образом определяется выводом, который мы хотим сделать на основе прогнозов спроса. Например, если мы запускаем распределение запасов по магазинам, лучший вариант — посмотреть на ошибки прогнозирования на уровне магазина, тогда как всей цепочки будет недостаточно. На этом дискуссию можно было бы прекратить. Тем не менее оказывается, что статистические свойства менее агрегированных уровней могут ограничивать область применения подходящих метрик сложными и неинтуитивными вариантами. Их может быть трудно сообщить заинтересованным сторонам бизнеса и лишить прозрачности процесса оценки.
Например, на детальном уровне, таком как ежедневные продажи определенного продукта в конкретном магазине, мы часто наблюдаем много нулевых продаж и лишь малую долю реальных положительных продаж. Эти распределения называются нулевыми и требуют определенных статистических допущений для основной смеси процессов, генерирующих данные. Сверхдисперсное распределение Пуассона, такое как, в частности, отрицательное биномиальное распределение, является хорошим вариантом распределения по умолчанию для моделирования таких данных.
Однако самые популярные метрики оценки, такие как среднеквадратическая ошибка или R2, предполагают нормально распределенные ошибки. Таким образом, выбор модели с этими показателями на детальном уровне может быть неоптимальным и необъективным. К счастью, когда мы собираем данные, центральная предельная теорема начинает играть в нашу пользу. Алеаторная неопределенность, которая велика на уровне детализации, исчезает, когда мы моделируем значительный объем, и распределение совокупного спроса сходится к нормальному.
Хотя технически наилучшая степень детализации оценки может быть получена из целевого бизнес-решения, на практике мы сталкиваемся с другим компромиссом между сложностью и четким пониманием процесса оценки. Что лучше, зависит от точного контекста. Таким образом, мы всегда должны тщательно изучать возможные варианты агрегирования как для иерархии (например, продукт по сравнению с категорией продукта), так и для времени (например, дни по сравнению с неделями).
Шаг 2. Настройте процедуру проверки
Важно различать фактические (наблюдаемые) продажи, ограниченные уровнями запасов, и неограниченный (ненаблюдаемый) спрос, который может быть реализован в идеальных условиях. Уровень запасов является типичным ограничивающим фактором для продаж, но другие события, такие как сбои в работе магазина или праздники, также могут исказить картину продаж. Мы настоятельно рекомендуем вам учесть эту разницу в моделировании и настроить неограниченную процедуру для цели прогноза спроса.
Прогнозирование спроса работает в рамках временного ряда. Мы рекомендуем всегда применять стандартные методы, такие как скользящие процедуры перекрестной проверки, чтобы вы могли построить объективные оценки точности вне выборки и предотвратить утечку данных при оценке. Чтобы получить беспристрастную валидацию, расщепления поезд-тест должны быть репрезентативными. В частности, они должны учитывать сезонность, особые дни и другие соответствующие систематические различия между периодами времени.
Шаг 3. Выберите показатель оценки
В общем случае прогнозирование спроса формулируется как задача регрессии. Метрики оценки в задачах регрессии можно разделить на классы смещения и вариации (точности), где смещение указывает отклонение со знаком от фактических значений (местоположение), а точность оценивает беззнаковое среднее отклонение (дисперсию данных). Обратите внимание, что это разделение метрик не основано на концепции компромисса смещения и дисперсии.
В бизнес-приложениях выбор показателей оценки также требует компромисса между интерпретируемостью и статистической точностью. Проценты могут быть более интуитивно понятными для интерпретации, но фактические ключевые показатели эффективности бизнеса будут зависеть от абсолютной вариации. Неправильно выбранные ключевые показатели эффективности могут привести к неоптимальному выбору гиперпараметров, но также могут создать прозрачность, которая может ускорить внедрение бизнесом нового инструмента прогнозирования на основе машинного обучения. Таким образом, важно иметь четкое представление о лежащих в основе вероятностных предположениях для различных KPI.
Часто используемые показатели
Давайте теперь рассмотрим список часто используемых показателей для оценки прогнозирования спроса, сосредоточив внимание на точечных оценках. Некоторые показатели, такие как MSE или MAE, исходят из логарифмических правдоподобий соответствующих вероятностных моделей. В то время как другие, такие как R2 или MAPE, предпочтительнее из-за их стандартизированной шкалы и более интуитивной интерпретации.
Пример: выбор модели с общими метриками
Теперь у нас есть все необходимые знания, чтобы выбрать лучший прогноз из доступных вариантов. Мы хотим иметь полное представление при тестировании на исторических данных, поэтому мы предлагаем нашей подруге рассчитать смещение и три других общих показателя точности, чтобы помочь нам выбрать лучший прогноз.
Давайте рассмотрим несколько популярных оценочных показателей для нашей бизнес-проблемы с кофейным киоском.
- Смещение — метрики, которые, говоря простым языком, говорят нам, насколько прогнозы модели отличаются в процентах от среднего целевого значения.
- SMAPE — симметричная версия средней абсолютной ошибки в процентах, которая сравнивает абсолютную ошибку со средним значением между прогнозом и целью. Последнее свойство гарантирует, что значение всегда принадлежит интервалу 0–200%.
- wMAPE — еще одна взвешенная версия MAPE, в которой отдельные абсолютные ошибки взвешиваются с целевыми значениями. В отличие от SMAPE, он не имеет верхней границы.
- R2 (коэффициент детерминации) — оценивает долю вариации данных, объясняемую предсказаниями модели. Этот коэффициент происходит от классического метода OLS (обычных наименьших квадратов) и дает число от -100% до 100%.
Кажется, что такой подход делает вещи еще более запутанными. Обычная комбинация SMAPE и систематической ошибки в этом случае выберет усредненный прогноз, в то время как прогноз машинного обучения предпочтительнее для wMAPE. С другой стороны, значения wMAPE для среднего прогноза и прогноза отсутствия продаж почти идентичны, поэтому сам по себе этот показатель также может вводить в заблуждение.
Как мы можем разрешить это несоответствие между различными показателями? Вернемся из мира математики в мир бизнеса.
Пример: добавление бизнес-контекста
Теперь нам понадобится больше информации о продукте, который мы моделируем. Давайте рассмотрим два разных сценария, где продажи и прогнозы соответствуют:
- Мороженое
- Пончики
Предположим, что цена и, следовательно, средний годовой доход для обоих продуктов очень похожи.
Товар 1: мороженое
С точки зрения бизнеса, если в нашем кофейном киоске есть морозильная камера с достаточным пространством, мы можем хранить там непроданное мороженое, и нам не придется учитывать ежедневные колебания продаж. Таким образом, основная цель моделирования для мороженого состоит в том, чтобы удерживать общую погрешность близкой к нулю.
Давайте предположим, что мы делаем ежедневные распределения в соответствии с прогнозами на следующий день и что мы можем хранить непроданные продукты в нашей морозильной камере на месте.
Примечание. Мы намеренно использовали неограниченный спрос, который отличается от фактических продаж. Продажи в последний день в нашем примере были нулевыми, но в нашем сценарии это было результатом дефицита.
Согласно модели среднего прогноза, общий объем продаж для стратегии распределения составляет 15, в то время как общий объем продаж для стратегии, основанной на машинном обучении, составляет всего 12. Предполагая валовую прибыль в размере 3,00 долларов США за единицу, наш бизнес киосков получит 25-процентный прирост от использования средний прогноз по сравнению с прогнозом машинного обучения.
Товар 2: пончик
В отличие от мороженого, пончики следует продавать свежими, а непроданные продукты выбрасывать в конце каждого дня. В нашем киоске мы сами не делаем пончики. Поэтому в этом сценарии мы бы уделяли больше внимания дневной динамике, поскольку затоваривание пончиков значительно уменьшило бы нашу прибыль, учитывая высокую себестоимость проданных товаров (COGS).
Давайте предположим, что мы делаем то же самое ежедневное распределение в соответствии с прогнозом, с оговоркой, что мы должны списать непроданные продукты в конце дня.
В этом сценарии мы получаем одинаковое количество проданных товаров как для среднего, так и для прогноза ML. Однако для распределения на основе среднего прогноза мы купили больше товаров, которые, если бы они не были проданы, пришлось бы потом выбросить. Для этого продукта распределение машинного обучения было более точным, а общая валовая прибыль была на 24% выше, чем в результате среднего прогнозируемого распределения.
Объединение метрик: собирай и властвуй
Обобщенные, четкие и простые KPI являются важными составляющими для принятия взвешенных решений. Напротив, приведенное выше обсуждение показывает, что прогнозирование спроса требует утомительного анализа бизнес-кейсов и выбора индивидуальных показателей. Однако мы можем (а иногда и должны) удалить одно измерение сложности по практическим соображениям. А именно, для детализированных прогнозов спроса мы не можем оценить все метрики отдельных категорий, поэтому мы должны объединить их в один или несколько KPI, которые мы можем отслеживать. В нашем примере с магазином игрушек это будет соответствовать объединению показателей оценки продуктов, которые мы продаем, — мороженого и пончиков.
Самый простой вариант агрегирования метрик, который преобладает на практике, — взять среднее. Эта надежная и простая в объяснении агрегация дает хорошее представление о производительности, но часто может вводить в заблуждение относительно фактической дополнительной ценности модели. Например, рассмотрим прогнозирование двух продуктов, продажи одного из которых за период оценки равны нулю. Если модель предсказывает нулевые продажи для обоих продуктов, результирующие средние показатели могут выглядеть разумными, в то время как базовый прогноз практически бесполезен.
Предыдущий пример показывает, что одинаковое рассмотрение различных метрик в совокупности может быть обманчивым. В действительности прогнозы спроса на одни категории важнее других по разным причинам. Это может быть обусловлено исключительно бизнес-целями или физическими ограничениями, такими как объем хранилища для крупных предметов. Понятно, что хранить дополнительную жевательную резинку на полке проще, чем найти место для еще одной 5-литровой бутылки молока. Для решения этого аспекта обычно используются взвешенные показатели. Их по-прежнему легко понять, но на практике доказано, что они обеспечивают достоверную оценку эффективности бизнеса. Например, взвешенная среднеквадратическая ошибка использовалась для оценки в известном соревновании по прогнозированию спроса Kaggle M5, проводимом Walmart. Взвешивание по недавним продажам выбрано для выбора «наиболее эффективных методов прогнозирования, чтобы снизить ошибки прогнозирования для серий, которые более ценны для компании». Исходя из этого, использование свертки метрик, вероятно, является лучшим универсальным подходом для агрегации в целом. Но можем ли мы сделать что-нибудь лучше, учитывая бизнес-контекст, как мы делали в наших предыдущих примерах?
Вернемся к проблеме дневного распределения запасов. Когда у нас есть обученная модель, мы сталкиваемся со следующим решением для каждого продукта: сколько товаров должно быть доставлено завтра с учетом оставшегося уровня запасов и прогноза на завтра?
Реализованные продажи на следующий день могут сильно различаться, как и уровень запасов EOD, из-за несовершенного прогноза и случайной неопределенности процесса продаж. Недостаточный запас будет означать неудовлетворенный спрос и потерю продаж, в то время как избыточный запас может вызвать проблемы с хранением оставшихся товаров. Однако у нас есть ряд результатов, для которых наша решенная сумма доставки остается оптимальной, несмотря на ошибку прогнозирования. Следовательно, для данного продукта нам нужен не идеальный прогноз спроса, а такой, который дает достаточно точные прогнозы, чтобы удерживать запасы в пределах определенного предопределенного предела. Для стационарных процессов это требование преобразуется в пороговое значение для соответствующих показателей точности, например предел MSE для случая нормального правдоподобия. В этом случае наилучшей моделью для нас будет та, которая обеспечивает желаемую точность для всех продуктов, а соответствующий KPI — это процент продуктов, метрики точности которых ниже заданного порога.
В очередной раз мы продемонстрировали, что индивидуальный анализ бизнес-решений может привести к лучшей оценке эффективности модели. Обратите внимание, что хотя этот метод специально разработан для нашего контекста, возможности адаптации безграничны. Тщательное изучение бизнес-контекста всегда будет вознаграждено выгодой от правильных решений.
В BCG GAMMA мы используем этот ориентированный на ценность подход в PLAN AI, комплексном решении для планирования. PLAN AI фокусируется на ключевых решениях по планированию и объединяет внутренние и внешние источники данных, чтобы обеспечить более эффективное принятие решений, и объединяет не только различные показатели точности, но и различные прогнозы в единый источник достоверности.
Узнайте больше о PLAN AI и свяжитесь с командой по электронной почте [email protected]!
Заключение
Как показывают примеры, оценка прогнозирования спроса редко бывает простой задачей даже для простых предприятий. Как и многие другие приложения для обработки данных, такие оценки требуют сочетания сильных навыков моделирования и хорошей деловой хватки. Кроме того, в реальных приложениях существует множество продуктов и бизнес-ограничений, которые делают чрезвычайно трудным, если не невозможным, достижение идеальной метрики с выражением в закрытой форме. Агрегирование метрик по группам в иерархии также является сложной проблемой, для которой не существует идеального универсального решения. Следовательно, отсутствие четко определенной целевой функции для двигателей ИИ не оставляет места для серебряных пуль, которые решили бы общую проблему прогнозирования спроса для всех видов бизнеса одновременно. Только сочетание опыта предметной области и методов обработки данных, интегрированных в бизнес-процессы, может позволить предприятиям раскрыть всю ценность прогнозирования спроса на основе машинного обучения.
Ссылки
- Проблемы с метрикой MAPE
- Глубокое погружение в показатели sMAPE
- Обзор метрик регрессии машинного обучения (курс Как выиграть соревнование по науке о данных: учиться у лучших Kagglers на Coursera)
- MASE: новая метрика абсолютной процентной ошибки для прерывистых прогнозов спроса
- Конкурс неопределенности М5: итоги, выводы и выводы