Сравнение классических методов прогнозирования с машинным обучением

Машинное обучение все чаще применяется для решения задач прогнозирования. Классические подходы к прогнозированию, такие как ARIMA или экспоненциальное сглаживание, заменяются алгоритмами регрессии машинного обучения, такими как XGBoost, процессы Гаусса или глубокое обучение. Однако, несмотря на повышенное внимание, все еще остаются сомнения в прогнозирующей эффективности методов машинного обучения.

Макридакис, одно из самых известных имен в литературе по прогнозированию, недавно представил доказательства того, что классические методы систематически превосходят подходы машинного обучения для прогнозирования одномерных временных рядов [1]. Сюда входят такие алгоритмы, как LSTM, многослойный персептрон или гауссовы процессы. Удивительно (или нет, как мы увидим), большинство из них даже не могут превзойти простую сезонную наивную модель, использующую последнее наблюдаемое значение того же сезона для прогнозирования значения будущих наблюдений. Позже Макридакис опубликовал еще одну работу, в которой проводилось аналогичное сравнение для прогнозирования спроса [2]. В этом новом исследовании они пришли к выводу, что подходы машинного обучения обеспечивают лучшую производительность прогнозирования спроса.

Первое исследование завершается указанием на необходимость найти причины плохой прогностической эффективности моделей прогнозирования с машинным обучением по сравнению с классическими моделями.

Является ли это только вопросом конкретных приложений, то есть машинное обучение хорошо работает для прогнозирования спроса, но не в целом?

Размер имеет значение

Я считаю, что первое исследование смещено в сторону очень малых временных рядов. Они экспериментируют с набором из более чем 1000 временных рядов, но каждый отдельный временной ряд довольно мал. Среднее количество наблюдений составляет всего 118. В сообществе машинного обучения хорошо известен факт, что модели с большим количеством параметров, как правило, работают лучше, чем модели с меньшим количеством параметров, при использовании больших обучающих наборов. Это одна из причин, по которой глубокое обучение стало популярным только после того, как стали доступны большие наборы данных — нейронные сети могут иметь множество параметров и, как известно, очень требовательны к данным. Итак, очевидно, что для стандартов машинного обучения в среднем 118 точек данных, вероятно, недостаточно для создания модели, которая работает хорошо.

В их втором исследовании большая часть серии включала более 280 наблюдений. Хотя это по-прежнему считается небольшим размером для стандартов машинного обучения, это значительно больше, чем то, что использовалось в предыдущем исследовании. К сожалению, они не проверяли влияние размера обучающей выборки на результаты.

Проверка моей гипотезы

Я провел несколько экспериментов, чтобы проверить гипотезу о том, что размер обучающей выборки имеет значение при применении машинного обучения для прогнозирования. Я попробовал пять классических методов (ARIMA, ETS, TBATS, Theta и Naive) и пять подходов машинного обучения (Gaussian Processes, M5, LASSO, Random Forests и MARS) для прогнозирования следующего значения временного ряда и проверил их эффективность с помощью увеличение размера обучающей выборки.

Результаты показаны ниже на рисунке 1, где показана ошибка каждой модели по мере увеличения обучающей выборки. Ось X обозначает размер обучающей выборки, т. Е. Сколько данных используется для соответствия моделям прогнозирования. Ось Y представляет среднюю ошибку каждой модели во всех временных рядах, рассчитанную с использованием перекрестной проверки. У нас есть две сглаженные линии, выделенные жирным шрифтом, которые представляют сглаженную ошибку для каждого типа метода в соответствии с локальной взвешенной регрессией. Наконец, вертикальная черная линия в точке 118 представляет собой средний размер выборки, использованной в экспериментах Макридакиса.

Результаты показывают четкую тенденцию: Когда доступно только несколько наблюдений, классические методы показывают лучшую эффективность, тем самым подтверждая выводы Макридакиса. Однако по мере роста размера выборки методы машинного обучения превосходят классические.

Вы можете проверить мою полную статью здесь. Вы можете воспроизвести эти результаты с помощью кода, которым я поделился в своей учетной записи Github:

Гибридные решения

Естественно, свидетельство того, что модели машинного обучения не могут обобщать небольшие наборы данных, можно рассматривать как ограничение по сравнению с традиционными подходами. Тем более, что прогнозирование весьма актуально в таких областях, как макро- или микроэкономика, где количество наблюдений часто невелико. В таких случаях предпочтительнее более простые модели (с меньшим количеством параметров).

Тем не менее, модели машинного обучения могут оказать существенное влияние на более крупные временные ряды, например, собранные датчиками.

Возможно, лучшее решение заключается в сочетании машинного обучения с классическими моделями. Именно такой подход избрал победитель популярного конкурса прогнозистов M4. Победитель конкурса Славек Смил использовал экспоненциальное сглаживание для десезонализации и нормализации ряда, в то время как глубокая нейронная сеть (LSTM) выполняла работу по экстраполяции.

Увезти

  • Методы машинного обучения конкурентоспособны для прогнозирования при условии, что они имеют достаточно большой набор обучающих данных;
  • Когда доступно лишь небольшое количество наблюдений, предпочтительны классические методы, такие как ARIMA или экспоненциальное сглаживание;
  • Сочетание классических подходов, таких как экспоненциальное сглаживание, с машинным обучением может повысить точность прогнозирования.

Ссылки

[1] Макридакис, Спирос, Евангелос Спилиотис и Василиос Ассимакопулос. «Методы статистического прогнозирования и машинного обучения: проблемы и пути продвижения вперед». PloS one 13.3 (2018 г.): e0194889.

[2] Спилиотис, Евангелос и др. «Сравнение статистических методов и методов машинного обучения для ежедневного прогнозирования спроса на SKU». Операционные исследования (2020 г.)

[3] Серкейра, Витор, Луис Торго и Карлос Соарес. «Машинное обучение против статистических методов прогнозирования временных рядов: размер имеет значение». препринт arXiv arXiv:1909.13316 (2019 г.).