Модели машинного обучения — это мощные инструменты для прогнозирования, которые стали играть неотъемлемую роль в технологиях, финансах, науке и многих других областях. Однако их предсказания часто сопровождаются некоторой степенью неопределенности, которую необходимо учитывать для принятия обоснованных решений. Для количественной оценки этой неопределенности мы используем интервалы прогнозирования. Давайте поговорим об основных идеях, лежащих в основе интервалов прогнозирования, обсудим, почему они важны, как они рассчитываются и каковы некоторые из их ограничений.

Интервалы прогнозирования: показатель неопределенности

Интервал прогнозирования обеспечивает расчетный диапазон, в пределах которого вероятно попадет будущее наблюдение. Он основан на определенном уровне достоверности, скажем, 95%, подразумевая, что 95 из 100 подобных будущих наблюдений попадут в расчетный диапазон. В отличие от доверительных интервалов, которые количественно определяют неопределенность оценки параметра, интервалы прогнозирования охватывают диапазон, в который, вероятно, попадает прогнозируемое наблюдение — они оценивают неопределенность, связанную с отдельными прогнозами.

Интервалы прогнозирования полезны, когда мы хотим сделать конкретные прогнозы о будущих наблюдениях и должны оценить диапазон потенциальных результатов. Например, в финансовом прогнозировании знание потенциального диапазона цен на акции может помочь в оценке рисков. Точно так же в прогнозировании погоды интервалы прогнозирования позволили бы более эффективно планировать за счет количественной оценки неопределенности в прогнозе — вы поняли идею.

Расчет интервалов прогнозирования

Создание интервалов прогнозирования может быть выполнено с помощью различных методов. Вот некоторые из распространенных методов со связанными источниками:

  1. Аналитические методы: они в основном используются для более простых моделей, таких как линейная регрессия, где интервалы прогнозирования могут быть вычислены непосредственно из параметров модели и остатков. Он включает в себя вычисление стандартной ошибки прогноза, а затем создание диапазона вокруг прогнозируемого значения на основе выбранного уровня достоверности, обычно с использованием нормального распределения, если предполагается, что член ошибки имеет нормальное распределение.
  2. Методы повторной выборки: начальная загрузка — это мощный статистический инструмент, который можно использовать для оценки интервалов прогнозирования путем повторной выборки набора данных с заменой и создания бутстрепного распределения прогнозов. Затем интервалы прогнозирования оцениваются путем выбора соответствующих процентилей из этого распределения. Этот метод является гибким и может использоваться практически с любым типом прогностической модели, но может потребовать значительных вычислительных ресурсов, особенно с большими наборами данных или сложными моделями.
  3. Байесовские методы: байесовские методы обеспечивают вероятностную основу для моделирования неопределенности и, следовательно, естественным образом подходят для оценки интервала прогнозирования. Они оценивают апостериорное распределение по параметрам модели с учетом наблюдаемых данных. Прогнозы, наряду с неопределенностью, делаются путем выборки из этого распределения. Например, в байесовской линейной регрессии мы получим распределение по возможным линиям регрессии, а интервал прогнозирования будет получен из соответствующего распределения прогнозируемых значений. Хотя байесовские методы могут быть более сложными с математической и вычислительной точек зрения, они могут обеспечить более тонкое понимание неопределенности модели.
  4. Квантильная регрессия: этот метод напрямую моделирует условные квантили целевой переменной вместо условного среднего (как это делает традиционная регрессия). Подбирая модели для различных квантилей, он позволяет оценить полное условное распределение переменной отклика и, следовательно, интервалы прогнозирования.
  5. Выпадение Монте-Карло: этот метод обычно используется с глубокими нейронными сетями. На этапе прогнозирования некоторые нейроны случайным образом выпадают или выключаются, по существу создавая множество различных моделей. Дисперсия в прогнозах этих моделей может использоваться для построения интервалов прогнозирования.
  6. Глубокая квантильная регрессия: это подход к моделям глубокого обучения, который напрямую изучает различные квантили выходного распределения для построения интервалов прогнозирования. Это особенно полезно для оценки неопределенности в нейронных сетях.
  7. Гетероскедастичные модели: Гетероскедастичность относится к состоянию, когда изменчивость члена ошибки или шума не является постоянной на всех уровнях независимых переменных. Некоторые модели машинного обучения, такие как регрессия гетероскедастических гауссовских процессов, могут явно моделировать это и напрямую предоставлять интервалы прогнозирования.

Дополнительные соображения

Создание интервалов прогнозирования необходимо для количественной оценки неопределенности в прогнозах машинного обучения, но создание и интерпретация этих интервалов связаны с множеством проблем и дополнительных соображений. Описанные выше методы имеют свои сильные стороны и ограничения, и выбор метода будет зависеть от конкретного контекста, включая сложность модели, характер данных и доступные вычислительные ресурсы. Например, аналитические методы лучше всего подходят для более простых моделей, таких как линейная регрессия, и предлагают простые расчеты, но менее эффективны при работе со сложными моделями или когда их предположения (например, нормальное распределение, гомоскедастичность) нарушаются. Методы повторной выборки, такие как начальная загрузка, являются гибкими и применимы практически к любой модели, но могут потребовать значительных вычислительных ресурсов для больших наборов данных или сложных моделей. Байесовские методы идеально подходят для интеграции априорной информации и обеспечения комплексной количественной оценки неопределенности, но могут требовать значительных вычислительных ресурсов и значительных статистических знаний. Кроме того, точный расчет интервалов прогнозирования становится более сложным для временных рядов или пространственных данных из-за корреляции или зависимости наблюдений, нестационарности и экстремальных событий или выбросов, которые могут существенно повлиять на традиционные методы. Оценка интервалов прогнозирования также представляет сложности, поскольку для этой цели существует меньше стандартизированных показателей по сравнению с точечными прогнозами, что затрудняет бенчмаркинг и сравнение.

Давайте философствовать

На более глубоком уровне понятие интервалов предсказания пересекается с несколькими философскими идеями. Во-первых, использование интервалов прогнозирования признает, что прогностические модели обеспечивают не идеальные прогнозы, а диапазоны, в которые, вероятно, попадают будущие наблюдения. Выбор уровня достоверности для интервалов прогнозирования и спецификация априорных значений в байесовских методах вводят элементы субъективности, что приводит к переоценке баланса между субъективностью и объективностью в статистическом выводе. Это связано с более широкими спорами об интерпретации вероятности — следует ли рассматривать ее как долговременную частоту (частотная интерпретация) или как субъективную степень уверенности (байесовская интерпретация). Кроме того, акцент на прогнозировании, а не причинном объяснении, отражает более широкую дискуссию в статистике и машинном обучении о прогнозировании и объяснении. Наконец, существуют этические аспекты интерпретации и передачи интервалов прогнозирования. Излишне самоуверенные прогнозы могут привести к принятию неверных решений, что подчеркивает ответственность специалистов по данным за точное информирование о неопределенности прогнозов.

Заключение

Интервалы прогнозирования представляют собой мощный инструмент для количественной оценки неопределенности прогнозов машинного обучения, способствуя принятию более обоснованных решений. Поскольку модели машинного обучения и искусственного интеллекта продолжают информировать критически важные области общества, потребность в надежных мерах неопределенности, таких как интервалы прогнозирования, будет только расти.

Источники и дополнительная литература

Гал, Ю., и Гахрамани, З. (2016). Отсев как байесовское приближение: представление неопределенности модели в глубоком обучении (arXiv:1506.02142). архив https://arxiv.org/abs/1506.02142

Хескес, Т. (1996). Практическая достоверность и интервалы прогнозирования. Достижения в области нейронных систем обработки информации, 9. https://proceedings.neurips.cc/paper_files/paper/1996/hash/7940ab47468396569a906f75ff3f20ef-Abstract.html

Кумар С. и Шриристава А. Н. (2012 г., 12 августа). Интервалы прогнозирования начальной загрузки в непараметрической регрессии с приложениями для обнаружения аномалий. 18-я конференция ACM SIGKDD по открытию знаний и интеллектуальному анализу данных, Пекин. https://ntrs.nasa.gov/citations/20130014367

Ле, К.В., Смола, А.Дж., и Кану, С. (2005). Регрессия гетероскедастического гауссовского процесса. Материалы 22-й Международной конференции по машинному обучению — ICML ’05, 489–496. https://doi.org/10.1145/1102351.1102413

Шреста, Д.Л., и Соломатин, Д.П. (2006). Подходы машинного обучения для оценки интервала прогнозирования выходных данных модели. Нейронные сети, 19(2), 225–235. https://doi.org/10.1016/j.neunet.2006.01.012

Тагасовска, Н., и Лопес-Пас, Д. (2019). Одномодельные неопределенности для глубокого обучения. Достижения в области нейронных систем обработки информации, 32. https://proceedings.neurips.cc/paper_files/paper/2019/hash/73c03186765e199c116224b68adc5fa0-Abstract.html