Использование статистической постобработки для улучшения моделей погоды

На этой неделе на осеннем собрании Американского геофизического союза (AGU) мы представили доклад на тему Улучшение прогнозов ветра в нижней стратосфере с использованием метода аналогового ансамбля, основанный на работе в сотрудничестве с Лукой Делле Монаш и Ааканкшей Сингхом.

Loon использует модель прогноза высокого разрешения (HRES) Европейского центра среднесрочного прогнозирования (ECMWF), чтобы помочь нашим воздушным шарам проходить через стратосферу, поскольку эта модель, основанная на физике, в настоящее время является лучшей в мире моделью оперативного прогнозирования стратосферных ветров. ECMWF HRES и современные численные модели в целом представляют собой удивительный подвиг науки и техники. Прогнозирование погоды — чрезвычайно трудная задача, и чем больше я узнавал, тем больше меня впечатляла работа, проделанная в этой области.

Наш подход заключается в том, чтобы взять результаты основанной на физике модели HRES и применить подход статистического обучения, который (будем надеяться) улучшит окончательный результирующий прогноз. Эта комбинация тяжелой работы с высококачественной моделью, основанной на физике, и этапом улучшения, полученным на основе данных, может улучшить базовые навыки прогнозирования одной только модели, основанной на физике.

На самом деле, наши эксперименты показывают, что мы можем значительно улучшить прогнозы скорости и направления ветра в районе Луна и в интересующем временном диапазоне. С запуском Loon в Кении в 2019 году мы ориентируемся на тропические широты (диапазон от -20 до 20 градусов широты). Мы уже усваиваем наблюдения вокруг воздушных шаров Loon и можем экстраполировать краткосрочные тенденции, поэтому нас больше всего интересуют более длительные сроки прогнозирования.

На следующем рисунке показан ключевой результат наших экспериментов. Мы применяем этот метод ко всем прогнозам HRES, подготовленным за последний год или около того, демонстрируя улучшение CRMSE на 2–20 % в диапазоне заблаговременностей в нашем тропическом диапазоне. Мы поддерживаем или улучшаем корреляцию между прогнозом и тем, что мы принимаем за истину (срез анализа с нулевым временем выполнения).

Используя полмиллиона наблюдений со стратостатов Loon, дрейфующих по ветру за этот период времени, мы можем подтвердить, что выходные данные этой совместной системы ECMWF и системы постобработки Loon лучше прогнозируют ветры в стратосфере.

Аналоговый ансамблевый подход далеко не нов, и о многих успехах сообщается в литературе, например, [1]. Этот метод основан на поиске подобных ситуаций в прошлом, на том, что предсказывали физические модели, а затем (используя силу задним числом) на том, что произошло на самом деле. Это похоже на то, как со временем вы узнаете, что, когда друг говорит вам, что опаздывает на 5 минут, он обычно опаздывает на 15–22 минуты. Потребность в большей сложности возникает потому, что для поиска улучшений мы должны учитывать более детальные факторы, например, какой это друг, откуда он, каковы условия трафика.

Несмотря на то, что основы метода хорошо известны, мы считаем, что наша работа интересна сообществу по двум основным причинам:

(1) Мы успешно применяем этот метод к новой области (стратосферные ветры над трехмерной сеткой), которая, насколько известно авторам, является первой.

(2) Масштаб и скорость, с которой мы применяем этот метод, отличаются от большей части того, о чем сообщается в литературе.

В частности, мы используем нашу систему для улучшения полной глобальной модели и ожидаем, что сможем постобработать новый прогноз от ECMWF, добавив не более 30 минут задержки (и, вероятно, значительно меньше) между созданием прогноза и использованием навигации Loon. система. Задержка важна для операционной системы реального времени, потому что неудивительно, что самые свежие данные, как правило, являются наиболее точными.

Мы используем распределенный центр обработки данных в облаке Google для быстрой обработки большого количества данных: везде в стратосфере в текущем прогнозе сравниваем со всеми прогнозами за последние несколько лет, чтобы охотиться за похожими ситуациями.

Эта распределенная архитектура также важна для обучения системы тому, что следует считать похожим, что варьируется от места к месту и в разное время выполнения заказа. На следующем графике показано, насколько важной мы считаем одинаковую скорость ветра при определении того, является ли ситуация похожей для определенного среза высоты по всему миру. Анимация показывает, насколько этот параметр меняется в зависимости от времени выполнения заказа.

Наш метод не всегда лучше. Например, мы не смогли улучшить прогнозы с очень коротким временем выполнения по всему миру. (См. рисунок ниже.) Именно здесь модель, основанная на физике, имеет наименьшую возможность накапливать ошибки в своих прогнозах, поэтому постобработка дает наименьшую ценность. Но мы еще не сдались!

С успехом глубоких нейронных сетей во многих областях у нас возникает один вопрос: можно ли изучить все вышеперечисленное в «черном ящике» от начала до конца? Насколько известно авторам, это еще не было продемонстрировано в литературе, хотя попытки с некоторым успехом были.

Мое в настоящее время необоснованное убеждение состоит в том, что аналоговый подход успешен как форма регуляризации для предотвращения переобучения многих, многих параметров, связанных с успешным улучшением постобработки без использования моделей для прогнозов, основанных на физике. Одним из направлений наших исследований является объединение нашего текущего подхода с другими методами обучения (такими как глубокое обучение), чтобы задействовать возможности более выразительных представлений обучения, не переоснащая и не снижая навыков прогнозирования.

Мы с нетерпением ждем возможности поделиться нашим подходом с исследовательским сообществом в статье, которую мы готовим для представления на рассмотрение. Мы благодарим AGU за возможность обсудить наши результаты и получить отзывы и предложения от сообщества.

¹ См. Сон Ричардсона для довольно удивительного введения в то, как появились численные модели погоды.

² Время выполнения прогноза — это горизонт, для которого вы делаете прогноз. Например, прогноз на 12 часов, сгенерированный в этот момент, имеет заблаговременность 12 часов. Возможно, вы также создали прогноз на тот же момент времени вчера, и этот прогноз будет иметь заблаговременность 24 + 12 = 36 часов.

³ CRMSE — центрированная среднеквадратическая ошибка, которая представляет собой компонент ошибки прогноза, не включающий систематическую ошибку. Мы смотрим на CRMSE, а не только на RMSE, поскольку иногда можно уменьшить RMSE без повышения качества прогнозирования.

[1] Делле Монаш, Лука, Ф. Энтони Экель, Даран Л. Райф, Бадринатх Нагараджан и Кит Сирайт. Вероятностный прогноз погоды с помощью аналогового ансамбля. Ежемесячный обзор погоды 141, вып. 10 (2013): 3498–3516.