Проблемы и снижение рисков
На больших площадях земного шара нет доступа к ежедневным измерениям расхода воды. Однако прогнозы в этих регионах по-прежнему необходимы для понимания глобального водного цикла и смягчения последствий изменения климата. Модели глубокого обучения, такие как сеть долговременной кратковременной памяти (LSTM), в последнее время стали мощными инструментами гидрологического моделирования. Многие исследования показывают, что модель LSTM может значительно превзойти традиционные физические модели. Однако, если мы экстраполируем гидрологические модели, основанные на DL, откалиброванные в другом месте, на эти большие неизмеряемые регионы, насколько они надежны?
Ранее гидрологи в основном изучали проблему прогнозирования в неизмеряемых бассейнах (PUB), где целевой бассейн, нуждающийся в прогнозах, может быть представлен соседними или подобными бассейнами. Не было достаточного признания того, что предсказание в больших смежных областях с разреженными данными, которое мы называем предсказанием в неизмеряемых областях (PUR), является более сложной проблемой, чем PUB. С соседними донорами PUB относится к проблеме пространственной интерполяции, тогда как PUR по сути является пространственной экстраполяцией. В этом исследовании мы предложили проблему PUR и оценили производительность модели речного потока LSTM при экстраполяции на большие неизмеряемые регионы. Мы использовали набор данных с 671 бассейном США и разделили весь CONUS на семь регионов PUR. Каждый раз во время обучения модели тестировался один регион, и мы проводили перекрестную проверку, чтобы получить пространственные прогнозы вне выборки для всех семи регионов.
Результаты показывают, что для моделей глубокого обучения существует значительный риск при применении к пространственной экстраполяции. Производительность сильно падает от сценария PUB к сценарию PUR. Однако существует ли какая-либо стратегия для снижения потенциального риска моделей глубокого обучения для экстраполяции? Мы предложили несколько путей. Во-первых, используется «ансамбль выбора входных данных», что означает, что мы строим несколько моделей с различными конфигурациями входных данных атрибутов бассейна и используем средний прогноз из всех этих моделей. Этот ансамблевый метод может уменьшить потенциальное переоснащение моделей входными атрибутами и улучшить обобщаемость для неизмеряемых областей с непохожими атрибутами. Во-вторых, усваивается вспомогательная информация, более доступная для получения, чтобы ограничить прогнозы от экстраполяции. Например, в неисследованных районах мы всегда могли получить информацию о влажности почвы из спутниковых наблюдений. В некоторых регионах доступ к данным о суточном стоке затруднен, но можно получить информацию о продолжительности стока. Эта стратегия использует гибкость моделей DL для интеграции многотипной информации. Мы разработали ядро ассимиляции, по сути свёрточную нейронную сеть (CNN), для интеграции вспомогательной информации. Эти стратегии в значительной степени уменьшили ошибку прогноза и улучшили характеристики PUR.
Подводя итог, можно сказать, что прогнозирование в больших неизмеряемых регионах (PUR) необходимо для описания и количественной оценки глобального водного цикла, но представляет собой, пожалуй, одну из самых сложных задач для гидрологического моделирования. Фундаментальные неопределенности гидрологической модели DL, примененной к смежным регионам с редкими данными, в некоторой степени были упущены из виду, что намного больше, чем те, о которых сообщалось в предыдущих исследованиях PUB с плотными соседними представлениями. Мы должны тщательно изучить характеристики модели DL при применении их к пространственной экстраполяции. Хотя потенциальный риск существует, в этом исследовании также предложен способ снижения рисков и получения эффективных моделей за счет использования алгоритмов глубокого обучения, методов уменьшения ошибок и дополнительных наборов данных.
Справочник
Фэн, Д., Лоусон, К., и Шен, К. (2021). Уменьшение ошибки прогнозирования моделей потоков с глубоким обучением в больших регионах с разреженными данными с помощью ансамблевого моделирования и мягких данных. Письма о геофизических исследованиях, 48, e2021GL092999. https://doi.org/10.1029/2021GL092999
Биография автора:
Дапэн Фэн - доктор философии. Кандидат кафедры гражданской и экологической инженерии Пенсильванского государственного университета. Его исследовательские интересы сосредоточены на крупномасштабном гидрологическом моделировании путем интеграции физических моделей и моделей глубокого обучения, интеграции данных из нескольких источников для прогнозирования речного стока и воздействия изменения климата на водные ресурсы.