Автор: Винфрид Рипкен

Введение

Краевая задача состоит из ряда дифференциальных уравнений в частных производных (УЧП) и набора дополнительных граничных условий, которые еще больше ограничивают пространство возможных решений. Краевые задачи встречаются во многих физических дисциплинах, таких как термодинамика или электромагнетизм, и поэтому имеют решающее значение для понимания и управления физическими процессами в различных областях, от проектирования электрических двигателей до прогнозирования погоды.

Решение таких краевых задач является одновременно сложной задачей и актуальной для многих реальных приложений. Кроме того, возможность использования численного моделирования упрощает получение наземных данных. Таким образом, краевые задачи предлагают большой потенциал для решения с использованием методов машинного обучения, которые могут быть быстрее, точнее или иным образом предпочтительнее классического моделирования. В этом сообщении блога мы сначала обсудим современное состояние пересечения этих двух интересных тем. Во второй части сообщения в блоге мы даем обзор возможных направлений будущей работы и обзор проблем, которые мы считаем особенно интересными для дальнейшего изучения.

Прежде чем мы обсудим применение ML в этой области, давайте рассмотрим простой пример PDE и соответствующих граничных условий. Пусть u — дважды дифференцируемая функция над открытой областью Ω и f(x) — достаточно гладкая функция, определенная на Ω. Тогда уравнение Пуассона в его общем виде имеет вид:

Распространенным граничным условием является фиксирование значения u на границе Ω до значений, определяемых другой функцией g(x). Этот тип граничного условия, когда значение решения известно вдоль границы области, известен как граничное условие Дирихле:

Вслед за Лангтангеном и соавт. (2017), практический пример уравнения Пуассона можно найти в электростатике. Электрический потенциал, вызванный распределением зарядов, можно найти, решив уравнение Пуассона для:

где ρ — плотность заряда в каждой точке, а ϵ — постоянная материала, называемая диэлектрической проницаемостью. Для простоты мы можем установить g(x)=0, чтобы потенциал был равен нулю везде на границе. Практический пример конкретного кругового распределения заряда можно увидеть на рисунке 1. Далее мы обсудим различные способы решения краевых задач в целом, а также их различные преимущества и недостатки.

(Не)нейронные подходы к решению PDE

Классические численные решатели

Обычные решатели, такие как метод конечных элементов (FEM), дискретизируют PDE на сетке, чтобы получить удобное приближенное решение. Их можно использовать в качестве универсальных решателей для решения широкого круга УЧП. Точность получаемых решений зависит от разрешения сетки FEM, налагая компромисс между временем выполнения и качеством решений.

Дискретизация функционального пространства приводит к матричному уравнению, которое решается для получения приближенного решения соответствующего УЧП. Это можно сделать с помощью точных или итерационных методов линейной алгебры. Логг и др. (2012) представляют обширное введение в тему, а также более подробно описывают решатель конечных элементов fenics как один из примеров реализации с открытым исходным кодом.

В то время как моделирование FEM дает высококачественные результаты, оно, как правило, является дорогостоящим в численном отношении из-за численного решения полученного матричного уравнения. Кроме того, любые незначительные изменения параметров задачи требуют полного повторного запуска для получения обновленных решений.

Сети, основанные на физике (PINN)

Сети, основанные на физике (Raissi et al. 2018), напрямую используют нейронные сети для параметризации решения одной краевой задачи с заданными ограничениями. Идея состоит в том, чтобы использовать физические уравнения (PDE) для генерации потерь для обучения сети. Точно так же граничные условия реализуются через функцию потерь. Когда мы применяем оптимизацию на основе градиента к этому параметру, мы можем обучить нейронную сеть, которая учится аппроксимировать решение для одной комбинации УЧП и граничных условий с течением времени. Подобно классическим численным решателям, эту процедуру оптимизации необходимо повторять для каждого изменения параметров УЧП или граничных условий, чтобы найти соответствующие веса для PINN. Обратите внимание, однако, что для обучения PINN не требуется физического моделирования. На рис. 2 показан пример PINN для рассмотренного выше электростатического уравнения Пуассона.

Нейронные операторы

В отличие от ранее обсуждавшихся методов, сети нейронных операторов (Lu et al. 2019) нацелены на непосредственное изучение оператора решения для набора УЧП. Это означает, что обученная сеть сможет обрабатывать различную дискретность домена и работать в изменяющихся граничных условиях. После обучения сети изменение параметров УЧП требует только одного прямого прохода сети для получения обновленного решения.

Сеть операторов принимает в качестве входных данных возможные изменяющиеся граничные условия и параметры УЧП и напрямую выводит функцию решения по всей области в дискретизированной форме. Недостатком сетей нейронных операторов является то, что их обычно сложнее обучить по сравнению с PINN, и для них требуются наземные достоверные данные, сгенерированные путем физического моделирования. Наземные данные затем используются для обучения сети под наблюдением. Пример сети оператора можно увидеть на рисунке 3.

Нейронные операторы Фурье

Более свежим ярким примером сети нейронных операторов является сеть операторов Фурье, представленная Li et al. (2020.1). Общей проблемой для операторских сетей, использующих, например, сверточные слои, является отсутствие обобщения дискретизации с очень разными разрешениями. Ли и др. (2020.1) предлагают вместо этого применять нейронный оператор в пространстве Фурье, где он полностью не зависит от разрешения. Комбинируя этот изученный оператор с быстрым преобразованием Фурье (БПФ), их подход очень быстр и дает точные результаты.

Хотя сети операторов Фурье устойчивы к изменениям разрешения сетки, они основаны на БПФ со сложностью O(n log n), где n — количество узлов в графе. Вычисление преобразования Фурье становится сложной задачей в случае произвольной сетки. Поскольку БПФ больше нельзя использовать, сложность преобразования Фурье возрастает до O(n²), что становится невозможным для больших графов. В качестве обходного пути Li и соавт. (2022) предлагают изучить дополнительный шаг деформации для преобразования нерегулярных сеток, что является более точным, чем интерполяция решения на равномерной сетке. Однако они исследуют только относительно небольшое подмножество возможных преобразований и не исследуют эффективность обобщения для сеток различной формы.

В заключение, существующая работа чаще всего улучшает производительность на одной оси, чтобы стать либо очень устойчивым в отношении разрешения, либо эффективно обрабатывать нерегулярные сетки. Могут ли нейронные операторы хорошо обобщать как очень разные разрешения, так и формы сетки, остается активным исследовательским вопросом.

Нейронные операторы на основе GNN:

Графовые нейронные сети (GNN) — это общий класс архитектур нейронных сетей, которые описывают операции, непосредственно выполняемые на графах. Прогнозы могут быть сделаны на уровне узлов, ребер или для всего графа и обычно выполняются с помощью метода, называемого передачей сообщений: соседние узлы отправляют сообщения друг другу, а агрегированная информация о сообщениях используется для формирования последующих состояний узла. GNN естественным образом подходят для данных с неравномерной сеткой и могут применяться непосредственно к любым обучающим данным, полученным в результате моделирования методом конечных элементов. Ли и др. (2020) одними из первых предложили использовать простой оператор передачи сообщений, в данном случае свертку графа с граничным условием (Симоновский и др., 2017, Гилмер и др., 2017), для изучения оператора решения для различных ПДЭ. На рисунке 5 показана подробная иллюстрация оператора GNN, работающего в дискретной сетке. В следующем разделе мы более подробно обсудим модели GNN и наметим дальнейшие направления исследований.

Направления исследований для обучения хорошего оператора GNN работе с PDE

Прежде всего, интересно подчеркнуть, почему мы должны пристальнее присмотреться к GNN для аппроксимации операторов решения для PDE: помимо естественной способности GNN справляться с нерегулярными сетками, исследования показали высокую эффективность обобщения таких моделей, даже для очень разных разрешение сетки в наборе поездов и тестов (Ли и др., 2020 г., Пфафф и др., 2020 г.). Кроме того, становится просто соединить различные системы координат, такие как пространство сетки и евклидово мировое пространство, для моделирования деформаций сетки или даже для адаптивного прогнозирования разрешения сетки с течением времени (Пфафф и др., 2020).

Увеличение и обобщение данных

Первое интересное направление исследований состоит в том, как добиться наилучшей производительности обобщения для обученного оператора. Это особенно важно для передачи моделей на практике, когда мы в идеале хотим полностью заменить дорогостоящее моделирование методом конечных элементов. В этом случае модель, которая была обучена только на подмножестве смоделированных данных, должна иметь возможность обобщать ранее неизвестные параметры PDE, граничные условия и различные сетки. Распространенным методом расширения возможностей обобщения является применение дополнения к обучающим данным, чтобы увеличить сложность обучающей задачи: в нашем случае, чтобы обнаружить истинный оператор решения вместо простого запоминания решений из предыдущих симуляций.

В Merantix Momentum мы сравнили различные методы расширения для этой задачи, чтобы определить те, которые позволяют модели лучше всего обобщать сетки различной формы во время тестирования (Lötzsch et al. 2022). Мы разработали новый метод, который мы называем увеличением сетки: мы немного меняем сетки FEM перед запуском физического моделирования, чтобы получить достоверные данные. Мы обнаружили, что увеличение сетки улучшает производительность обобщения намного сильнее, чем другие методы увеличения, если время, затрачиваемое на физическое моделирование, остается постоянным. В качестве альтернативы такие методы, как выпадение ребер или выпадение узлов, также повышают производительность обобщения и могут применяться к фиксированному набору данных. См. рисунок 6 для сравнения различных методов увеличения.

Обобщение на разные разрешения

Несмотря на то, что GNN могут научиться достаточно хорошо обобщать для различных сеток и разрешений FEM, как мы видели ранее, существуют некоторые ограничения для обобщения. Поскольку оператор GNN всегда локализован, становится особенно сложно передавать информацию на большие расстояния в графе. Это становится особенно проблематичным для сеток, которые имеют очень разные разрешения в разных областях, поскольку обновления посредством передачи сообщений могут застрять в областях с высокой плотностью. (Li et al. 2020.1) утверждают, что с наивным оператором GNN некоторые УЧП вообще не могут быть решены из-за этих трудностей.

Было предложено несколько методов для преодоления этого ограничения, в основном путем добавления дополнительных ребер к графу, охватывающему большие расстояния. Хорошим примером является нейронный оператор мультипольного графа (Li et al. 2020.2): этот оператор формирует иерархический граф, сначала соединяя все узлы, лежащие в относительно небольшом радиусе друг с другом. Затем узлы в графе случайным образом подвергаются субдискретизации, а ребра между случайно выбранными опорными узлами теперь создаются с большим радиусом. Процесс можно повторять много раз, пока не будут соединены узлы с достаточно большими расстояниями в графе. Таким образом, метод гарантирует, что информация может передаваться по всему графу, сохраняя при этом управляемость операции. Рисунок 7 визуализирует итеративную подвыборку графа и различные радиусы для соединения узлов.

Для будущей работы мы предполагаем, что существующие методы все еще могут быть значительно улучшены, когда речь идет об эффективной передаче информации в графе: вместо случайной подвыборки графа мы можем позаимствовать знания из теории графов, чтобы найти оптимальные пути между соответствующими узлами. В этом духе станет интересно посмотреть на подходы, организующие иерархические графы наиболее оптимальным образом (Малков и др., 2018). Другой подход может заключаться в изучении необходимых междугородных соединений, например, с использованием сети преобразования графов для прогнозирования соответствующих ребер (Юн и др., 2019). Кроме того, уже существуют архитектуры преобразователей, которые масштабируются до очень больших входных размеров и произвольных форматов данных, например. (Джегле и др., 2021 г.). Поэтому мы считаем, что следует исследовать нейронные операторы PDE, которые работают вообще без предопределенной структуры графа.

Включение физических предварительных знаний

Особенно для задач, требующих решения длительных циклов моделирования, становится особенно интересно объединить цели обучения операторов и PINN в одном подходе, чтобы нацелиться на обучение операторов общего назначения с меньшим количеством обучающих данных. В нашем недавнем исследовании (Lötzsch et al. 2022) мы заметили, что в некоторых пограничных случаях операторная модель, обученная на наземных данных, выдает прогнозы, которые нарушают известные физические принципы. Мы предполагаем, что включение физических ограничений может повысить точность прогнозов и ускорить процесс обучения, а также способствовать развитию возможностей обобщения.

В (Arnold et al. 2022) авторы предлагают использовать двухэтапную процедуру обучения. Они начинают с обучения сети оператора на ряде смоделированных образцов, полученных в результате наземного моделирования FEM. На втором этапе они используют цель физической подготовки, аналогичную PINN, для дальнейшего обучения. Они показывают, что, хотя ошибка обучения при моделировании реальных данных немного увеличивается во время второй фазы, обобщение и производительность теста значительно улучшаются. Точно так же Ли и соавт. (2021) объединяют физические задачи с обучением на основе данных для обучения более мощной операторской сети.

Обобщить на большее количество УЧП

Для практических целей важно, чтобы схема обучения для получения нейронного оператора была применима к новым задачам и работала во многих различных УЧП. Ли и др. (2021) предлагают использовать трансферное обучение для адаптации с эффективным использованием данных к новым, но похожим УЧП. Брандштеттер и др. (2022) даже предлагают изучать несколько PDE в сети одного оператора, вводя отдельные параметры, которые позволяют выполнять интерполяцию между этими разными PDE. Несмотря на это преимущество, они по-прежнему прибегают к использованию разных гиперпараметров и сетевых архитектур для очень разных PDE. Для эффективного переноса существующих подходов к многочисленным новым задачам будет важно построить операторы, которые будут достаточно общими, чтобы хорошо работать при различных ограничениях и с широким диапазоном различных УЧП и граничных условий.

Практические задачи

Наконец, существует также множество практических проблем при исследовании решателей Neural PDE. Особенно из-за отсутствия общих эталонных наборов данных в предметной области, в разных статьях отсутствует сопоставимость. Важным шагом на пути к созданию нейронных решателей PDE, более применимых к практическим задачам, будет создание единого набора эталонных тестов для сравнения различных подходов, как это имеет место в других областях, например, в обработке естественного языка (Wang et al. 2018). . В том же духе будет полезно собрать и сравнить существующие кодовые базы.

Заключение

В этом сообщении блога мы более подробно рассмотрели основанные на машинном обучении решения краевых задач в физике. Несмотря на то, что в этой области уже есть важные статьи, мы считаем, что большой потенциал все еще остается неисследованным. Графовые нейронные сети (GNN), в частности, позволяют обучать очень общие операторы решения, которые могут работать с произвольными сетками и могут быть значительно быстрее, чем моделирование методом конечных элементов. Мы коснулись дальнейших направлений исследований для этого типа оператора решения, а именно: повышение производительности обобщения за счет увеличения, работа с очень высокими разрешениями графа, включение предварительных физических знаний и обобщение на различные УЧП. Будет очень интересно следить за прогрессом в этих и смежных областях и наблюдать за возможным практическим применением этих достижений.

Рекомендации

  • (Logg et al. 2012) Logg, Anders, Kent-Andre Mardal, and Garth Wells, eds. Автоматизированное решение дифференциальных уравнений методом конечных элементов: Книга FEniCS. Том. 84. Springer Science & Business Media, 2012.
  • (Raissi et al. 2018) Раисси, Мазиар. «Глубокие скрытые физические модели: глубокое изучение нелинейных дифференциальных уравнений в частных производных». Журнал исследований машинного обучения 19, вып. 1 (2018): 932–955.
  • (Langtangen et al. 2017) Лангтанген, Ханс Петтер и Андерс Логг. Решение PDE в python: учебник FEniCS I. Springer Nature, 2017.
  • (Ли и др., 2020 г.) Ли, Зонги, Никола Ковачки, Камьяр Азиззаденешели, Буригеде Лю, Каушик Бхаттачарья, Эндрю Стюарт и Анима Анандкумар. «Нейронный оператор Фурье для параметрических дифференциальных уравнений в частных производных». Препринт arXiv arXiv: 2010.08895 (2020).
  • (Lu et al. 2019) Лу, Лу, Пэнчжан Джин и Джордж Эм Карниадакис. «Deeponet: изучение нелинейных операторов для определения дифференциальных уравнений на основе универсальной аппроксимационной теоремы операторов». Препринт arXiv arXiv: 1910.03193 (2019).
  • (Ли и др., 2022 г.) Ли, Цзунъи, Даниэль Чжэньюй Хуан, Буригеде Лю и Анима Анандкумар. «Нейронный оператор Фурье с изученными деформациями для pdes на общих геометриях». Препринт arXiv arXiv: 2207.05209 (2022 г.).
  • (Li et al. 2020.1) Ли, Зонджи, Никола Ковачки, Камьяр Азиззаденешели, Буригеде Лю, Кошик Бхаттачарья, Эндрю Стюарт и Анима Анандкумар. «Нейронный оператор: сеть ядра графа для дифференциальных уравнений в частных производных». Препринт arXiv arXiv: 2003.03485 (2020).
  • (Simonovsky et al. 2017) Симоновский, Мартин и Никос Комодакис. «Динамические фильтры с обработкой границ в сверточных нейронных сетях на графах». В материалах конференции IEEE по компьютерному зрению и распознаванию образов, стр. 3693–3702. 2017.
  • (Gilmer et al. 2017) Гилмер, Джастин, Сэмюэл С. Шенхольц, Патрик Ф. Райли, Ориол Виньялс и Джордж Э. Даль. «Передача нейронных сообщений для квантовой химии». На Международной конференции по машинному обучению, стр. 1263–1272. ПМЛР, 2017.
  • (Pfaff et al. 2020) Пфафф, Тобиас, Мейре Фортунато, Альваро Санчес-Гонсалес и Питер В. Батталья. «Изучение моделирования на основе сетки с помощью графовых сетей». Препринт arXiv arXiv: 2010.03409 (2020).
  • (Lötzsch et al. 2022) Lötzsch, Winfried, Simon Ohler и Johannes S. Otterbach. «Изучение оператора решения краевых задач с использованием графовых нейронных сетей». Препринт arXiv arXiv: 2206.14092 (2022 г.).
  • (Арнольд и др. 2022) Арнольд, Флориан Роберт Эдуард. «Beiträge zur aktiven Strömungsbeeinflussung: Systemmodellierung mit Methoden des maschinellen Lernens und ganzzahlig beschränkte Regelung für zyklische Prozesse». Кандидатская диссертация (2022 г.).
  • (Брандштеттер и др., 2022 г.) Брандштеттер, Йоханнес, Дэниел Уорролл и Макс Веллинг. «Нейронные решатели PDE для передачи сообщений». Препринт arXiv arXiv: 2202.03376 (2022 г.).
  • (Ли и др. 2020.2) Ли, Зонги, Никола Ковачки, Камьяр Азиззаденешели, Буригеде Лю, Эндрю Стюарт, Кошик Бхаттачарья и Анима Анандкумар. «Многополюсный граф-нейронный оператор для параметрических дифференциальных уравнений в частных производных». Достижения в области систем обработки нейронной информации 33 (2020): 6755–6766.
  • (Юн и др., 2019) Юн, Сонджун, Минбёль Чон, Рэхён Ким, Джеу Кан и Хёну Дж. Ким. «Сети графических трансформаторов». Достижения в области нейронных систем обработки информации 32 (2019).
  • (Jaegle et al. 2021) Jaegle, Andrew, Felix Gimeno, Andy Brock, Oriol Vinyals, Andrew Zisserman и Joao Carreira. «Воспринимающий: общее восприятие с итеративным вниманием». На Международной конференции по машинному обучению, стр. 4651–4664. ПМЛР, 2021.
  • (Малков и др., 2018) Малков Ю. А. и Дмитрий А. Яшунин. «Эффективный и надежный приблизительный поиск ближайшего соседа с использованием иерархических навигационных графов малого мира». Транзакции IEEE по анализу образов и машинному интеллекту 42, вып. 4 (2018): 824–836.
  • (Ли и др., 2021 г.) Ли, Цзунъи, Хункай Чжэн, Никола Ковачки, Дэвид Цзинь, Хаосюань Чен, Буригеде Лю, Камьяр Азиззаденешели и Анима Анандкумар. «Физически информированный нейронный оператор для изучения дифференциальных уравнений в частных производных». Препринт arXiv arXiv: 2111.03794 (2021 г.).
  • (Брандштеттер и др., 2022 г.) Брандштеттер, Йоханнес, Дэниел Уорролл и Макс Веллинг. «Нейронные решатели PDE для передачи сообщений». Препринт arXiv arXiv: 2202.03376 (2022 г.).
  • (Ванг и др., 2018 г.) Ван, Алекс, Аманприт Сингх, Джулиан Майкл, Феликс Хилл, Омер Леви и Сэмюэл Р. Боуман. «GLUE: многозадачная платформа для тестирования и анализа естественного языка». Препринт arXiv arXiv: 1804.07461 (2018).