Недавно члены группы IMPACT Мутхукумаранн Рамасубраманян (Кумар), Икша Гурунг и доктор Манил Маскей вместе с доктором Габриэле Кавалларо и Рокко Седона провели учебное пособие по сквозному машинному обучению с высокой производительностью и облачными вычислениями в IGARSS (Международный Симпозиум по геонаукам и дистанционному зондированию) 2022 г. Целью семинара было обучить ученых передовым методам обучения их модели МО (машинного обучения) на рабочих станциях HPC (высокопроизводительных вычислений) и использования облачных технологий для получения выводов на основе обученных моделей. Команда IMPACT использовала обнаружение дыма на уровне пикселей по спутниковым изображениям в качестве примера использования для учебного пособия.
Это руководство актуально для сообщества IGARSS, поскольку исследователи в области наук о Земле обычно заканчивают жизненный цикл моделирования машинного обучения на этапе тестирования, на котором они сообщают о показателях производительности модели в публикациях. На этом семинаре рассказывается, как они могут перейти к следующему этапу — крупномасштабному выводу моделей машинного обучения по запросу — с использованием облачных вычислений. Кроме того, в учебнике представлен план для исследователей по использованию кластеров высокопроизводительных вычислений, предоставляемых университетами, и представлены концепции сетей и облачных вычислений, необходимые для масштабного развертывания модели машинного обучения, что делает ее доступной для вывода; то есть делать прогнозы на основе новых данных.
Исследователи в других областях также могут извлечь пользу из этого руководства. Лесные пожары случаются каждый год, что приводит к массовым задымлениям. Результаты обученной модели можно использовать для определения областей, затронутых задымлением, тем самым способствуя восстановительным работам.
Для Икши его работа в области обнаружения пикселей, описанная в этом руководстве, обусловлена его интересом к машинному обучению, облачным вычислениям и наукам о Земле. На вопрос, что вызвало его интерес к этой теме, Кумар заметил, что
Облачные вычисления быстро становятся неотъемлемой частью каждого рабочего процесса данных — от хранения до вычислений, в основном из-за простоты масштабирования и более быстрого внедрения инноваций.
Учебное пособие основано на данных GOES-16 (геостационарный оперативный экологический спутник) с использованием каналов 1–6 и включает метки, подготовленные экспертами в данной области, которые доступны в виде шейп-файлов. Другие темы, затронутые в руководстве, включают использование кластеров высокопроизводительных вычислений для обучения, включая упрощенные процессы отправки и мониторинга обучения и проверки машинного обучения, а также простое масштабирование обучения на несколько графических процессоров (графических процессоров). Также рассматривается конвейер облачного развертывания для обученной модели для логического вывода в реальном времени с помощью API (интерфейсов прикладных программ).
В рамках руководства д-р Кавалларо представил обзор высокопроизводительных вычислений, а д-р Маски — обзор облачных вычислений.
Команда IMPACT благодарна Техническому комитету IEEE по геонаукам и Обществу дистанционного зондирования по информатике наук о Земле и Суперкомпьютерному центру Julich (JSC) за техническую поддержку учебного курса и предоставление ресурсов HOC соответственно.
Более подробная информация об этом уроке доступна здесь.
Блокноты для этого руководства доступны на GitHub здесь.
Шейп-файлы для этого руководства доступны на GitHub здесь.
Учебные слайды доступны здесь.
Дополнительную информацию о IMPACT можно найти на NASA Earthdata и на веб-сайте проекта IMPACT.