Модель предиктивной аналитики количественно определяет социальное, экономическое и экологическое воздействие инвестиций в конкретный проект по восстановлению лесных ландшафтов.

Этот вызов Omdena был организован Фондом триллиона деревьев.

Авторы: Дипали Бидваи, Эмерсон Карлос, Стриватсав Ашвин Рамамурти

«Если дерево падает в лесу, и никто не может его услышать, издает ли оно звук?» — известный философский вопрос о восприятии и наблюдении. И, как и в нашем вопросе, польза от восстановления лесных ландшафтов для борьбы с изменением климата звучит для мира, или он просто падает, и никто не слышит, не наблюдает и не воспринимает.

По данным фонда Trillion Tree Fund (1tfund), изменение климата может стоить миру ~ 792 триллиона долларов в следующие 80 лет. Восстановление лесных ландшафтов (FLR) помогает снизить эти риски; например, мангровые заросли поглощают 70–90% штормовых нагонов. FLR может принести экономическую выгоду от 7 до 30 долларов на каждый вложенный доллар. Тем не менее, эти сопутствующие выгоды недооцениваются рынками. Это создает серьезное препятствие для финансирования FLR, ежегодный дефицит инвестиций которого составляет около 400 миллиардов долларов.

Почему так важно инвестировать в проекты FLR?

Способность деревьев поглощать углекислый газ и другие газы из атмосферы уже давно сделала их ценным оружием в борьбе с повышением температуры. Одно взрослое дерево может поглотить 48 фунтов. углерода в год и производит достаточно чистого кислорода, чтобы 4 человека могли дышать свежим воздухом.

Согласно целям Парижского соглашения, изменение глобальной температуры в конце этого века необходимо ограничить 2 градусами Цельсия и настойчиво стремиться к 1,5 градусам Цельсия.

Межправительственная группа экспертов по изменению климата (IPCC) заявила, что если мир хочет ограничить повышение температуры до 1,5°C к 2050 году, потребуется дополнительный 1 миллиард гектаров (2,4 миллиарда акров) деревьев.

Как сделать так, чтобы это звучало?

Поняв масштаб проекта, мы количественно оценили ущерб от наводнений с учетом или без учета преимуществ проекта FLR для конкретного региона США в долларах США. Были объединены наборы данных о стихийных бедствиях, пользе деревьев и спутниковых снимках.

В проекте использовался стандартный конвейер сбора данных, предварительная обработка, консолидация, EDA, разработка модели и развертывание информационной панели.

Очистка и консолидация данных

Необработанные данные были обработаны путем исключения ненужных записей, замены отсутствующих или ошибочных данных, стандартизации даты и времени и объединения некоторых непрерывных атрибутов. Замена отсутствующих категориальных значений наиболее частыми, замена отсутствующих числовых значений средним или медианным значением, замена некоторых значений (при определенных условиях) с помощью методов машинного обучения без учителя.

После того, как очистка данных была объединена, команда подготовила сводный документ, содержащий список атрибутов и упоминание о том, почему для этого набора данных необходимо выполнить EDA.

Исследовательский анализ данных

Стихийные бедствия, такие как наводнения, оползни, штормовые нагоны, цунами, землетрясения, циклонические ветры и лесные пожары, становятся все более частыми и интенсивными во всем мире, что подчеркивает необходимость более целостной стратегии борьбы с ними. В Международной базе данных о стихийных бедствиях (EM-DAT) задокументировано в среднем 363 стихийных бедствия в год с 1990 по 2020 год, причем наиболее распространенными были наводнения и ураганы.

Среднегодовая общая смертность от стихийных бедствий за этот период составляет 170 984 человека. В результате землетрясений погибло не менее 1,24 миллиона человек во всем мире. Штормы и наводнения также унесли почти 1 миллион человек (реальное число может быть намного больше из-за нюансов сбора данных).

Среднегодовые экономические потери составляют более 107 миллиардов долларов США. Ежегодно в период 1990–2020 годов от стихийных бедствий страдало 175 миллионов человек. На речные наводнения, тропические циклоны и конвективные штормы приходится большая часть материального ущерба.

Команда также использовала библиотеки Auto EDA, такие как Sweetviz, D-Tale, Pandas Profiling и Autoviz, для быстрого получения информации. в наборы данных.

Моделирование

Первоначально были собраны все наборы данных, связанные с лесами, стихийными бедствиями и преимуществами деревьев. После применения алгоритмов предварительной обработки, таких как логарифмическое преобразование и вменение, наборы данных использовались для моделирования. В машинном обучении есть два типа алгоритмов — модели классификации и регрессии, в зависимости от конечного результата.

Мы смоделировали регрессионную модель для обучающих данных, чтобы количественно оценить социальные, экономические и экологические последствия ущерба от наводнений и спрогнозировать последствия на следующие 40 лет. Модель регрессии позволяет нам прогнозировать непрерывную зависимую переменную (y) на основе значения одной или нескольких независимых переменных/предикторов (x). Как показано ниже, зависимая/прогнозируемая переменная (y) будет представлять собой стоимость ущерба от наводнения в США, а независимые/прогнозирующие переменные (x) – это переменные, влияющие на ущерб от наводнения.

Были созданы следующие модели:

  • Прогноз временных рядов (ARIMA) для прогнозирования ВВП, населения и уровня инфляции
  • · Различные регрессоры для прогнозирования числовых значений, например, ущерба, количества смертей.
  • · Различные классификаторы для прогнозирования категориальных значений, например, потерь биомассы, наборов данных о лесных пожарах.
  • · Модели классификации на National Forest2_Bienville-сокращение для определения, какие типы деревьев находятся в Изобилии.
  • Методы регрессии для Time_series_US_1980–2021 для определения общей стоимости ущерба.
  • Обученная модель U-NET для потери древесного покрова получила оценку IOU 0,81.

Команда также использовала Pycaret для создания двух регрессионных моделей: стоимость ущерба от наводнения без проекта FLR фонда Trillion Tree Fund, который состоит из предикторов Xn переменных для его количественной оценки, и стоимость ущерба от наводнения с проектом FLR Trillion. Фонд дерева, который состоит из Xn переменных-предикторов с переменной Z «Преимущества деревьев» для ее количественной оценки.

Вот пример производительности модели с использованием библиотеки Pycaret.

Производительность всех моделей

Здесь мы используем функцию compare_models библиотеки Pycaret, чтобы найти лучший алгоритм. На основе метрик функция ранжирует модель. Мы обнаружили, что первой лучшей моделью для набора данных является классификатор повышения ADA. Затем мы можем отдельно взять классификатор повышения ADA для данных и выполнить настройку гиперпараметров.

Создать модель

Настроить модель

Импортируйте как файл рассола, чтобы интегрировать его.

Ниже приведены примеры созданных файлов pickle.

ГИС

Помимо наборов табличных данных, команда извлекла спутниковые изображения из GEE (Google Earth Engine), связанные с изображениями древесного покрова. После того, как предварительная обработка спутниковых изображений была выполнена на платформе GEE (Google Earth Engine), они использовались для обучения модели U Net. Модель U Net в основном используется в приложениях компьютерного зрения для сегментации изображений. Изображения древесного покрова были извлечены за годы с 2003 по 2020 год. После этого мы использовали методы увеличения изображений, чтобы увеличить количество изображений в наборе обучающих данных.

Развертывание приложения Streamlit в Heroku

Streamlit — это платформа веб-приложений для локального развертывания моделей машинного обучения с использованием Python. Heroku — это облачная платформа как услуга (PaaS) для развертывания современных приложений в Интернете, и она использовалась для развертывания нашего приложения Streamlit.

Команда создала onetfund_app.py с помощью Streamlit. Теперь пришло время развернуть приложение с помощью Heroku.

Шаг 1. Запустите приложение Streamlit локально.

Чтобы запустить код локально с помощью Streamlit, нам нужно открыть наш терминал/приглашение, найти каталог, в котором сохранен наш файл Python onetfund_app.py, и выполнить следующую команду.

# Локальный запуск Streamlit

Запустите Streamlit onetfund_app.py

Окно откроется автоматически в браузере.

Шаг 2. Создайте и разветвите репозиторий на GitHub.

Команда создала репозиторий под названием Dashboard-Heroku для нашего приложения.

После создания репозитория нажмите кнопку «fork».

Все файлы, необходимые для развертывания на Heroku, предоставляются в репозитории.

Репозиторий содержит следующие важные файлы.

-Readme- Этот файл содержит подробную информацию о нашем приложении.

-Python-файлы- При разработке панели аналитики воздействия, помимо основной целевой страницы внешнего интерфейса, были созданы 6 других страниц для отображения количественного социального, экономического, экологического и финансового воздействия инвестиций в конкретный проект FLR.

-Pickle files - Все модели сохраняются в виде файлов pickle.

Помимо создания вышеуказанных файлов, непосредственно связанных с приложением Streamlit, были созданы следующие файлы.

-Procfile- Procfile создается для запуска файла setup.sh и веб-приложения Streamlit.

-requirements.txt- Все библиотеки, которые мы будем использовать в нашем скрипте Python, добавлены в этот файл. Этот файл указывает Heroku установить все необходимые библиотеки Python, необходимые для запуска нашего приложения.

-настраивать. sh — этот файл создан для решения всех проблем на стороне сервера, таких как номер порта, который будет добавлен в конфигурацию.

Шаг 3. Подключитесь к Heroku

Когда у нас есть все необходимые файлы, пришло время настроить наше приложение для взаимодействия с Heroku.

Перейдите на Heroku и создайте учетную запись. Как только мы окажемся на панели инструментов Heroku, нажмите «Создать новое приложение». Здесь у нас есть возможность выбрать свой регион.

Затем в методе развертывания нажмите GitHub и подключите нашу учетную запись GitHub к Heroku. Как только мы подключимся к нашей учетной записи GitHub, введите имя нашего репозитория, чтобы сохранить все ваши файлы.

Команда включила опцию автоматического развертывания, поэтому всякий раз, когда в файлах нашего веб-приложения на GitHub происходят изменения, оно автоматически развертывает наше веб-приложение на Heroku.

Мы видим, как он устанавливает все необходимые библиотеки Python и зависимости в режиме реального времени. Как только это будет сделано, мы увидим сообщение: Ваше приложение было успешно развернуто, и когда мы нажмем кнопку «Просмотр», оно откроет наше приложение.

Заключение

Восстановление лесных угодий (FLR) помогает снизить риски изменения климата, такие как наводнения и лесные пожары, и может быть экономически выгодным. Принимая во внимание миссию Фонда триллиона деревьев по мобилизации финансирования природоохранной деятельности для восстановления 1,2 триллиона деревьев и восстановления экосистемы, что позволит компенсировать выбросы углерода за десятилетие, создать рабочие места и уменьшить денежные и социальные последствия стихийных бедствий; команда сотрудников работала над созданием панели прогнозирующей аналитики воздействия для количественной оценки социальных, экономических и экологических последствий инвестиций в конкретный проект восстановления лесных ландшафтов.

Эта статья первоначально появилась в блоге Omdena.