Изменение климата - одна из самых серьезных проблем, с которыми мы сталкиваемся как биологический вид, а вырубка лесов - один из ключевых факторов, способствующих этому. Эта статья призвана показать, как можно отслеживать вырубку лесов с помощью машинного обучения (ML) и данных о лесах в открытом доступе.
Эта проблема
Давайте объясним, как мы сюда попали. С начала двадцатого века мы привыкли добывать подземные ископаемые виды топлива, получать из них энергию и закачивать образующиеся парниковые газы в атмосферу. Эта практика позволила отраслям процветать, улучшить транспорт и предоставить большему количеству людей доступ к электричеству. Поначалу это не казалось очень вредным. Поскольку население мира начало быстро расти, а уровень потребления в значительной части мира также вырос, это вышло из-под контроля. Повышенный спрос на товары, транспорт и электроэнергию привел к увеличению загрязнения атмосферы.
Кроме того, рост численности мирового населения увеличил потребность в продовольствии. Растущий спрос на продукты питания побудил нас использовать больше земель для сельского хозяйства и животноводства за счет вырубки лесов. Вырубка деревьев усугубляет ситуацию, поскольку леса отлично справляются с улавливанием углекислого газа, парникового газа с наибольшей концентрацией в атмосфере.
Объединение этих двух явлений привело нас в очень деликатное положение. Увеличили источники выбросов парниковых газов. В то же время мы сократили механизмы поглощения таких выбросов из атмосферы самой природой. Это равновесие между источниками и поглотителями нарушилось, что привело к накоплению парниковых газов и глобальному потеплению. Доктор Джонатан Фоули четко объясняет это явление . Он очень известный ученый-эколог и исполнительный директор Project Drawdown. Миссия этой инициативы - помочь миру достичь точки, при которой уровни парниковых газов в атмосфере перестанут расти и начнут неуклонно снижаться, что позволит избежать катастрофического изменения климата.
В этой истории есть и положительная сторона. В последние годы мы начали осознавать опасность загрязнения атмосферы и вырубки лесов. Мы проснулись, когда начали воочию видеть последствия изменения климата: рекордные лесные пожары, уничтожающие леса в Австралии и Калифорнии, и большие ледяные шапки, ломающиеся от полюсов. Осознание этого потребовало многих усилий на уровне правительства, таких как Парижское соглашение и частных инициатив, таких как Breakthrough Energy Ventures под руководством Билла Гейтса и XPrize под руководством Илона Маска. Это также стимулировало усилия в сообществах стартапов. Новые компании вводят новшества и предлагают возможные решения по сокращению выбросов или увеличению поглощения парниковых газов, накопленных в атмосфере.
Возможное решение, вытекающее из Киотского протокола, - введение компенсаций за выбросы углерода. Они работают, позволяя предприятию компенсировать свои выбросы где-то за счет сокращения выбросов где-то еще. Поскольку парниковые газы широко распространены в атмосфере, климат выигрывает от сокращения независимо от того, где оно происходит. В обычной терминологии газы, выделяемые в результате какой-либо деятельности, считаются углеродным следом. Когда компенсация выбросов углерода компенсирует этот след, деятельность считается углеродно-нейтральной. Компенсации за выбросы углерода можно покупать, продавать или продавать как часть углеродного рынка. Наличие законной торговой площадки - огромная техническая проблема по нескольким причинам. С одной стороны, это включает мониторинг того, что проекты, направленные на улавливание углерода из атмосферы, улавливают то количество, которое они сообщают. Кроме того, необходимо подтвердить, что сокращение выбросов одним проектом не учитывается дважды, что сделало бы недействительными основополагающие принципы рынка.
Такие компании, как Pachama и Natural Capital Exchange, вводят новшества, чтобы сделать рынок углеродных кредитов подотчетным и надежным. Они используют последние технологические достижения в области дистанционного зондирования и машинного обучения (ML). Методы дистанционного зондирования направлены на обнаружение и отслеживание изменений в области на основе измерений, проводимых на расстоянии. В этой области за последнее десятилетие произошел значительный прогресс благодаря росту компаний, предоставляющих спутниковые снимки с лучшим разрешением и меньшим временем просмотра, таких как Satellogic и Planet Labs. ML - это область, в которой обучаются алгоритмы, работающие на машинах, для выполнения сложных задач. Именно в этой области технологии совершили самые невероятные прорывы за последние годы.
Эта статья призвана показать, как можно автоматически отслеживать вырубку лесов с помощью спутниковых снимков с высоким разрешением. Такой инструмент обладает огромной силой для предотвращения вырубки лесов, обеспечивая прозрачность в этом вопросе. Эту цель преследуют несколько инициатив. Институт мировых ресурсов предоставляет Глобальную лесную стражу - онлайн-инструмент, который поддерживает обновленную карту лесного покрова и его изменений из года в год. Planet Labs также предложила в партнерстве с Kaggle конкурс Планета: понимание Амазонки из космоса. Он был направлен на оценку алгоритмов машинного обучения для отслеживания человеческого следа в тропических лесах Амазонки.
Решение
Данные обучения
Одной из основных проблем при построении контролируемых моделей машинного обучения является отсутствие помеченных данных. Они необходимы, чтобы обучить алгоритмы в дальнейшем выполнять задачу, которую нужно решить в ранее невидимых данных. К счастью, задача Kaggle Планета: понимание Амазонки из космоса дает именно это. Предоставленные данные для обучения взяты из изображений бассейна Амазонки, снятых спутниками Planet's Flock 2 в период с 1 января 2016 г. по 1 февраля 2017 г. На изображениях видны красный (R), зеленый (G), синий (B) и синий цвета. диапазоны ближнего инфракрасного (NIR) диапазона. Расстояние между снимками и землей (GSD) составляет 3,7 м, и они ортотрансформированы с размером пикселя 3 м.
Метки включают несколько интересных явлений в бассейне тропических лесов Амазонки. Их можно разделить на атмосферные условия, общий земной покров / использование и редкий земельный покров / использование. Давайте посмотрим на несколько примеров:
Вы можете найти более подробную информацию о данных и ярлыках в Разделе данных задания Kaggle.
Изображения дистанционного зондирования захватываются и передаются с использованием различных спектральных диапазонов. В основном используются те, которые находятся в видимом спектре: R, G и B, а также в ближнем инфракрасном (NIR).
Задача Kaggle предоставляет данные в двух разных форматах:
- Изображения с четырьмя полосами (RGB-NIR) и полным разрешением доступны в виде файлов
GeoTiff
. - Дана
jpeg
сжатая версия снимков, содержащая только видимые полосы (RGB).
GSD в обоих случаях одинаков, поскольку файлы jpeg
не являются субдискретизированными версиями исходных изображений. Но они могут страдать от артефактов, возникающих при сжатии jpeg с потерями. Кроме того, файлы GeoTiff
содержат данные, закодированные в 16-битном формате, тогда как пакет данных jpeg
содержит только 8-битные. Это означает, что jpeg
изображения имеют меньший динамический диапазон.
Обсуждение различий между обоими форматами данных можно найти здесь.
Для обучения классификатора мы используем jpeg
сжатую версию изображений. Использование GeoTiff
захватов создает проблему: сверточные нейронные сети (ConvNets) обычно предварительно обучаются с помощью базы данных ImageNet. Следовательно, они ожидают только изображений RGB с 8-битным кодированием. Банк фильтров, которые они реализуют, не подходит для обработки четырехполосных изображений с данными, кодированными с использованием 16 бит. Мы могли бы подумать об адаптации архитектуры классификатора для обработки этого дополнительного канала. Но мы решили оставить эту альтернативу на будущее.
Классификатор
Чтобы решить проблему, нам нужно реализовать классификатор изображений. В последние годы ConvNets показали лучшие результаты в этой задаче на самых разных наборах данных. Мы решили использовать ConvNet Resnet50, чтобы найти компромисс между размером, сложностью и производительностью сети. Вы можете найти технические детали и код в записной книжке Jupyter, которую я опубликовал публично здесь. Основные выводы внедренного решения:
- Мы используем трансферное обучение для точной настройки сети для конкретного набора данных и меток. Обучение сети с нуля требует значительного количества времени графического процессора и большого количества данных. Мы избегаем этого, используя предварительно обученный набор параметров, изученный на популярном наборе данных распознавания изображений ImageNet. Большинство курсов глубокого обучения охватывают углубленное трансферное обучение. Вы можете найти технические подробности в лекциях Стэнфорда по CS231n. Ресурсы PyTorch также предоставляют отличное практическое руководство.
- Мы можем классифицировать изображение по нескольким категориям, что делает это проблемой классификации по нескольким меткам. Чтобы легко обрабатывать метки, мы используем MultiLabelBinarizer от scikit-learn.
- При обучении ConvNet критическим параметром, который нам необходимо откалибровать, является скорость обучения. Оптимальная скорость обучения зависит от сетевой архитектуры, набора данных и обычно изменений в процессе обучения. Мы используем политику одного цикла, которая обеспечивает быструю конвергенцию сети за несколько периодов обучения. В статье « Политика 1 цикла: эксперимент, устранивший борьбу в обучении нейронных сетей »
дается очень простое объяснение принципов, лежащих в основе этой стратегии и ее детали реализации. Эта политика полезна при обучении моделей в облаке, поскольку она подталкивает сеть к конвергенции за несколько итераций, экономя ресурсы времени на обучение.
Реализованная сеть получила оценку 0,89188 в испытании Kaggle. Наивысший результат в таблице лидеров соревнований составил 0,93317. Уверен, что полученный результат мы сможем улучшить. Другие Kagglers достигли 0,924662 балла за счет точной настройки и уточнения ResNet50 ConvNet, аналогичной используемой в реализованном классификаторе. В связанном блокноте Jupyter есть список возможных альтернатив для улучшения производительности классификации. Тем не менее, полученный результат кажется достаточно хорошим для продвижения к конечной цели - внедрению автоматического инструмента мониторинга обезлесения.
Данные о вырубке лесов в открытом доступе
Теперь, когда у нас есть классификатор, следующим шагом для реализации инструмента автоматического мониторинга обезлесения является доступ к данным для мониторинга. Поскольку обезлесение в настоящее время является критически важной мировой проблемой, несколько инициатив направлены на предоставление бесплатных ресурсов для содействия продвижению в этой области. Одна из них - это программа изображений Международная инициатива по климату и лесам Норвегии (NICFI). Это партнерство между NICFI, Kongsberg Satellite Services (KSAT), Airbus и Planet со следующей целью.
Благодаря норвежской Международной инициативе по климату и лесам любой желающий теперь может получить доступ к готовым для анализа мозаикам тропиков планеты с высоким разрешением, чтобы помочь сократить и обратить вспять процесс исчезновения тропических лесов, бороться с изменением климата, сохранить биоразнообразие и способствовать устойчивому развитию.
Вы можете найти технические детали имеющихся данных и способы их использования на домашней странице программы. Представленные мозаики покрывают лесные тропические районы между 30 градусами северной широты и 30 градусами южной широты. Исключаются некоторые не покрытые лесом или малолесистые районы, а также некоторые страны. Для конкретной области, которой мы планируем заняться в этой статье, эти исключения не являются проблемой, поскольку включен весь бассейн Амазонки. Представленные изображения содержат видимые спектральные полосы RGB и NIR с пространственным разрешением 4,77 м / пикс. Временное разрешение предоставленных изображений следующее:
- Снимки предоставляются два раза в год в период с декабря 2015 года по август 2020 года.
- Ежемесячные изображения предоставляются с сентября 2020 года.
Пока что у нас есть:
- Представлены основные причины и последствия изменения климата.
- Подчеркнул важность лесов как части решения и необходимость их сохранения.
- Объяснил, как мы можем отслеживать вырубку лесов, реализуя классификатор на основе хорошо известной архитектуры ConvNet.
- Показано, как можно получить доступ к данным открытого доступа из лесов как для обучения, так и для оценки классификатора.
Этот рассказ - первый раздел статьи, состоящей из двух частей. В следующем мы представляем оценку решения в данных программы NICFI и анализируем полученные результаты. Обсуждаем также выводы и направления будущей работы. Вторую часть вы можете найти здесь.