Случайные процессы (семестровый проект)

1 РЕЗЮМЕ:

Традиционно прогнозы погоды составлялись с использованием сложных физических моделей, учитывавших различные погодные условия в течение длительного времени. Но эти условия часто неожиданно меняются, из-за чего модели дают неверные прогнозы. Для запуска этих моделей требуется много энергии в большой вычислительной среде с множеством узлов. В нашем проекте мы внедряем новый способ предсказания погоды. Вместо сложных моделей мы используем исторические данные с нескольких метеостанций для обучения простых моделей машинного обучения. Эти модели могут быстро давать прогнозы для конкретных погодных условий в ближайшем будущем. Самое приятное то, что для их запуска не требуется много ресурсов. Наша оценка показывает, что эти модели достаточно точны, чтобы их можно было использовать вместе с современными передовыми методами. Мы также обнаружили, что использование данных из нескольких близлежащих областей более выгодно, чем использование данных только из одной области для прогнозирования погоды.

2 ВВЕДЕНИЕ:

Погода играет решающую роль в нашей повседневной жизни, влияя на различные виды деятельности, такие как сельское хозяйство, путешествия и поездки на работу. Поскольку изменение климата вызывает быстрые и непредсказуемые изменения погоды, точные прогнозы необходимы для бесперебойной и безопасной работы. Современные модели прогнозирования погоды основаны на сложных физических моделях и требуют для работы больших компьютерных систем с сотнями узлов. Однако даже с помощью этих сложных устройств прогнозы могут быть неточными из-за неверных первоначальных измерений или неполного понимания атмосферных процессов. Кроме того, решение этих сложных моделей занимает много времени. Погода в одном месте зависит от погоды в других местах, поскольку системы перемещаются между регионами. В этом проекте мы предлагаем метод, который объединяет исторические данные о погоде из близлежащих городов с данными из конкретного города для прогнозирования его погодных условий. Обучая простые модели машинного обучения с использованием этих комбинированных данных, мы можем быстро и точно прогнозировать погоду на следующие несколько дней. Эти простые модели могут работать на доступных и менее ресурсоемких компьютерных системах, что делает их практичными для повседневного использования. Мы демонстрируем эффективность нашего подхода на примере Нэшвилла, города, известного своими непредсказуемыми погодными условиями, и показываем, что наша простая модель может давать надежные прогнозы для этого города. Основные вклады этой статьи включают в себя:

(1) Использование машинного обучения для прогнозирования погодных условий за короткие промежутки времени, которое может выполняться на менее ресурсоемких машинах.

(2) Внедрение автоматизированных систем для сбора исторических данных от специальной метеорологической службы.

3. Машинное обучение: для прогнозирования погоды

Машинное обучение — это метод, используемый в науке о данных, который создает модель на основе набора обучающих данных. Модель похожа на формулу, которая использует веса и значения для каждой переменной в данных для прогнозирования целевого значения. Каждая переменная имеет связанный с ней вес, который сообщает модели, насколько важна эта переменная для прогнозирования целевого значения. Для определения наилучших весов нам потребуется достаточное количество обучающих данных. После изучения весов модель может точно предсказать целевое значение для новых записей данных. Используя простые методы машинного обучения, мы можем не полагаться на сложные и ресурсоемкие традиционные модели погоды, используемые метеостанциями.

4 Методика:

В этом примере наша цель — использовать методы машинного обучения для прогнозирования температуры в Нэшвилле, штат Теннесси, на следующий день. Для этого мы собираем данные о погоде в Нэшвилле и нескольких близлежащих городах. Мы объединяем наблюдения за погодой из этих городов в определенное время, чтобы создать единую запись. Каждая запись содержит температуру. Затем мы назначаем целевую переменную как температуру в то же время на следующий день. Это означает, что мы прогнозируем температуру на следующий день на основе наблюдений за погодой в текущий день, а также наблюдений за погодой в течение следующих нескольких дней. 4.1. Методы машинного обучения. ценить. Для этого мы используем метод регрессии, в частности регрессию случайного леса (RFR). RFR выделяется как мощный регрессор, поскольку он объединяет прогнозы нескольких деревьев решений для принятия точных решений.

Рис. 1.карта Google Планета Земля, показывающая город Нэшвилл и окружающие его города. Пристрастие к городам может повлиять на погодные системы Нэшвилла.

5 НАБОР ДАННЫХ:

Для сбора данных о погоде мы использовали веб-сайт wunderground.com. Мы собрали данные о погоде в режиме реального времени специально для Нэшвилла, а также для девяти других близлежащих городов, включая Ноксвилл, Чаттанугу, Джексон, Боулинг-Грин, Падьюку, Бирмингем, Атланту, Флоренцию и Тупело (см. рис. 1). с помощью wunderground.com мы смогли получить список наблюдений за погодой для каждого места и даты.

5.1 Предварительная обработка данных:

После сбора данных мы делим их на два набора: обучающий набор и тестовый набор. Однако когда речь идет о целевой переменной (температуре), мы всегда прогнозируем температуру на следующий день в Нэшвилле. Учебный набор состоит из данных о погоде за два месяца, начиная с 1 июля 2018 г. по 31 августа 2018 г. С другой стороны, тестовый набор включает данные за семь дней, начиная с 1 сентября 2018 г. и заканчивая 7 сентября. , 2018. Проще говоря, обученная модель предсказывает температуру на 2 сентября, используя данные за 1 сентября в качестве тестовых данных. Точно так же температура на 3 сентября будет прогнозироваться на основе данных от 2 сентября и так далее для следующих дней.

Рисунок 2: (a) Рисунок: Обнаружение идеального совпадения: как регрессия случайного леса улучшает предсказание погоды

6. Результат:

В этом разделе мы представляем тщательную оценку наших моделей, обученных на данных метеостанций. Первый набор результатов показывает точность прогноза при увеличении обучающих данных за счет добавления большего количества соседних городов и добавления большего количества недель. Второй набор результатов в основном подчеркивает заметное улучшение производительности наших моделей, когда в обучающие данные включаются соседние города.

6.1 Показатели эффективности

На протяжении всего нашего эксперимента мы оцениваем производительность наших моделей, используя показатель, называемый среднеквадратичной ошибкой (RMSE). Расчет RMSE — простой процесс.

На рисунке 2(а)график прогнозов погоды показывает, что метод регрессии случайного леса достиг замечательной точности. Прогнозируемые значения близко соответствуют фактическим значениям, что указывает на то, что эта модель очень эффективна для понимания и прогнозирования погодных условий. Благодаря своей точной производительности метод регрессии случайного леса демонстрирует свою способность анализировать и понимать сложную природу данных о погоде. Этот график служит доказательством потенциальных преимуществ использования случайной регрессии леса в прогнозировании погоды, предлагая ценную информацию для будущих исследований и прогресса в этой области.

На рис. 2(b) мы постепенно включали больше городов, чтобы увидеть, как это повлияло на RMSE на тестовых данных. мы можем наблюдать ожидаемую тенденцию. Первоначально, когда модель обучалась с использованием только данных из Нэшвилла, наблюдаемое среднеквадратичное отклонение было довольно высоким, около 6,8. Однако, когда мы добавили еще один соседний город, производительность модели улучшилась. Хотя было небольшое ухудшение точности при рассмотрении трех соседних городов, это могло быть связано с тем, что погода в Нэшвилле не всегда в равной степени зависит от всех соседних городов. Некоторые сезонные изменения или неблагоприятные погодные условия в соседнем регионе могут не влиять на Нэшвилл в течение всего года. Но по мере того, как мы добавляли больше городов, RMSE заметно снижался. В случае десяти городов наблюдалось значительно более низкое среднеквадратичное отклонение.

7. ЗАКЛЮЧЕНИЕ:

В этом проекте мы представили технологию, которая использует методы машинного обучения, чтобы предлагать прогнозы погоды. Модели машинного обучения умнее и проще по сравнению с традиционными физическими моделями. Они требуют меньше ресурсов и могут работать на различных устройствах, включая мобильные устройства. Наша оценка показала, что эти модели машинного обучения могут точно предсказывать погодные условия, конкурируя с традиционными моделями. Кроме того, мы используем исторические данные из близлежащих районов, чтобы предсказать погоду в конкретной области. Такой подход оказывается более эффективным, чем рассмотрение только данных района, для которого составляется прогноз.

«Результаты вычисляются Python».

Рекомендации

[1] АХМ Джакария, доктор медицины Мошараф Хоссейн и Мохаммад Ашикур Рахман. Интеллектуальное прогнозирование погоды с использованием машинного обучения: тематическое исследование в Теннесси. 2020.

[2] Подземная погода. Подземная погода. Веб-сайт Weather Underground, nd