Вы будете в безопасности на велосипеде домой

Недавно я наткнулся на набор данных, содержащий зарегистрированные несчастные случаи с участием велосипедистов, и мне, как специалисту по данным, который любит время от времени кататься по моему городу, это показалось хорошей возможностью поразвлечься с этими данными.

Чтобы быть более точным, данные формируют временной ряд за период с 2010 по 2018 год, когда несчастные случаи регистрируются полицией в хронологическом порядке, и открыто предоставляются городскими властями Мадрида по ссылке ниже. Также доступны несколько переменных, таких как местоположение, погода или дорожные условия, но мы опустим их для другого типа анализа и сосредоточимся на временных рядах.



Анализируя этот набор данных, мы можем дать информацию городу Мадриду, чтобы понять опасности для велосипедистов и в конечном итоге сделать его более безопасным городом для них.

Прерывистый временной ряд

Мы сталкиваемся с особым типом временных рядов, называемых прерывистыми временными рядами, где значительная часть значений равна нулю, поскольку в этом случае данные поступают из подсчетов.

Эти ряды представляют дополнительную сложность, поскольку многие из наиболее часто используемых методов анализа временных рядов предполагают постоянную или ненулевую переменную.

По этой причине мы будем использовать метод Кростона. Этот метод был разработан Дж. Д. Кростоном в 1970 году для прогнозирования спроса на прерывистые запасы и до сих пор широко используется. движется дальше.

Разложение временных рядов

Чтобы улучшить наше понимание данных, мы начнем с декомпозиции временных рядов.

Исходя из характера данных, нас могут интересовать два типа сезонности:

  • Ежегодная сезонность. Мы можем ожидать, что циклическая картина повторяется ежегодно из-за влияния хорошей и плохой погоды.
  • Еженедельная сезонность. Мы можем наблюдать другую закономерность, на которую влияют рабочие и выходные дни, что может повлиять на количество пользователей велосипеда, их маршруты и другое поведение. Это могло бы привести к лучшему пониманию поведения велосипедистов и стимулировать дальнейший анализ, например, нужно ли нам уделять больше внимания велосипедистам в рабочие дни, потому что большинство несчастных случаев происходит по дороге на работу?

Годовое разложение

Чтобы упростить работу с прерывистыми рядами, мы агрегируем ряды по месячной частоте, что также дает нам более плавный и менее шумный обзор.

Мы используем декомпозицию STL, сезонную и трендовую декомпозицию с использованием LOESS, это надежный метод для выполнения декомпозиции временных рядов, он также позволяет сезонной составляющей развиваться во времени. Внизу он использует LOESS, непараметрический метод, использующий полиномиальную регрессию, чтобы подогнать гладкую кривую к целевой переменной.

  • Мы можем наблюдать тенденцию к росту аварийности, которая стабилизировалась за последние три года, что может быть положительным признаком, если наша цель — сделать город более безопасным для велосипедистов.
  • Сезонный компонент из года в год показывает одинаковую картину с интересной формой: максимум приходится на июнь/июль и сентябрь, а спад – в августе. Мы можем предположить, что летом хорошая погода благоприятствует использованию велосипедов, и, возможно, провал в августе объясняется тем, что многие местные жители уезжают из Мадрида в этот месяц, чтобы отправиться в отпуск. Эта информация может быть полезна городским властям Мадрида, чтобы сосредоточить свой бюджет на кампаниях по безопасности дорожного движения в это время года.

Еженедельная декомпозиция

В этом случае мы не можем использовать тот же прием, что и раньше, агрегируя ряды, поэтому мы разложим его по методу Кростона, возьмем за образец последние 8 недель серии, поскольку этого должно быть достаточно, чтобы оценить любые четкие закономерности.

Метод Кростона создает два новых ряда:

  • q, называемое ненулевым спросом, или, в данном случае, периоды времени, когда происходили несчастные случаи.
  • a, называемое между прибытиями, или интервалом между двумя периодами времени, когда произошли несчастные случаи.

  • На первом графике, показывающем дни с несчастными случаями, мы не оцениваем соотношение рабочих дней и выходных, которое мы ожидали, или любую другую очевидную недельную схему.
  • Второй график, показывающий интервалы в днях между авариями, выглядит немного плоским, поскольку большую часть дней происходят аварии, а пики, обозначающие интервалы, выглядят разреженными и неравномерными.

Основываясь на этих выводах, мы не будем предполагать еженедельную сезонность, но было бы интересно углубиться в другие переменные в данных, чтобы сделать анализ более информативным.

Выбросы

Анализ прошлых выбросов может быть полезен для выявления необычайного всплеска дорожно-транспортных происшествий с велосипедистами и, например, для доказательства сочетания события особого времени с проблемным местом и/или погодными условиями. Эта информация может использоваться властями для применения исключительные меры по смягчению последствий, предотвращающие будущие аварии.

Используя предыдущую месячную декомпозицию, мы ищем выбросы, изучая распределение остатков.

Мы объявляем выбросом любой остаток, превышающий IQR в 1,5 раза, то есть в 1,5 раза превышающий диапазон между 25-м и 75-м процентилями распределения.

Это приводит к единственному выбросу в июне 2021 года, однако в этом случае я не могу найти с помощью других переменных в данных или других источниках новостей что-либо ненормальное, например, период плохой погоды или специальное мероприятие, проводившееся в Мадриде в этот период, которое могло бы пролить больше света на этот выброс.

Прогнозирование

Власти могут использовать прогнозирование, чтобы предвидеть наличие достаточных ресурсов для поддержки объема прогнозируемых несчастных случаев, с оперативной точки зрения это может быть еще более эффективным, если ориентироваться на меньшие части города, например, имея прогноз для каждого из регионы, в которых работает полицейский участок.

Мы продолжим использовать метод Кростона. Вместо того, чтобы предсказывать, когда именно произойдет авария, Кростон оценивает для каждого периода спрос и интервалы без спроса и прогнозирует усредненный спрос за период. В нашем случае нам не нужно точно знать, будет ли завтра ноль, одно или несколько несчастных случаев. Кадровая поддержка полиции, вероятно, решается не чаще, чем на еженедельной или ежемесячной основе, поэтому работать со средним спросом нормально.

Мы выбираем тестовый набор данных, состоящий из двух недель, и получаем следующие результаты.

Поскольку у нас есть прерывистые данные, которые включают нулевые значения, мы должны быть особенно осторожны при выборе метрики для измерения производительности модели.

  • Мы могли бы использовать среднюю абсолютную ошибку, MAE, однако, если, например, мы хотим разработать недельную модель, мы не сможем объективно сравнить их производительность, поскольку показатель будет зависеть от масштаба данных. .
  • Средняя абсолютная ошибка в процентах, MAPE, представляет собой относительный показатель, однако из-за прерывистых данных мы бы столкнулись с делением на ноль.
  • Средняя абсолютная масштабированная ошибка, MASE, позволяет обойти эти проблемы. Это надежная метрика для прерывистых рядов, которая дает нам безмасштабную метрику, основанную на соотношении между ошибкой прогнозирования и ошибкой наивной модели. который предсказывает предыдущую метку времени.

Наш прогноз составляет 1,33 на две недели, и модель получает MAE 0,92 и MASE 0,65. Это можно интерпретировать как то, что в среднем модель ошибается почти на 1 аварию из-за переоценки или недооценки, а MASE говорит нам, что модель превосходит базовый уровень наивного прогноза.

Я рекомендую читателю изучить другие варианты Croston, такие как SBA или TSB, чтобы улучшить эти результаты.

Заключение

В этой статье мы изучили данные о дорожно-транспортных происшествиях с участием велосипедистов, чтобы сделать Мадрид более безопасным городом для велосипедистов, и определили несколько вариантов использования, в которых может быть полезен анализ временных рядов, сосредоточив ресурсы на ключевых сезонных временах года, отслеживая выбросы для принятия исключительных мер. меры или путем прогнозирования количества несчастных случаев для обеспечения адекватной аварийной поддержки.

Что касается следующих шагов, я считаю, что этот набор данных имеет больший потенциал при анализе других переменных, таких как местоположение. Геопространственный анализ может выявлять проблемные местоположения и проблемы с доказательствами, такие как отсутствие дорожных знаков или недостаточное количество велосипедных дорожек и инфраструктуры. Его можно сочетать с анализом временных рядов для отслеживания эффективности принятых мер с течением времени. Кроме того, я бы предложил отдельно ориентироваться на разные модели поведения, например, на пассажиров пригородной зоны и велосипедистов-любителей.

Спасибо за чтение, вы можете найти весь код этой статьи в репозитории ниже.



Все изображения, если не указано иное, принадлежат автору.