1. Введение
- 1 фон
Представьте, что вы едете на работу. Вы наслаждаетесь поездкой в хорошую погоду, ожидая, чтобы провести время с семьей. Внезапно вы попадаете в сильную пробку. Вы чувствуете раздражение и наблюдаете за ситуацией.
Сразу же вы видите несколько полицейских машин на расстоянии нескольких метров. Наличие машины скорой помощи указывает на бедствие. Что, если бы мы могли разработать систему, которая могла бы предупреждать о беспрецедентном событии, которое должно произойти. Это не только предотвратит такие события в первую очередь но также позволит путешественникам изменить свой маршрут в случае любого такого инцидента.
Несчастные случаи - одни из самых страшных бедствий, с которыми можно столкнуться. Это не только стоило мировой экономике 1,8 триллиона долларов США (в постоянных ценах 2010 года) в 2015–2030 годах. Не ограничиваясь этим, эти события также приводят к гибели нескольких драгоценных жизней каждый год. Многие люди теряют своих близких из-за этих беспрецедентных событий. Наконец, многие путешественники также страдают от задержек в пути из-за неопределенных событий. Таким образом, имея возможность точно предсказать происшествие, мы не только сэкономим триллионы долларов, но также сможем спасти множество драгоценных жизней. Наконец, мы могли бы сделать поездки более безопасными.
1.2 Проблема
Данные, которые могут способствовать возникновению аварии или серьезности аварии, включают дорожные условия, условия освещения, местоположение, влажность, погоду, превышение скорости. Этот проект направлен на прогнозирование серьезности аварии при различных обстоятельствах.
1.3 Процент
Очевидно, что руководители правительства, логистические компании и те, кто ездит на работу очень часто, будут очень заинтересованы, поскольку это потенциально может спасти их триллионы долларов и огромное количество человеческих жизней.
2. Сбор и очистка данных
2.1 Источники данных
Набор данных, который мы использовали в этом проекте, был предоставлен Seattle SPD. Этот набор данных был размещен в облаке IBM. Оттуда данные были загружены. Он был предоставлен вместе с метаданными, что сделало процесс понимания данных очень осуществимым и удобным.
2.2 Очистка данных
В этом наборе данных, предоставленном SPD, было много пропущенных значений. Он содержал много повторяющихся вещей и значений, которые не использовались нами в большой степени, поэтому нам нужно было многое почистить.
Первым шагом было преобразование всех категориальных переменных в числовые. Алгоритмы машинного обучения работают только с числовыми данными, но не работают с категориальными данными. Поэтому этот шаг был очень важен.
Первым шагом было проверить, сколько данных отсутствует и каков процент отсутствующих данных. Это было сделано, чтобы проверить, не слишком ли много данных отсутствует, т. Е. ›60% отсутствующих данных означает, что эту функцию необходимо удалить.
Мы также должны были проверить, были ли данные MCAR, MAR, MNAR. Если они отсутствовали полностью случайным образом, мы могли бы вменять их, используя обратное или прямое заполнение. Но если они систематически отсутствуют, это может вызвать огромные проблемы в нашем расчеты.
Оказалось, что для таких переменных, как превышение скорости, невнимательность и некоторые другие, отсутствовало более 75% данных. Это могло привести к большой систематической ошибке в нашем результате. Эти функции были опущены. Оставшиеся функции были заполнены методом обратной засыпки.
2.3 Разработка функций
После очистки данных было около 197000 строк и ›40 функций. Многие из этих функций не имели отношения к делу, например, регистрационный идентификатор, ключ инцидента и т. Д.
Были исключены следующие функции:
- ST_COLCODEText: код, предоставленный состоянием, описывающим столкновение.
- ST_COLDESCText: описание, соответствующее кодовому обозначению штата.
- SDOTCOLNUM: номер, присвоенный столкновению SDOT.
- SDOT_COLDESC: описание столкновения, соответствующее коду столкновения.
- SDOT_COLCODE: код, присвоенный столкновению SDOT.
- EXCEPTRSNCODE
- ИСКЛЮЧЕНИЕ
- МЕСТО: Описание общего места столкновения.
- SEVERITYDESC: подробное описание серьезности столкновения.
- COLLISIONTYPE: Тип столкновения
- ТРАВМЫ: Общее количество травм при столкновении. Это введено государством.
- СЕРЬЕЗНЫЕ ТРАВМЫ: Количество серьезных травм при столкновении. Это вводится государством.
- FATALITIES: Количество погибших при столкновении. Это вводится государством.
2.4 Работа с несбалансированными данными
Набор данных, который мы получили от SPD, был очень несбалансированным. Соотношение между одним классом и другим было почти 1: 3. Изначально, когда мы разрабатывали модель, она давала очень предвзятый результат в пользу большинства классов. Очевидно, это должно было случиться с такими предвзятый набор данных. Теперь было ограниченное количество вариантов в отношении несбалансированного набора данных. Результатом было сокращение класса большинства выборки, чтобы соответствовать второстепенному. Это улучшило общую производительность набора данных.
3. Исследовательский анализ данных
3.1 Связь между аварией и местоположением
Анализируя данные, чтобы найти взаимосвязь между аварией и местом, где произошла авария, чтобы проверить взаимосвязь между ними, был сделан следующий вывод.
- Если кто-то проезжает через квартал, он с большей вероятностью столкнется с беспрецедентными обстоятельствами, чем при проезде через перекресток или переулок.
- Однако для человека, проезжающего по переулку, все наоборот: вероятность попадания в аварию минимальна.
- Если человек попал в аварию, он с большей вероятностью столкнется с незначительным материальным ущербом, чем с травмами.
- Серьезность аварии на перекрестке выше, чем на блоках, в основном из-за высокой скорости и разнонаправленного движения на перекрестке. С другой стороны, блоки имеют определенные ограничения скорости, и поэтому повреждения менее смертельны.
3.2 Связь между условиями освещения и аварией
Широко признано, что больше несчастных случаев со смертельным исходом может произойти при плохой освещенности и меньше несчастных случаев будет происходить при хорошем освещении, но при анализе данных мы пришли к противоположным выводам.
- ДТП со смертельным исходом чаще случается при дневном свете, чем в темноте или при плохом освещении. В основном это связано с тем, что водители становятся неосторожными при хорошем освещении.
- Однако меньше аварий происходит в условиях плохой освещенности, это можно объяснить тем фактом, что водители водят более осторожно при плохой освещенности.
- Интересным фактом было то, что несчастные случаи, связанные с солнечным светом, более опасны по сравнению с несчастными случаями из-за типа местоположения.
- Как видно на графике, вероятность таких аварий со смертельным исходом выше, чем незначительный материальный ущерб.
3.3 Связь между погодой и авариями
Более широко распространено мнение, что плохая погода приводит к увеличению количества несчастных случаев или влияет на их тяжесть. Хотя это соответствует здравому смыслу, но не всегда верно.
Следующим был наш вывод,
- В суровую погоду метеорологические и радиостанции выпускают множество предупреждений, которые заставляют водителей проявлять осторожность, а водители используют всевозможные меры безопасности, чтобы защитить себя.
- В ясную погоду государство или станции не выпускают предупреждений, поэтому водители становятся менее осторожными по сравнению с плохой погодой.
- Однако в случае погодных условий серьезность аварии противоположна той, которая была в случае световых условий.
- Человек, попавший в аварию в ясную погоду, с большей вероятностью получит травму, чем материальный ущерб.
- Тем не менее, два фактора, которые также были задействованы, - это пасмурная погода и дождь, которые в некоторой степени влияют на тяжесть аварии.
4. Прогностическое моделирование
В соответствии с нашей основной целью мы хотим разработать систему, которая может прогнозировать состояние и серьезность аварии, а также факторы, которые на них влияют. Это не только позволит нам принимать меры предосторожности в этих определенных обстоятельствах, но и позволит нам предотвратить любой ущерб, нанесенный в окружающей среде. первое место.
Существуют различные статистические методы для разработки математической модели для различных обстоятельств. Мы постараемся разработать несколько моделей из широкого спектра вариантов, чтобы проверить важность функций.
4.1 Модель классификации
Термин «классификация» в названии относится к связыванию объектов с определенным классом с целью их идентификации в соответствии с определенными атрибутами. В статистике термин «классификация» относится к классификации объектов по определенным характеристикам или зависимым переменным.
Математически модель классификации относится к развитию вероятностной связи между одной или несколькими независимыми переменными (также называемыми независимыми переменными) с зависимой переменной.
В статистике существует множество классификационных моделей, каждая из которых имеет определенную силу и отстает в каком-то другом аспекте. Мы попробуем использовать следующие модели в этом проекте.
- Классификатор дерева решений
- Машина опорных векторов
- Классификатор случайного леса
- Классификатор Ada Boost
Далее следует F1, оценка точности, точности и отзывчивости различных моделей.
Классификатор дерева решений
- Оценка точности 0,66
- Оценка точности 0,66
- Напомним, оценка 0,66
- Оценка F1 0,66
Машина опорных векторов
- Оценка точности 0,66
- Оценка точности 0,66
- Напомним, оценка 0,66
- Оценка F1 0,66
Классификатор случайного леса
- Оценка точности 0,66
- Оценка точности 0,66
- Напомним, результат 0,66
- Оценка F1 0,66
Классификатор Ada Boost
- Оценка точности 0,65
- Оценка точности 0,66
- Напомним, результат 0,65
- Оценка F1 0,66
Классификатор XG Boost
- Оценка точности 0,67
- Оценка точности 0,67
- Напомним, результат 0,67
- Оценка F1 0,67
5. Результат и обсуждение
Хотя все модели давали схожие результаты и были эффективны, но были определенные различия, поэтому в итоге мы решили использовать модель XG Boost, так как она обеспечивает лучшую точность, результат f1, точность и отзывчивость. один пакет у нас был.
После выполнения сложных статистических методов мы должны были проанализировать, какие факторы влияют на дорожно-транспортные происшествия больше, чем другие. Это основная цель этого курса, как упоминалось во введении.
Результатом стало то, что в аварии участвовало большее количество людей, транспортных средств, пешеходов, увеличилась опасность аварии и наоборот.
Это было ожидаемо с самого начала, но что удивительно, так это то, что в один день несчастных случаев случается чаще, чем в другой. В эти дни обычно либо начало рабочей недели, либо конец рабочей недели, в основном понедельник или пятница.
Меры предосторожности могут помочь нам в первую очередь избежать возникновения подобных ситуаций. В обычные дни необходимо проявлять большую осторожность, поскольку путешественники становятся небрежными, когда ситуация нормальная, и это приводит к катастрофе.
Кроме того, нам необходимо уменьшить количество транспортных средств на улице, чтобы предотвратить другие проблемы, связанные с движением. На переулках должны быть более строгие законы о контроле скорости, а водители должны больше наказываться.
6. Заключение
Хотя мы получили точность ~ 67%, используя модели классификации с использованием XG Boost, однако ее можно улучшить. Многие важные функции пришлось исключить из-за того, что в них отсутствуют 75 ~ 90% данных. Если бы мы пытались заполнить их, используя что-то мы могли бы смещать наш набор данных, и в конечном итоге мы бы смещали наш набор данных. Если бы в наборе данных были все переменные, он был бы намного точнее.
Ссылки:
Для кода этого проекта
Центр Git: https://github.com/Syed-Sherjeel/Coursera_Capston
По любым вопросам,
Электронная почта: [email protected]