АНАЛИЗ ДОРОЖНЫХ ДАННЫХ В СИЭТЛЕ И ПРОГНОЗИРОВАНИЕ РИСКОВ

Окончательный проект IBM

Пуджа Мишра (10 октября 2020 г.)

1.Введение

Этот проект является нашей последней отправкой на курс IBM Data Science Professional Certificate на Coursera. Цель проекта — детализировать и использовать набор инструментов Data Science для прогнозного анализа.

Мы будем работать над реальной проблемой и продемонстрируем, как машинное обучение может помочь нам предсказать и обработать значение, применяя полученные навыки.

2. Деловое понимание

2.1 Предыстория:

По данным WSDOT за 2017 год, каждые 4 минуты происходит автомобильная авария, а каждые 20 часов в результате автокатастрофы погибает человек. Количество ДТП со смертельным исходом увеличилось с 508 в 2016 году до 525 в 2017 году, в результате чего погибло 555 человек. Это число оставалось относительно стабильным в течение последнего десятилетия. По данным WSDOT за 2017 год, каждые 4 минуты происходит автомобильная авария, а каждые 20 часов в результате автокатастрофы погибает человек. Количество ДТП со смертельным исходом увеличилось с 508 в 2016 году до 525 в 2017 году, в результате чего погибло 555 человек. Это число оставалось относительно стабильным в течение последнего десятилетия.

2.2 Постановка проблемы:

Как мы видим из приведенного выше справочного заявления, количество аварий со смертельным исходом имеет тенденцию к росту или остается стабильным в течение последнего десятилетия в Сиэтле, согласно WSDOT.

2.3 Цель проекта:

Цель проекта состоит в том, чтобы собрать данные и определить причины аварии и атрибуты, которые приводят к ее серьезности.

С помощью визуализации данных и алгоритма машинного обучения мы будем анализировать широкий спектр атрибутов, включая погодные условия, состояние дорог, превышение скорости, особые события, дорожные работы, пробки и другие, и мы попытаемся предсказать, какие условия могут способствовать повышению серьезные несчастные случаи, которые могут привести к гибели людей или утрате имущества. WSOT может использовать модель, чтобы принять меры предосторожности, чтобы свести к минимуму потерю имущества и жизни.

Снижение стоимости страховки и предотвращение несчастных случаев

2.4 Заинтересованные стороны:

Государственные чиновники

Аварийно-спасательные службы (диспетчеры 911)

Обычные люди

Страховые компании

2.5.Понимание данных

Мы выбрали общедоступные данные из открытого источника, доступные с помеченными столбцами, атрибутами и данными наблюдений, чтобы помочь нам лучше провести наш анализ.

Пример данных ниже

Ссылка на данные

https://s3.us.cloud-object-storage.appdomain.cloud/cf-courses-data/CognitiveClass/DP0701EN/version-2/Data-Collisions.csv

https://www.seattle.gov/Documents/Departments/SDOT/GIS/Collisions_OD.pdf

Данные состоят из 40 независимых переменных и 221738 строк. Зависимая переменная «SEVERITYCODE» содержит числа, соответствующие различным уровням серьезности аварии, от 0 до 4.

Коды серьезности следующие:

0: неизвестно

1: Повреждение собственности

2: Травма

2b: Серьезная травма

3: Фаталити

4. Подготовка данных

2.6 Данные о дорожном движении в Сиэтле, США, доступны из открытого источника (ссылка, указанная выше).

2.7 После того, как данные были извлечены, сохранение необходимых столбцов во фрейме данных.

2.8 Исключение строк с нулевыми значениями.

2.9 Преобразование типа данных для анализа.

3.0 Загрузите данные во фрейм данных.

Исходный размер фрейма данных

Отсутствующие значения из фрейма данных

Подготовка данных после очистки данных

Очистка данных — удаление ненужных столбцов.

Приведение столбцов к правильному типу данных (числовые переменные) для вычислений.

Подсчет в зависимости от состояния дороги

5. Исследовательский анализ данных

Мы проведем подсчет стоимости дороги («ROADCOND») и погодных условий («WEATHER»), чтобы получить представление о различных дорожных и погодных условиях. Мы также проверим количество значений в условиях освещения («LIGHTCOND»), чтобы увидеть разбивку аварий, происходящих при различных условиях освещения. Затем результаты будут использованы для моделирования данных.

5.1 Количество КОДОВ СЕРЬЕЗНОСТИ

5.2 Счетчик ROADCOND

5.3ПОГОДА подсчет

5,4 СЧЕТЧИК LIGHTCOND

Графики, построенные с помощью библиотеки Seaborn ниже, чтобы проверить, как серьезность зависит от различных атрибутов.

НАБЛЮДЕНИЯ:

1.1 Количество пешеходов, участвовавших в столкновении (PEDCOUNT) и серьезность

1.2 Происшествия с участием пешеходов 2-й степени тяжести (травмы) по сравнению с авариями SERV 1

1.3 Количество людей, участвовавших в столкновении (ЧЕЛОВЕК) и серьезность

1.4 Данные показывают, что тяжесть аварии высока по количеству людей.

1.5 Приведенные ниже данные показывают, что аварии чаще происходят вблизи кварталов и реже на перекрестках. Серьезность 2 почти одинакова на блоке и на перекрестке.

1.6 Количество аварий при стоянке автомобиля

1.7 Судя по делам о превышении скорости, их было 9381.

1.8 На рисунке показано большое количество несчастных случаев, когда люди находились в состоянии алкогольного опьянения.

Для дальнейшего анализа мы создали набор данных об инцидентах.

Использовались следующие функции: «Дата происшествия», «Время происшествия», «Время столкновения», «Условие столкновения», «Условие освещения» с указанием деталей происшествия.

1.9 На приведенном ниже графике показаны ежедневные несчастные случаи с 2013 по 2020 год, с высоким уровнем в конце 2016 и начале 2017 года и низким числом несчастных случаев в 2020 году.

График несчастных случаев за год подтверждает ту же тенденцию, что и выше

6. Моделирование

6.1 Использование NumPy, скалярной, линейной регрессии для чистых преобразованных данных (показано выше)

6.2 После импорта необходимых пакетов и разделения предварительно обработанных данных на тестовые и обучающие наборы для каждой модели машинного обучения мы создадим и оценим модель с помощью следующих методов:

6.3 Фрейм данных со следующими созданными функциями ["ADDRTYPE", "COLLISIONTYPE", "JUNCTIONTYPE", "WEATHER", "ROADCOND", "LIGHTCOND", "UNDERINFL", "HITPARKEDCAR"]

Тепловая карта

7. Модели машинного обучения

7.1 GitHub в качестве репозитория и запущенный Jupiter Notebook используются для обработки данных и построения моделей машинного обучения.

7.2 Python и его популярные пакеты, такие как Pandas, NumPy и Sklearn, используются для определения точности.

7.3 Созданы наборы данных x и y. После нормализации они разбиваются на x_train, y_train, x_test и y_test с использованием train_test split. 75% данных используется для обучения, а 25% — для тестирования, как показано ниже.

K Ближайший сосед (KNN)

· ЛИНЕЙНАЯ РЕГРЕССИЯ

· ДРЕВО РЕШЕНИЙ

Основываясь на выборке данных поезда и тестов, мы видим, что существует переоснащение, что означает, что наша модель изучает шум из данных, и ее способность обобщать результаты очень низка. В этом случае у вас есть небольшая ошибка обучения, но очень большая ошибка проверки. Итак, мы попытаемся обрезать набор данных и снова запустить модель.

Мы изменили наш набор данных и начали заново, чтобы найти точность и определить, какая модель подходит лучше всего.

Фрейм данных: data_clean

· ДРЕВО РЕШЕНИЙ

Оценка точности: 0,63

· ЛИНЕЙНАЯ РЕГРЕССИЯ

Оценка точности: 0,72

· СЛУЧАЙНЫЙ ЛЕС

Оценка точности: 0,73

· КНН

Оценка точности: 0,72

8.ЗАКЛЮЧЕНИЕ

С помощью алгоритмов машинного обучения мы смогли предсказать влияние погоды, состояния дорог и освещения на серьезность аварий. Материальный ущерб (класс 1) или травмы (класс 2) с помощью графиков.

Из модели машинного обучения, которую мы видели, за исключением дерева решений, остальные три модели имеют точность 72–73%, что означает, что модель хорошо обучена.

KNN, Logistic Regression, Random forest имеют точность 72–74%, это связано с схожестью признаков для обоих типов аварий (1 и 2)

Хотя с точностью 73% от Random Forest мы можем сказать, что модель хорошо обучена и хорошо работает на тестировании, а также на обученных данных.

Модель готова к использованию.

9. БУДУЩИЕ НАПРАВЛЕНИЯ

Существует больше возможностей для улучшения с точки зрения точности за счет добавления дополнительных функций в набор данных и меньшего количества нулевых значений и большего количества данных для превышения скорости и других важных столбцов (таких как идентификатор внимания, влияние и тип столкновения). Список отсутствующих данных показан ниже.

Спасибо за чтение. Ценим ваши отзывы, если таковые имеются.