Мой путь от утечки масла к применению искусственного интеллекта для прогнозирования отказов оборудования
I) Мотивация
В процессе поиска работы я обнаружил, что многие компании в моем районе ищут специалистов по данным, обладающих знаниями в области нефти и газа. Мой опыт в основном связан с математикой, поэтому я решил отправиться в приключение по нефтепроводу.
Я заметил одну вещь: нефть и газ - это большая отрасль со старой инфраструктурой. В 2014 году Inside Energy сообщила, что 45% трубопровода для сырой нефти в США было старше 50 лет. Некоторые трубопроводы были проложены и до 1920-х годов все еще работают. Эта древняя, стареющая инфраструктура может вызвать катастрофу, например утечку нефти, что скажется на доходах компании, окружающей среде и людях в окрестностях.
Так что же является виновником всех этих утечек масла? Нырнем в масло!
II) Инциденты на нефтепроводах, 2010–2017 гг.
Данные включают запись по каждой утечке или разливу нефтепровода, о которой было сообщено Управлению безопасности трубопроводов и опасных материалов с 2010 по 2017 год. За период более 7 лет произошло 2795 утечек. Каждый инцидент описывается 46 характеристиками. Вот некоторые из заслуживающих внимания: дата и время инцидента, имя оператора, причина инцидента, тип опасной жидкости, потерянное количество, травмы и смертельные случаи, а также связанные с этим расходы
Данные обширны и описательны. Я подобрал несколько интересных функций и начал отсюда
1) Как инциденты распределяются по году, месяцу и часу дня?
Обратите внимание, что за 2017 год есть неполные данные. Самый высокий пик пришелся на 2015 год - 462 случая.
Здесь нет настройки часового пояса, но я могу с уверенностью предположить, что большинство случаев произошло в рабочее время.
Интересно, что в декабре было всего несколько случаев (212). Но в январе он резко вырос (275). Интересно, была ли здесь тенденция из-за перехода от старого к новому году, или это может быть просто случайная серия утечек, произошедших в январе?
2) Где находятся эти аварии?
Судя по географии, которую я создал plotly
, мне кажется, что утечки произошли по трубопроводам. В Техасе больше всего инцидентов среди всех штатов (1004 случая). Это неудивительно, поскольку Техас является крупнейшим производителем нефти в США. Я предполагал, что Техас потеряет больше всего денег, но это было не так ...
3) Каков чистый убыток каждого штата?
Давайте посмотрим на 3 основных состояния потери денег:
3-е место принадлежит Техасу с 1004 авариями, потерями 135 580 баррелей и чистыми потерями 184,75 млн.
2-е место принадлежит Калифорнии с 153 авариями и потерей 3 390 баррелей, а чистый убыток составил 192 млн.
И победитель ... Мичиган: 29 аварий, потеря 5 355 баррелей, 834 млн
Мое предположение было совершенно неверным, количество аварий не коррелирует с чистым убытком. Более того, количество потерь барреля не учитывает, куда ушли деньги.
Недостающие части головоломки - это другие особенности, которые я наивно считал несущественными. Другие особенности, которые я должен был рассмотреть:
- Остановка трубопровода
- Затраты на повреждение имущества
- Упущенные товарные затраты
- Затраты на экстренное реагирование
- Затраты на восстановление окружающей среды
4) Итак… Что на самом деле произошло в Мичигане?
Всплеск 2010 года, который вы видите, составил 95% от общего чистого убытка в Мичигане и 36% от общего чистого убытка в США за 7-летний период! Небольшое исследование показывает, что этим инцидентом был разлив нефти на реке Каламазу 25 июля. Когда трубопровод, которым управляет Энбридж (линия 6B), прорвался и впал в Талмадж-Крик, это осталось незамеченным в течение 18 часов. Экипаж неверно истолковал данные об аномальном давлении и подумал, что это вызвано пузырьками в трубопроводе. Следовательно, они перезапустили линию дважды, и масло улетучилось намного быстрее.
Список 10 основных инцидентов в Мичигане даст вам лучшее представление о том, какой ущерб нанесла штату разлив нефти на реке Каламазу.
5) Что является виновником протечек масла?
Неисправность оборудования - краткий ответ на этот вопрос. Возможности человека очень ограничены, когда дело доходит до интерпретации данных с множеством параметров. Чтение данных вручную может привести к игнорированию аномалии и нанести серьезный ущерб бизнесу. Фактически, отказы материалов / сварных швов / оборудования стали причиной 53% потерь по всем причинам.
К счастью, с развитием машинного обучения многие крупные нефтяные компании начали применять ИИ в своей инфраструктуре, чтобы предотвратить отказы оборудования и принести пользу своему бизнесу.
III) Прогнозирование отказов оборудования
Еще в октябре 2019 года я участвовал в Datathon, организованном Техасским университетом A&M. Одна из задач заключалась в прогнозировании отказов скважинного оборудования с использованием данных датчиков, спонсируемых ConocoPhillips. Я не бросал вызов, но я был очарован этой проблемой и до сих пор помню ее. Предыдущий анализ дал мне достаточно мотивации, чтобы вернуться и еще раз взглянуть на этот набор данных.
Обучающая выборка состоит из 60000 наблюдений и 170 значений датчиков. Эти датчики делятся на 2 типа:
measure:
единичное измерение для датчика.histogram bin:
Набор из 10 столбцов, которые представляют собой разные ячейки датчика, показывающие их распределение во времени.
Задача состоит в том, чтобы определить, является ли наблюдение ошибкой или нет. На гистограмме ниже показано распределение составов поездов:
Данные содержат много нулевых значений. Мне нужно создать функцию, которая принимает различные пороги, обрабатывает пропущенные значения в каждом конкретном случае и гипер-настраивает эту функцию для достижения оптимального результата. Я использовал xgboost
, чтобы сделать прогноз сf1-score
в качестве показателя.
Я применил свою модель к 16001 разным наблюдениям на тестовой выборке. После отправки прогнозов я получаю 0,99383 с первой попытки.
IV) Заключение
Если бы нефтяники инвестировали в исследования ИИ, они бы быстрее обнаружили неисправное оборудование, более эффективно предотвращали бы катастрофы и сэкономили бы много денег. В частности, инцидента с разливом нефти на реке Каламазу можно было избежать с помощью машинного обучения.
Я надеюсь, что вам понравится читать мою статью и следовать за мной в этом путешествии. Любая обратная связь приветствуется. Если вы хотите посмотреть данные, поиграть с plotly
интерактивными графиками и оценить мои технические знания, вот ссылка.