Мой путь от утечки масла к применению искусственного интеллекта для прогнозирования отказов оборудования

I) Мотивация

В процессе поиска работы я обнаружил, что многие компании в моем районе ищут специалистов по данным, обладающих знаниями в области нефти и газа. Мой опыт в основном связан с математикой, поэтому я решил отправиться в приключение по нефтепроводу.

Я заметил одну вещь: нефть и газ - это большая отрасль со старой инфраструктурой. В 2014 году Inside Energy сообщила, что 45% трубопровода для сырой нефти в США было старше 50 лет. Некоторые трубопроводы были проложены и до 1920-х годов все еще работают. Эта древняя, стареющая инфраструктура может вызвать катастрофу, например утечку нефти, что скажется на доходах компании, окружающей среде и людях в окрестностях.

Так что же является виновником всех этих утечек масла? Нырнем в масло!

II) Инциденты на нефтепроводах, 2010–2017 гг.

Данные включают запись по каждой утечке или разливу нефтепровода, о которой было сообщено Управлению безопасности трубопроводов и опасных материалов с 2010 по 2017 год. За период более 7 лет произошло 2795 утечек. Каждый инцидент описывается 46 характеристиками. Вот некоторые из заслуживающих внимания: дата и время инцидента, имя оператора, причина инцидента, тип опасной жидкости, потерянное количество, травмы и смертельные случаи, а также связанные с этим расходы

Данные обширны и описательны. Я подобрал несколько интересных функций и начал отсюда

1) Как инциденты распределяются по году, месяцу и часу дня?

Обратите внимание, что за 2017 год есть неполные данные. Самый высокий пик пришелся на 2015 год - 462 случая.

Здесь нет настройки часового пояса, но я могу с уверенностью предположить, что большинство случаев произошло в рабочее время.

Интересно, что в декабре было всего несколько случаев (212). Но в январе он резко вырос (275). Интересно, была ли здесь тенденция из-за перехода от старого к новому году, или это может быть просто случайная серия утечек, произошедших в январе?

2) Где находятся эти аварии?

Судя по географии, которую я создал plotly, мне кажется, что утечки произошли по трубопроводам. В Техасе больше всего инцидентов среди всех штатов (1004 случая). Это неудивительно, поскольку Техас является крупнейшим производителем нефти в США. Я предполагал, что Техас потеряет больше всего денег, но это было не так ...

3) Каков чистый убыток каждого штата?

Давайте посмотрим на 3 основных состояния потери денег:

3-е место принадлежит Техасу с 1004 авариями, потерями 135 580 баррелей и чистыми потерями 184,75 млн.

2-е место принадлежит Калифорнии с 153 авариями и потерей 3 390 баррелей, а чистый убыток составил 192 млн.

И победитель ... Мичиган: 29 аварий, потеря 5 355 баррелей, 834 млн

Мое предположение было совершенно неверным, количество аварий не коррелирует с чистым убытком. Более того, количество потерь барреля не учитывает, куда ушли деньги.

Недостающие части головоломки - это другие особенности, которые я наивно считал несущественными. Другие особенности, которые я должен был рассмотреть:

  • Остановка трубопровода
  • Затраты на повреждение имущества
  • Упущенные товарные затраты
  • Затраты на экстренное реагирование
  • Затраты на восстановление окружающей среды

4) Итак… Что на самом деле произошло в Мичигане?

Всплеск 2010 года, который вы видите, составил 95% от общего чистого убытка в Мичигане и 36% от общего чистого убытка в США за 7-летний период! Небольшое исследование показывает, что этим инцидентом был разлив нефти на реке Каламазу 25 июля. Когда трубопровод, которым управляет Энбридж (линия 6B), прорвался и впал в Талмадж-Крик, это осталось незамеченным в течение 18 часов. Экипаж неверно истолковал данные об аномальном давлении и подумал, что это вызвано пузырьками в трубопроводе. Следовательно, они перезапустили линию дважды, и масло улетучилось намного быстрее.

Список 10 основных инцидентов в Мичигане даст вам лучшее представление о том, какой ущерб нанесла штату разлив нефти на реке Каламазу.

5) Что является виновником протечек масла?

Неисправность оборудования - краткий ответ на этот вопрос. Возможности человека очень ограничены, когда дело доходит до интерпретации данных с множеством параметров. Чтение данных вручную может привести к игнорированию аномалии и нанести серьезный ущерб бизнесу. Фактически, отказы материалов / сварных швов / оборудования стали причиной 53% потерь по всем причинам.

К счастью, с развитием машинного обучения многие крупные нефтяные компании начали применять ИИ в своей инфраструктуре, чтобы предотвратить отказы оборудования и принести пользу своему бизнесу.

III) Прогнозирование отказов оборудования

Еще в октябре 2019 года я участвовал в Datathon, организованном Техасским университетом A&M. Одна из задач заключалась в прогнозировании отказов скважинного оборудования с использованием данных датчиков, спонсируемых ConocoPhillips. Я не бросал вызов, но я был очарован этой проблемой и до сих пор помню ее. Предыдущий анализ дал мне достаточно мотивации, чтобы вернуться и еще раз взглянуть на этот набор данных.

Обучающая выборка состоит из 60000 наблюдений и 170 значений датчиков. Эти датчики делятся на 2 типа:

  • measure: единичное измерение для датчика.
  • histogram bin: Набор из 10 столбцов, которые представляют собой разные ячейки датчика, показывающие их распределение во времени.

Задача состоит в том, чтобы определить, является ли наблюдение ошибкой или нет. На гистограмме ниже показано распределение составов поездов:

Данные содержат много нулевых значений. Мне нужно создать функцию, которая принимает различные пороги, обрабатывает пропущенные значения в каждом конкретном случае и гипер-настраивает эту функцию для достижения оптимального результата. Я использовал xgboost, чтобы сделать прогноз сf1-score в качестве показателя.

Я применил свою модель к 16001 разным наблюдениям на тестовой выборке. После отправки прогнозов я получаю 0,99383 с первой попытки.

IV) Заключение

Если бы нефтяники инвестировали в исследования ИИ, они бы быстрее обнаружили неисправное оборудование, более эффективно предотвращали бы катастрофы и сэкономили бы много денег. В частности, инцидента с разливом нефти на реке Каламазу можно было избежать с помощью машинного обучения.

Я надеюсь, что вам понравится читать мою статью и следовать за мной в этом путешествии. Любая обратная связь приветствуется. Если вы хотите посмотреть данные, поиграть с plotly интерактивными графиками и оценить мои технические знания, вот ссылка.