Сегодня мы рассмотрим основную проблему классификации. Можно ли судить о типе и навигационном назначении кораблей только по известным данным, таким как ширина, высота, курс или скорость? Для решения этого исследовательского вопроса будут обсуждены динамические значения и основные характеристики любого корабля в определенном регионе, а тип и назначение корабля будут оценены с помощью статистических моделей. Таким образом, мы можем предсказать намерения любого корабля. Такое положение, несомненно, является важным шагом к повышению безопасности судоходства.

Кратко, что такое машинное обучение?

Алгоритмы машинного обучения (ML) имитируют форму обучения людей и фокусируются на использовании данных и постепенном повышении точности, являясь отраслью искусственного интеллекта и компьютерных наук.

Алгоритмы машинного обучения делают статистические предположения, обучая данные делать прогнозы. Обобщенные модели выявляются путем обнаружения шаблонов, которые люди не могут видеть, и вычислений по выборочным данным, предоставленным алгоритму. Эти обобщающие модели, полученные на выходе, могут делать прогнозы с высокой точностью при вводе немодельных данных. Алгоритмы машинного обучения используются в самых разных приложениях, где трудно или невозможно разработать традиционные алгоритмы для выполнения необходимых задач, таких как медицина, фильтрация электронной почты, распознавание речи и компьютерное зрение.

- Кратко, что такое AIS?

Устройство AIS (Automatic Identification System) представляет собой автоматическую систему идентификации. Это эффективная система для отслеживания судов и регулирования морского движения. Он передает и принимает данные с радиочастот и сигналов УКВ. Таким образом, суда и службы управления движением судов (СДС), оснащенные приемопередатчиками УКВ, могут надежно отображать общую картину. Однако диапазон УКВ ограничен максимум примерно 25 морскими милями.

Существует два типа устройств AIS, тип A и тип B. Тип A более мощный, поэтому он может отправлять данные на расстояние до 25 морских миль. Устройство AIS типа B эффективно на расстоянии 5–10 морских миль. АИС типа А имеет мощность 12,5 кВт, а АИС типа В – 2 кВт. AIS подает сигналы каждые 2–10 секунд во время движения. С другой стороны, он обновляет сигнал каждые 3–4 минуты для кораблей, стоящих на якоре.

Согласно правилам СОЛАС, установленным Международной морской организацией (ИМО), он должен находиться на судах валовой вместимостью 300 брутто-тонн и более, а также на всех коммерческих судах, перевозящих пассажиров. Хотя это не является обязательным, некоторые рыбаки и другие лодки используют его добровольно из-за его полезности и преимуществ.

- Решение проблемы классификации

Чтобы решить вопрос нашего исследования, упомянутый выше, мы будем использовать информацию АИС, опубликованную в качестве открытого источника Морским управлением Дании. Вышеупомянутые данные были собраны с судов, проходящих через пролив Каттегат в период с 1 января по 10 марта 2022 года. В некоторых странах данные АИС публикуются в открытом доступе.

В устройстве AIS хранятся два типа данных, статические и динамические:

Статическая информация:

  1. Номер ИМО судна
  2. Номер MMSI судна

3. Позывной корабля

4. Название корабля

5. Тип корабля

6. Тип адресата, из которого было получено это сообщение (например, класс A / класс B)

7. Ширина корабля

8. Длина корабля

9. Осадка судна

10. Тип устройства GPS

11. Длина от GPS до носа (длина А)

12. Длина от GPS до кормы (размер B)

13. Длина от GPS до правого борта (размер C)

14. Длина от GPS до левого борта (размер D)

Динамические данные:

1. Информация о времени (31.12.2015 в формате 23:59:59)

2. Широта

3. Долгота

4. Навигационный статус (например: «Рыбалка», «На якоре» и т. д.)

5. Скорость поворота (ROT)

6. Скорость относительно земли (SOG)

7. Курс относительно земли (COG)

8. Заголовок

9. Тип груза

10. Порт назначения

11. Расчетное время прибытия (ETA)

12. Тип источника данных, например. АИС

Наша главная цель — построить модель машинного обучения, используя информацию АИС в проливе Каттегат, а затем предсказать тип любого корабля, проходящего через этот регион, используя информацию о ширине, длине, осадке, курсе и скорости. Для этой цели в нашей модели мы использовали «MMSI», «Ширина», «Длина», «Осадка», «Навигационный статус», «Маршрут (COG)», «Скорость (SOG)» и «Направление» из Данные АИС как независимые переменные. В качестве цели мы использовали тип корабля, то есть зависимую переменную.

Как видно, данные АИС содержат много информации, но не каждое судно имеет данные АИС. В качестве примера этого:

* Военные корабли

* Корабли менее 300 г

* Рыбаки

* Из-за технических неполадок приемопередатчики АИС могут быть отключены

Наш набор данных состоит из 358351 сообщения AIS, что означает, что у нас есть 358351 наблюдение. Однако, поскольку судно имеет более одного сообщения AIS, количество уникальных судов в нашем наборе данных составляет 3894. Свойства наших переменных такие же, как в таблице 1.

В Таблице 2 показано распределение 3894 судов, обнаруженных в проливе Каттегат в период с 1 января по 10 марта 2022 г., по типам. Типы кораблей также являются целевой переменной, которую мы будем оценивать.

Мы объединили те, которые составляют менее 2% классов кораблей, в таблице 2. Потому что алгоритм машинного обучения не может уловить шаблон такого рода классов с низкой скоростью. Другими словами, для изучения этих классов недостаточно данных. Поэтому мы объединили быстроходные катера, государственные суда, лоцманские катера, портовые катера и буксирно-буксировочные суда в один класс с соотношением менее 2%. Эти типы кораблей занесены в модель как редкий класс. В результате оценки мы получим результат редкого класса.

График корреляции между нашими переменными приведен в таблице 3. Было замечено, что существует высокая корреляция между переменными «ширина» и «длина», а также между переменными «заголовок» и «зубец». Чтобы решить эту проблему, переменная «размер» была создана путем умножения числовых переменных «ширина» и «длина», а переменные «ширина» и «длина» были удалены из набора данных. Кроме того, переменные «heading» и «cog» были удалены из набора данных после того, как они были объединены в переменной «route». Поскольку переменная «mmsi» уникальна и специфична для каждого корабля, она использовалась только для исследовательского анализа данных. Он был удален из набора данных на заключительном этапе настройки модели.

Модель машинного обучения

После подготовки всех переменных мы можем построить модель машинного обучения. Для этого был использован алгоритм машинного обучения Light GBM, который, как известно, дает быстрые и успешные результаты.

Light GBM — это алгоритм, основанный на дереве решений. Время обучения деревьев решений прямо пропорционально расчету и количеству делений. С помощью этого метода сокращается время обучения и сокращается использование ресурсов.

В деревьях решений можно использовать две стратегии: по уровням и по листам. В поуровневой стратегии баланс дерева поддерживается по мере его роста. В листовой стратегии продолжается деление на листья, что снижает потери. Благодаря этой функции LightGBM отделен от других алгоритмов повышения. Модель имеет меньшую частоту ошибок и быстрее обучается с помощью листовой стратегии. Однако стратегия роста по листам приводит к тому, что модель склонна к чрезмерному обучению в случаях, когда количество данных невелико. Поэтому алгоритм больше подходит для использования в больших данных.

После того, как модель была создана, для проверки модели мы ввели модель с 10 различными значениями навигации в проливе Каттегат в декабре 2021 года. Как уже отмечалось, при построении модели мы использовали данные с 1 января по 10 марта 2022 года. Другими словами, 10 образцов, которые мы определили для оценки, являются внешним примером из нашего набора данных.

В таблице 4 было замечено, что 7 из 10 прогнозов дали правильные результаты. Учитывая, что наша модель имеет общий показатель точности 0,67, это ожидаемый результат. Прогнозные баллы (матрица путаницы) на основе типа судна приведены в таблице 5. Модели с более высокими значениями точности и чувствительности дают более точные результаты. Оценка F-1 показывает нам гармоническое среднее значений точности и чувствительности.

- Заключение

В этом исследовании была предпринята попытка предсказать типы судов и, наконец, навигационные намерения судна с использованием динамических и статических данных, полученных из данных АИС судов. Это исследование было проведено в определенной области. Потому что в каждом регионе могут использоваться разные маршруты и скорости. Например, на отмелях, островах, островках, скалах и в прибрежных зонах характеристики прохода/прохода используются характеристиками корабля. Пролив Каттегат, который мы выбрали, представляет собой район интенсивного движения с узкими водными путями, подобными этому.

Как только мы узнаем тип корабля, мы можем догадаться о его назначении. В этом случае его можно рассматривать как шаг к повышению ситуационной осведомленности на море и, соответственно, к повышению безопасности судоходства.

В будущем можно использовать больше данных для повышения надежности/точности модели. Кроме того, в нашей модели мы использовали единый алгоритм. Интегрированное использование двух или более алгоритмов машинного обучения повысит эффективность модели.

Для получения подробной информации:

https://www.kaggle.com/code/eminserkanerdonmez/ai-in-maritime-industsy