Абстрактный

Футбол — самый популярный вид спорта в мире, в который играют более чем в 200 миллионах стран. За последнее столетие этот вид спорта сильно развился, как и технологии, используемые в игре. Виртуальный помощник рефери (VAR) является одним из них и в значительной степени повлиял на игру. Роль VAR проста, но сложна; вмешиваться в перерывах между игрой, когда судьи принимают неправильное решение или не могут его принять. Конкретный сценарий возникает, когда они должны решить, привел ли скользящий захват в штрафной площади к чистому захвату или пенальти для команды соперника. Технология существует для того, чтобы отслеживать момент повторного захвата, но решения по-прежнему принимаются людьми и, следовательно, могут быть предвзятыми. Я предлагаю обнаружение фолов на основе CNN, которое теоретически основано на принципе начальной точки контакта.

Введение

Футбол зародился в 1863 году в Англии, более 160 лет назад. С тех пор он стал главным зрелищным видом спорта в истории спорта. По данным ФИФА, насчитывается более 265 миллионов профессионалов, мужчин и женщин, более 3,5 миллиардов человек заявляют о себе как о футбольных болельщиках. Этот безумно популярный вид спорта прошел долгий путь, но все 17 законов остались нетронутыми. Решение о назначении пенальти, как правило, после того, как в их штрафной скамье был совершен подкат соперника, до недавнего времени принимал полевой судья. В сезоне 2012–2013 годов голландская лига была представлена ​​​​виртуальным помощником судьи (VAR), который, как и любая другая машина или технология, которые используются людьми для облегчения своей жизни, использовался для облегчения жизни судей в игре. Согласно официальному сайту ФИФА, цели VAR для разных сценариев:

  1. Цели

Роль VAR заключается в том, чтобы помочь судье определить, имело ли место нарушение, означающее, что гол не должен быть засчитан. Когда мяч пересек линию, игра останавливается, поэтому это не оказывает прямого влияния на игру.

2. Решения о штрафах

Роль VAR заключается в том, чтобы не допустить принятия явно неверных решений в связи с назначением или отказом в назначении пенальти.

3. Инциденты с прямой красной карточкой

Роль VAR заключается в том, чтобы не допустить принятия явно неверных решений в связи с удалением или неудалением игрока.

4. Ошибочная личность

Судья предупреждает или удаляет не того игрока, или не уверен, какой игрок должен быть наказан. VAR проинформирует судью, чтобы правильный игрок мог быть наказан.

В этом проекте мы концентрируемся на втором варианте использования — решениях о штрафах. Хотя решения принимаются с помощью тщательной проверки с использованием повторных видеозаписей момента совершения захвата, просмотра с разных сторон, эта задача все же имеет человеческую зависимость и может содержать предвзятость. Чтобы автоматизировать этот процесс, я предлагаю сверточную нейронную сеть, которая будет принимать исходное изображение точки контакта в качестве входных данных и предсказывать, был ли совершен фол или нет. Следовательно, решения о штрафах теперь могут быть автоматизированы, а не основаны на человеческом расследовании.

VAR-CNN

Предлагаемая нами модель представляет собой модель на основе сверточной нейронной сети, которая берет изображения на основе начального контакта и обеспечивает их классификацию. В этом разделе мы обсудим данные, используемую архитектуру модели, результаты и выводы из нашей модели. Модель представляет собой небольшой обходной путь для настоящего виртуального помощника судьи, поэтому мы назвали ее VAR-CNN. Без дальнейших взносов приступим.

Данные

Сбор данных был сложной задачей, нет ресурсов с открытым исходным кодом для данных любой лиги. Единственными доступными источниками являются видеофрагменты европейских матчей и подборки на ютубе захватов и фолов. Небольшой фрагмент данных также получен из статьи Обнаружение футбольных событий с использованием глубокого обучения.

Различия в данных можно наблюдать выше. В общей сложности было удалено более 1200 изображений для двух классов, а именно чистых отборов и фолов. Чистые захваты, как следует из названия, - это когда защитник получает мяч первым, и первоначальный контакт будет с мячом. Напротив, фол – это когда защитник первым вступает в контакт с игроком. Этот подход был положен в основу настоящего исследования и сбора данных. Исходные данные контакта и момент сразу после него записываются в этот набор данных. Набор данных будет доступен в репозитории GitHub, который будет использоваться совместно с этой статьей.

Модель и архитектура

Модель, используемая в этом исследовании, основана на сверточных нейронных сетях, реализованных в Python с использованием tensorflow. CNN основаны на том принципе, что входные данные (изображения) будут представлять собой свернутые ядра, присутствующие внутри фильтра, которые, в свою очередь, будут генерировать карту функций. Свертка — это поэлементное умножение весов ядра на пиксели. В фильтре есть отдельное ядро ​​для каждого канала ввода, а сумма выходов ядра для каждого канала представляет собой соответствующее значение пикселя на картах признаков. Модель была довольно простой, с более чем 650 тысячами параметров, и в качестве формы регуляризации использовался только отсев. Другие комбинации регуляризации, такие как нормализация партии, норма l1 и l2, но отсев, были наиболее успешными с точки зрения обобщения. Хотя было видно, что с BatchNorm в системе потери сходятся гораздо быстрее при одинаковых настройках гиперпараметров. Коэффициент отсева был сохранен на уровне 0,5 в плотных слоях, преимущество отсева заключается в том, что он предотвращает переобучение, заставляя нейроны учиться индивидуально, а не совместно, поскольку для каждой партии / примера в обучении он случайным образом выпадает на 50% (коэффициент отсева 0,5) нейронов, что, в свою очередь, дает новую нейронную сеть для каждой партии, и у нас есть средние прогнозы всех этих возможных комбинаций.

Первоначальные слои свертки имели размер ядра 5 и 64 фильтра, за каждым из которых следовало максимальное объединение, в то время как более поздние слои имели уменьшающееся количество фильтров, размер ядра 3 и скорость расширения 2 с последующим максимальным объединением. Скорость дилатации поддерживалась на стандартном уровне, и преимущество расширенных извилин совершенно очевидно, они обеспечивают большее рецептивное поле. Пример расширенных извилин показан ниже:

Архитектура модели приведена ниже:

Последние 3 блока CNN содержат расширение, плотные слои используют активацию relu, а вывод работает с сигмовидной активацией, мы используем модель бинарной классификации. Размер входных изображений был обрезан до 256 256 с использованием ближайшей интерполяции, в то время как с помощью увеличения данных мы предоставили различные методы, такие как вращение, горизонтальное отражение, вертикальное отражение, диапазоны яркости и т. д. Во время обучения также использовался обратный вызов ранней остановки с терпением 10 эпох. восстановлены лучшие веса. Потеря проверки отслеживалась при раннем остановке обратного вызова. Достигнутая точность обучения составила 76,6 %, а достигнутая точность проверки — 78 %. Точность была низкой, но приемлемой, учитывая размер и сложность наборов данных.

Переобучение наблюдалось в каждой модели с различными комбинациями регуляризации, но с отсевом оно наблюдалось последним, и поскольку мы использовали раннее прекращение, лучшие веса восстанавливались.

Вывод

Вывод был сделан с использованием методов GradCam++ с использованием модуля tf_keras_viz, реализованного на python. При выводе выводов были получены интересные идеи. 1) Модель учитывает начальную точку контакта. 2) Модель также учитывает позу (скольжение защитника) при принятии решения. 3) В решениях, где модель выдавала неверные решения, модель не могла сосредоточиться на двух вышеперечисленных, а только на окружении или зеленой траве.

Приведенный выше вывод — это случай, когда модель правильно предсказала классы. Основное внимание уделялось позам игроков и начальным контактам. На рисунке 4 вы можете ясно видеть, что он учитывает как позы игроков, так и начальную точку контакта. На рис. 3 показано, что при принятии решения учитывается начальная точка контакта с игроком, а также с мячом игрока соперника.

На рисунке 5 исходное изображение соответствует фолу, но классифицируется как чистый подкат, обратите внимание, что начальная точка контакта вообще не рассматривается, некоторое внимание уделяется позам, но в основном зеленой траве. Это довольно часто встречается в изображениях, отнесенных к неправильным классам. Эту проблему можно решить, если для обоих классов будет доступно больше данных и улучшится качество данных.

V в VAR означает видео, поэтому в чем польза нашей модели, если мы не можем делать прогнозы в реальном времени с выводами. Прогнозы на данный момент мы пропускаем, так как они будут актуальны после того, как будет получено больше данных и будет достигнута более высокая точность, но мы все еще можем ответить на вопрос, почему, используя приведенные выше выводы и делая их в режиме реального времени, мы стоим перед задачей. . Вот пример выводов в реальном времени.

Чем лучше модель, тем лучше выводы, заметным фактом является то, что модель способна фокусироваться на ногах игрока и начальной точке контакта с мячом. Выводы действительно блуждают, но они достигают того, чего мы хотели.

Будущая работа

Будущая работа заключается в улучшении модели за счет увеличения объема данных, а также разнообразия фолов. В этом проекте мы изучили скользящие тали. Как только будет создана модель с большей точностью, она может стать следующим достижением в принятии решений в футболе.

Код этого проекта будет доступен здесь, на Github. Данные были размещены там.