Теннисный анализ с использованием глубокого обучения и машинного обучения.

Теннис – это вид спорта, в который играют во всем мире. Наблюдая за игрой в теннис, вы можете автоматически обогащать представление количеством подач в центре или в углах, глубиной игры мячом, предпочтениями влево или вправо, в зависимости от того, где находится игрок. Такую статистику могут предоставить такие инструменты, как Hawk-Eye, IBM Slamtracker и так далее.

Hawk-Eye — это сложная система, включающая до десяти высокоскоростных камер, способных с высокой точностью отслеживать мяч, определять его реальное положение и отображать реконструкцию любых отскоков.

IBM Slamtracker, приложение, представляющее результаты и статистику в реальном времени (от 15 до 25 параметров для каждого балла), чтобы расширить возможности болельщиков. Эта система чрезвычайно точна, но также и очень сложна, включает от 8 до 10 высокоскоростных камер (до 1000 кадров в секунду) и чрезвычайно мощный компьютер. Тот факт, что эта технология требует большого количества оборудования, стоит дорого и требует специальных знаний для ее установки на корте, ограничивает ее доступность для крупных площадок крупных турниров.

Наша цель — создать инструмент для анализа видео, который включает в себя отслеживание мяча, отслеживание корта, обнаружение отскоков и отслеживание игроков на основе только одной камеры со скоростью 25–30 кадров в секунду.

Обнаружение в суде

Обнаружение линий корта является необходимым шагом для нашей системы, чтобы представить положение игроков и мяча в осмысленной системе координат.

Существующий подход, основанный на классическом компьютерном зрении, состоит из нескольких шагов:

Обработайте изображение для дальнейших вычислений, извлекая белые пиксели.

Мы знаем, что линии теннисных кортов всегда белые. По этой причине пиксели со значением интенсивности выше определенного порога в монохромном изображении суда извлекаются из исходного изображения.

2. Обнаружьте линии (с преобразованием Хафа) и классифицируйте их как горизонтальные и вертикальные.

3. Сравните полученные строки с эталонной конфигурацией корта.

Мы знаем конфигурацию эталонного корта и то, как линии расположены друг к другу. Мы хотим сравнить бинарную карту с вертикальными и горизонтальными линиями с эталонной конфигурацией. Чтобы определить, как одно изображение может быть спроецировано на другое, мы можем вычислить матрицу проекции (также называемую матрицей гомографии) на основе 4 известных точек из первого изображения и 4 известных точек из проецируемого. Взяв 4 точки пересечения эталонных линий корта и 4 точки пересечения 2 найденных горизонтальных линий и 2 вертикальных найденных линий, можно определить матрицу гомографии, которая проецирует эталонный корт на кадр. [2]

В этом подходе 12 конфигураций в эталонном суде используются для нахождения матрицы гомографии.

Следующим шагом является выполнение деформации перспективы эталонных линий корта с использованием матрицы гомографии и подсчет совпадений (перекрытий между пикселем эталонной линии корта и белым пикселем бинарного изображения кадра). Это повторяется для всех найденных комбинаций пар горизонтальных и вертикальных линий, чтобы определить наилучшие совпадающие линии.

Этот подход имеет несколько недостатков:

1. Чрезвычайно медленный. В некоторых случаях скорость работы этого алгоритма доходит до 15 секунд на одно изображение. Это зависит от количества обнаруженных вертикальных и горизонтальных линий и пересечений линий сравнения с эталонным судом.

2. Низкое качество. Во многих случаях такой детектор не находил линии из-за многочисленных гиперпараметров этого алгоритма.

3. Нестабильность при разных ракурсах, цветах, тенях и тд. Давая хорошие результаты для некоторых судов, этот подход трудно обобщить для всех типов судов.

Подход к глубокому обучению

Основная идея состоит в том, чтобы использовать нейронную сеть для обнаружения 14 ключевых точек теннисного корта. Используя полученные точки, мы можем восстановить всю конфигурацию корта на изображении.

Сбор набора данных

Набор данных был создан полуавтоматическим способом. Видеообзоры с разных турниров продолжительностью от 2 до 3 минут были загружены с YouTube. Кадры из видео извлекались с шагом 50 кадров и обрабатывались классическим алгоритмом компьютерного зрения. Качество существующего алгоритма компьютерного зрения оставляет желать лучшего, поэтому результирующие изображения были отфильтрованы вручную. Разрешение изображений 1280х720. Этот набор данных состоит из 8841 изображения и охватывает все типы кортов (хард, глина, трава).

Модель

Предлагаемая сеть глубокого обучения очень похожа на архитектуру TrackNet. [1]

Основное отличие состоит в том, что входной тензор состоит всего из 1 изображения (вместо 3 в TrackNet), а выходной тензор имеет 15 каналов (14 точек из набора данных и одна дополнительная точка — центр теннисного корта). Мы использовали дополнительную точку для лучшей сходимости. Разрешение входного и выходного изображения 640x360.

Обучение

Набор данных был разделен на обучающий набор (75%) и тестовый набор (25%). Для увеличения скорости обучения все кадры были изменены с 1280х720 на 640х360. Для оптимизации весов сети был применен оптимизатор Adam. Остальные параметры вы можете увидеть в таблице ниже.

Постобработка

Было реализовано 2 типа техники постобработки:

Уточните ключевые моменты с помощью классического компьютерного зрения

Основная идея состоит в том, чтобы получить прямоугольную область вокруг прогнозируемой ключевой точки и определить пересечение белых линий внутри кадрируемого изображения. Применим нашу промежуточную модель (не окончательную) к одному изображению.

Если мы обрежем стандартную область вокруг предсказанных точек, мы увидим следующую картину.

Практически все они смещены от нужного места. Чтобы решить эту проблему, мы будем извлекать белые пиксели из обрезков, обнаруживать линии и получать пересечение этих линий, используя классические методы компьютерного зрения. Давайте применим этот подход к пятой точке.

Если мы применим этот подход ко всем ключевым точкам, мы увидим следующие результаты:

Для большинства из них постобработка работала хорошо. Но в кроп-изображениях с 8,9,12 точками есть сетка, которая может мешать результату, поэтому технику для этих точек мы пропустим. На первом кадрированном изображении у нас 3 линии, поэтому наш алгоритм не сработал.

2. Используйте матрицу гомографии для восстановления сдвинутых ключевых точек.

Главное, что мы можем сравнивать предсказанные точки с эталонными, используя матрицу гомографии. Для определения матрицы гомографии мы используем 4 предсказанных точки и 4 точки из эталонного суда. Результирующая матрица дает нам однозначное соответствие, и мы можем переместить прогнозируемую точку в нужное положение, используя расположение опорных точек. Это может быть полезно, например, в случае окклюзии.

Оценка

Мы будем считать, что ключевая точка обнаружена точно, если евклидово расстояние между предсказанием модели и истинной реальностью меньше 7 пикселей. Основываясь на этом предположении, мы можем рассчитать истинно положительные и ложноположительные показатели. Общая производительность с точки зрения точности, правильности и медианного расстояния (в пикселях) между прогнозируемой точкой и наземной истиной можно увидеть в таблице ниже. Мы также покажем, как методы постобработки влияют на конечные метрики.

В этой таблице Точность = TP/(TP+FP), Точность = (TP+TN)/(TP+TN+FP+FN)

Пример

Реализацию этого метода вы можете найти здесь https://github.com/yastrebksv/TennisCourtDetector

Обнаружение мяча

Другой важной частью нашей работы является обнаружение и отслеживание теннисного мяча во время игры. Для этого мы использовали сеть глубокого обучения TrackNet. Более подробную информацию вы можете найти в оригинальной статье [1]. Я кратко объясню несколько важных частей этой статьи. Если хотите взглянуть на код, вот моя реализация https://github.com/yastrebksv/TrackNet.

Обнаружение теннисного мяча на видеотрансляциях, в которых изображения мяча маленькие, размытые, а иногда даже невидимые, является сложной задачей. Предлагаемая сеть глубокого обучения на основе тепловых карт обучена не только распознавать изображение мяча из одного кадра, но и изучать схемы полета из последовательных кадров. TrackNet берет изображения размером 640 × 360 для создания тепловой карты обнаружения либо из одного кадра, либо из нескольких последовательных кадров для позиционирования мяча и может достигать высокой точности даже на общедоступных видео.

Набор данных

Доступный набор данных состоит из видеоклипов из 10 транслируемых видео. Каждое видео содержит несколько роликов от подачи мяча к забитому мячу. В наборе данных 19 835 помеченных кадров. Разрешение, частота кадров 1280х720, 30 кадров в секунду соответственно. В файле метки каждый кадр может иметь следующие атрибуты: «Имя кадра», «Класс видимости», «X», «Y» и «Шаблон траектории». «Класс видимости», сокращенно VC, указывает видимость мяча в каждом кадре. Возможные значения: 0, 1, 2 и 3. VC = 0 означает, что мяч не находится в кадре. VC = 1 означает, что мяч можно легко идентифицировать. VC = 2 означает, что мяч находится в кадре, но его нелегко идентифицировать. «Шаблон траектории» указывает типы движения мяча и подразделяется на три категории: полет, удар и отскок.