Найти подходящих игроков сложно и требует много времени и усилий. Менеджеры хотят подписывать звезды, но их бюджет не всегда достаточно велик. При подписании есть разные цели. Это может быть замена ключевого игрока, который только что ушел в более крупную команду, или подписание 16-летней восходящей звезды, например, на то, чтобы он стал следующим Месси.
Чтобы упростить этот процесс, я обучил модели машинного обучения с данными FIFA18, а затем использовал их для создания качественных коротких списков игроков, которые соответствуют характеристикам данного игрока, являющегося образцом для подражания. Затем скауты могут использовать эти короткие списки, чтобы решить, каких игроков следует дополнительно исследовать и подписать.
Методология
Данные футболистов получить сложно. Чтобы обойти это, я использовал статистику из видеоигры FIFA18, взятую из Kaggle.
FIFA18 предоставляет нам несколько статистических данных для каждого игрока.
Эти короткие списки похожих игроков составляются путем кластеризации набора данных.
Позвольте мне сначала объяснить, почему кластеризация всего набора данных не является хорошей идеей. Алгоритм кластеризации, который учитывает ~ 20 тыс. Точек данных с ~ 60 переменными, стал бы слишком дорогостоящим с точки зрения времени и вычислительной мощности. Итак, как нам упростить модель?
Мы можем предположить, что для каждой позиции и роли на поле могут потребоваться разные ключевые характеристики. Например, маркировка - очень важный аспект для защитника, но не значение, которое определяет нападающего. Вот почему мне удалось создать разные наборы данных для защитников, полузащитников и нападающих, чтобы сгруппировать их индивидуально. Обратите внимание, что эта категоризация не имеет жестких границ, что означает, что игрок может принадлежать к нескольким категориям.
Метод кластеризации был выполнен с использованием алгоритма k-средних. В каждом наборе данных о позиции было ~ 8000 игроков. Это означает, что, разделив их на 400 кластеров в каждой, группы будут содержать в среднем по 20 игроков. Для более подробной технической информации вы можете увидеть код здесь.
Проверка модели
Чтобы проверить, имеет ли эта модель смысл, я взял несколько образцов для подражания и вручную проверил, насколько хорошо остальные игроки подходят их кластеру.
Как мы видим ниже, большинство игроков в кластерах ролевых моделей было выбрано так, как будто это сделал бы футбольный фанат.
Кластеры для форвардов
Группы полузащитников
Кластеры для защитников
Учитывая результаты модели, вы можете подумать, что это очевидно, и вам не нужна сложная математика, чтобы сделать эту базовую категоризацию. Но все это было сделано только алгоритмом модели. Если эта простая кластеризация с данными FIFA18 сработала, представьте, что мы можем сделать с реальными и более сложными данными.
Как воплотить это в жизнь?
Очевидно, что в реальной жизни статистики намного больше, чем в видеоиграх FIFA18. Используя ту же модель и алгоритм, мы могли бы ввести данные реальных матчей, чтобы найти сходство между игроками в более подробных аспектах игры.
Если бы у нас были исторические данные, мы также могли бы сравнить игроков на разных этапах их карьеры, чтобы определить новые таланты. Представьте себе, как было бы здорово для разведчика найти всех 17-летних игроков с характеристиками, подобными Неймару в этом возрасте, без необходимости путешествовать по всему миру, чтобы их обнаружить.
Если вы работаете в команде или журналист и вас интересует анализ такого рода, не стесняйтесь обращаться ко мне в Twitter.