Просто потому, что мне было любопытно.
Введение
Основанная в 2001 году, НБА Gatorade League, или G League, является официальной низшей лигой НБА. Хотя ее история коротка по сравнению с НБА, Лига G стала обычным местом для игроков, желающих развить свои навыки и получить возможность играть в НБА. Некоторые из самых успешных игроков Лиги G включают чемпионов НБА Крис Миддлтон, Паскаль Сиакам и Джереми Лин (его первые несколько выступлений в начале 2010-х — когда она еще называлась D-лига).
Вдохновение для этого проекта пришло во время пузыря G-лиги в 2021 году, когда Джереми Лин, мой любимый баскетболист, предпринял попытку своего последнего возвращения в НБА почти через 10 лет после своего последнего выступления в низшей лиге. Лин, несмотря на то, что он сыграл исключительно в 9 играх за Санта-Крус Уорриорз, не смог получить контракт или вызов в команду НБА. Затем мне стало любопытно, на что обращают внимание команды НБА, когда вызывают игрока. Это основано на производительности игрока? Насколько хорошо игрок может соответствовать потребностям команды? Может быть, сочетание того и другого? Я решил попытаться ответить на этот вопрос, используя общедоступные данные NBA G League, чтобы увидеть, какие факторы приводят к вызову в НБА (я определенно не пытаюсь доказать, что мой любимый игрок заслужил еще один шанс в НБА… ладно, возможно, обратите внимание на некоторую предвзятость подтверждения).
Призывы 101
Что такое Gatorade Call-Up (да, у них есть официальное название)? Подобно Высшей лиге бейсбола и соответствующей низшей лиге, вызов в G League — это просто когда игрока G League вызывают играть за команду NBA. Для большинства игроков G-лиги, поскольку они технически являются свободными агентами, они могут получить вызов в любую из 30 команд НБА, независимо от конкретной команды G-лиги, за которую они играют; они просто подписывают контракт на игру за команду НБА. Двусторонние игроки, игроки с назначением НБА и игроки с правом драфта являются единственным исключением из этого правила — они могут быть вызваны только франшизой НБА, связанной с командой Лиги G, за которую они играют. Например, Кеннет Лофтон из Мемфис Хастл может быть вызван только Мемфис Гриззлис, филиалом Хастл в НБА, поскольку у него двусторонний контракт (как в этой статье). Наконец, игроки G-лиги, которые все еще имеют право на участие в драфте НБА, не могут быть вызваны (то есть большинство игроков в G-лиге Ignite). Если вам все же интересны подробности, всю информацию можно найти здесь.
Примечание. Джереми Лин во время своего пребывания в "Санта-Крус Уорриорз" не был назначен на НБА и не имел двустороннего контракта, поэтому он мог быть подписан любой из 30 команд НБА.
Набор данных (набор данных?)
Данные, используемые для этого проекта, были взяты из RealGM и включают в себя большую часть общей и расширенной статистики, доступной для игроков в течение регулярного сезона NBA G League 2021–2022 годов. Окончательный набор данных содержит 356 наблюдений (строк) и 56 переменных (столбцов), таких как позиция игрока, раунд драфта, очки за игру (PPG), реальный процент попаданий (TS%) и даже счетчик ударов о пол ( FIC), метрика, созданная людьми из RealGM. Весь набор данных можно найти на моем GitHub (вместе с кодом), а снимок данных представлен ниже:
Переменная CalledUp — это бинарная переменная, указывающая, вызывался ли игрок хотя бы раз в течение сезона (1 — да, 0 — нет), и она будет переменной результата для нашей модели. На официальном сайте NBA G League есть более подробная статистика, но ее довольно сложно собрать, поэтому вместо этого я решил сосредоточиться на данных RealGM. Я решил проанализировать данные за сезон 2021–2022 годов, так как это самый последний завершенный сезон, а данные за 2020–2021 годы довольно ограничены, так как им приходилось играть в пузыре. Тем не менее, сезон 2020–2021 годов по-прежнему будет использоваться в конце проекта для проверки выступления Джереми Лина.
Примечание. набор данных содержит только игроков, которые играли в регулярном сезоне, то есть игроков, которые не играли в регулярном сезоне (т. е., возможно, они играли только в шоукейсе) или не прошли «квалификацию» для получения статистики. ведение (не наиграл игр) были исключены. Известные исключения включают Исайю Томаса, Стэнли Джонсона и Лэнса Стивенсона.
Исследовательский анализ данных (EDA) — Часть 1
В целом около 29,8% игроков в наборе данных получили вызов хотя бы один раз в сезоне 2021–2022 годов, а 70,2% - нет. Интересен вопрос, как это распределяется на командном уровне:
Неожиданно команды, у которых было больше всего вызовов, также были связаны с командами НБА, которые боролись в сезоне 2021–2022 годов. Оклахома-Сити Блю (OKL) и Лейкленд Мэджик (LAK) связаны с Оклахома-Сити Тандер и Орландо Мэджик соответственно — обе команды перестраивались. Саут-Бэй Лейкерс связаны с Лос-Анджелес Лейкерс, командой, которая боролась (и до сих пор борется… с Клипперс) в течение регулярного сезона.
Еще один интересный ракурс — распределение призывов по должностям:
Мы видим, что защитники и нападающие, как правило, получают больше всего вызовов. Это может быть просто связано с тем, что на этих позициях играет больше игроков. Более того, как мы видим из таблицы ниже, средний рост и вес двух «призывных» групп довольно схожи:
Тем не менее, будет интересно посмотреть, как эти цифры изменятся по мере перехода НБА к баскетболу, который становится все более беспозиционным.
Наконец, рассмотрим распределение вызовов по драфт-раундам игроков:
Неудивительно, что мы видим, что не выбранных игроков значительно больше, чем выбранных в G League. Удивительно, но мы видим, что более высокая доля недрафтованных игроков получила вызов по сравнению с игроками, которые были выбраны в первом раунде. Хотя это интересно, следует отметить, что эти различия в пропорциях не являются статистически значимыми.
Моделирование (Часть 1)
Логистическая регрессия
Основной моделью, которую я использовал, была модель логистической регрессии, модель, часто используемая для задачи классификации. Я выбрал модель логистической регрессии из множества других моделей классификации, потому что она проста, ее легко интерпретировать, и не было заметной разницы в прогностической способности среди вариантов моделей, которые у меня были. Я не буду тратить слишком много времени на математику, но модель логистической регрессии, по сути, моделирует вероятность события, приравнивая логарифмические шансы события к линейной комбинации предикторов. Математически это выглядит примерно так:
где p(x) — вероятность наступления события, x — независимая переменная (их может быть больше одной), Betas (причудливо выглядящие B) — коэффициенты, а ln — натуральный логарифм.
Если вам интересно, как работает модель логистической регрессии, вы можете проверить этот канал YouTube здесь, но вам не нужно полностью разбираться в деталях модели, чтобы понять важные выводы этого проекта.
Счетчик ударов о пол (FIC)
Чтобы начать процесс моделирования, я изучил каждую переменную, чтобы увидеть, сможет ли какая-либо из них эффективно предсказать, будет ли вызван игрок. Для этого проекта переменная считалась плохим предиктором, если точность ее проверки была хуже, чем у наивного классификатора — модели, которая просто предсказывает «отсутствие вызова» для каждого игрока в наборе данных. Другими словами, поскольку около 70% игроков в наборе данных не получили вызова, наивный классификатор будет иметь точность около 70%.
К сожалению, большинство переменных в наборе данных сами по себе были плохими предикторами. Метрика счетчика ударов о пол (FIC) была лучшим предсказателем с точностью теста около 72%. Созданный командой RealGM, FIC представляет собой меру эффективности игрока, которая была разработана для устранения недостатков Рейтинга эффективности игрока (PER) Джона Холлинджера и Оценки влияния игрока (PIE) НБА путем взвешивания передач, создания ударов. и подборы в нападении больше, чем другие переменные. FIC рассчитывается следующим образом:
FIC = PTS + OREB + 0,75DREB + AST + STL + BLK - 0,75FGA - 0,375FTA - TO - 0,5PF
где каждая переменная представляет собой совокупную сумму для игрока в данном сезоне. Глоссарий для каждой статистики можно найти здесь. Следующие пять игроков возглавляли лигу G в FIC в сезоне 2021–2022:
Поскольку метрика FIC была разработана с учетом PER, я хотел сравнить две переменные в качестве предикторов. Хотя и FIC, и PER были статистически значимыми переменными в соответствующих моделях (как показано ниже), PER был плохим предиктором с точностью теста около 65%. Я также сравнил переменную PIE, но об этом позже в статье.
Выбор переменной
Как только я определил FIC как значимый предиктор, я приступил к выбору переменных, используя метод пошагового отбора. Я попробовал прямое направление (с моделью FIC в качестве базовой линии), а также обратное направление, используя AIC, а затем BIC в качестве порога. В конечном счете, лучшая модель из выбора переменных использует в качестве предикторов как FIC, так и Уровень использования (USG%). USG%, по сути, измеряет, как следует из названия, уровень использования игроком (имущества). В частности, как часто владение мячом в нападении заканчивается тем, что мяч оказывается в руках игрока (т. е. попытка броска с игры, попытка штрафного броска или потеря мяча).
Распространенным явлением является то, что игроки становятся менее эффективными в нападении, чем больше владения они используют, поэтому USG% действительно идет рука об руку с FIC в этом аспекте, поскольку FIC включает в свои расчеты элементы атакующей эффективности. Тем не менее, хотя обе переменные являются статистически значимыми предикторами, точность теста модели лишь незначительно увеличивается с 72% до примерно 73%.
Исследовательский анализ данных (EDA) — Часть 2
Как только были определены важные предикторы, я хотел снова провести EDA для этих конкретных переменных. На приведенном ниже графике мы можем посмотреть на взаимосвязь между FIC и USG% для каждого игрока и изучить, как эта взаимосвязь может измениться между двумя группами «вызова»:
В целом, кажется, что между двумя группами «вызова» есть лишь небольшая разница, и эта разница не кажется достаточно преувеличенной, чтобы модель могла легко отличить игрока между двумя группами.
Мы также можем исследовать эти отношения на уровне команды. В частности, мы рассмотрим средний FIC и его связь со стандартным отклонением USG% для каждой команды. Я выбрал стандартное отклонение USG% вместо среднего USG%, потому что на командном уровне мы хотим увидеть, как каждая команда различается с точки зрения использования игроков, а средний USG% довольно похож для каждой команды. График показан ниже, где каждая команда окрашена в соответствии с долей вызовов:
Опять же, мы не можем определить сильную связь между этими переменными. South Bay Lakers, Lakeland Magic и OKC Blue имели три самые высокие доли вызовов, но, похоже, они не имеют каких-либо заметных сходств с точки зрения средней вариации FIC и USG%. South Bay Lakers имеет высокий средний FIC и высокое стандартное отклонение USG%, в то время как Lakeland Magic и OKC Blue сгруппированы где-то посередине.
Разработка функций
Хотя модель FIC+USG% более точна, чем наивный классификатор, мы, вероятно, не должны довольствоваться точностью теста в 73%. Одна уловка, которая очень помогает, когда я изо всех сил пытаюсь улучшить точность модели с доступными данными, особенно с данными о баскетболе, — это конструирование признаков. Разработка функций — это, по сути, процесс создания новых переменных из имеющихся у вас данных — вы проектируете новые функции. Например, возможно, переменная A и переменная B сами по себе являются плохими предикторами вашей переменной результата, но C = A + B — отличный предиктор. Этот трюк также не нов для баскетбольных данных — многие из популярных расширенных статистических данных, таких как Истинный процент бросков (TS%), Эффективный процент попаданий с игры (eFG%) и PER, упомянутые выше, все в смысле, продукты функциональной инженерии. Поскольку я действительно изо всех сил пытаюсь улучшить точность модели с помощью доступных данных, моим следующим шагом будет разработка признаков.
Оценка влияния игрока (PIE)
Прежде чем мы продолжим, нам нужно обсудить метрику NBA Player Impact Estimate (PIE), которая вдохновила меня на разработку функций. PIE был создан для измерения всестороннего вклада игрока в данную игру с использованием статистики очков. В частности, PIE оценивает процент «событий», которые игрок вносит в игру. Пусть вклады для данной игры определены следующим образом:
Взносы = ПТС + ФГМ + ФТМ - ФГА - ФТА + ДРЭБ + ОРЭБ/2 + АСТ + СТЛ + БЛК/2 - ПФ - ТО
и пусть PlayerContributions будет вкладом, рассчитанным с использованием переменных от данного игрока (т. ТО и так далее). Затем PIE для этого игрока в этой игре рассчитывается следующим образом:
PIE = вклады игрока / вклады в игру.
Как и FIC RealGM, PIE НБА похож на показатель PER, но с более простым расчетом.
Первоначально PIE не был частью набора данных, но, поскольку мое любопытство взяло верх надо мной, я кропотливо потратил целый день, пытаясь собрать данные PIE с официального сайта G League, чтобы сравнить метрику с FIC и PER. Как оказалось, PIE также был статистически значимым предиктором, но его точность теста 65% делала его плохим предиктором на практике. Сводную информацию по модели PIE можно найти ниже в следующем (под)разделе.
Счетчик ударов игрока (PIC)
Убрав соответствующий контекст, мы теперь можем перейти к новой функции, которую я создал. Эта функция представляет собой комбинацию счетчика воздействия на пол (FIC) и оценки воздействия игрока (PIE). , поэтому я назвал его Счетчик влияния игрока (PIC), потому что я был ленив и плохо разбирался в названиях. Расчет PIC прост: я просто рассчитал вклады (отсюда влияние игрока) для игрока, используя его переменные итоги (отсюда счетчик) за весь сезон 2021–2022 гг. Другими словами, я нашел общее количество PTS, ASTS, TO и т. д. игрока за этот сезон и подставил его в уравнение вклада для расчета PIC. Вы можете сказать, что моя лень действительно проявляется здесь в полной мере.
Поскольку PIC рассчитывается с использованием совокупных показателей игрока, его можно рассматривать как общее влияние игрока за весь сезон, а не как процент влияния игрока за игру, который оценивается с помощью PIE.
Удивительно, но PIC оказался довольно хорошим предсказателем. Сам по себе это статистически значимый предиктор, способный обеспечить точность теста 73% — наравне с моделью FIG+USG% и лучше, чем любая другая переменная в наборе данных.
Моделирование (Часть 2)
Хорошо, теперь, когда у нас есть новая функция, давайте попробуем еще больше повысить точность нашей модели. Как упоминалось ранее, точность теста 73% лучше, чем у наивного классификатора, но в целом это не так уж и хорошо. Сначала я попробовал ступенчатый выбор переменных с помощью модели PIC, но точность тестов полученных моделей не сильно улучшилась. Затем я исследовал взаимосвязь PIC с некоторыми категориальными переменными, чтобы посмотреть, смогу ли я найти что-то, что улучшит его прогностическую силу.
В частности, я посмотрел на средний PIC между различными комбинациями позиций игроков и раундов драфта. В наборе данных каждый игрок играет одну из девяти различных позиций: разыгрывающий (PG), легкий форвард (SF), центральный (C), защитник (G), атакующий защитник (SG), нападающий (F), защитник-нападающий. (GF), Power Forward (PF) и Forward-Center (FC). Каждый игрок был выбран в первом раунде (Rnd 1), втором раунде (Rnd 2) или не выбран. Обратите внимание, что G League Ignite не играла в регулярном сезоне сезона 2021–2022, поэтому все игроки в наборе данных в какой-то момент прошли драфт НБА.
На приведенном выше графике мы видим, что для некоторых комбинаций позиция-драфт (раунд) (таких как незадрафтованные защитники и нападающие «первого раунда») существует значительная разница в среднем PIC между игроками, получившими вызов, и игроками, которые это сделали. нет. Мы можем использовать эти различия в нашей модели.
PIC:Position:Draft (Round) Взаимодействие
Для того, чтобы модель различала наблюдения от разных комбинаций положение-осадка (раунд), я создал коэффициент для каждой комбинации в модели. Напомним ранее, что правая часть функции логистической регрессии представляет собой линейную комбинацию предикторов, и если предикторов несколько, скажем, 27, то это выглядит примерно так:
Однако для моей конкретной модели правая сторона будет выглядеть так:
где каждый Y указывает, играет ли игрок позицию, указанную его индексом (1 — да, 0 — нет), каждый Z указывает, был ли игрок выбран в раунде, указанном его индексом (1 — да, 0 — нет), и X — это просто значение PIC игрока. Например, если игрок играет на позиции атакующего защитника и его не выбрали, то все члены, кроме первой бета-версии и последнего члена в приведенном выше уравнении, должны быть равны нулю. Конечно, в этом примере мы предполагаем, что первая бета-версия и PIC игрока не равны нулю. Поскольку у нас есть девять позиций и три раунда драфта, модель будет иметь в общей сложности 9 x 3 + 1 = 28 коэффициентов. Если вы знакомы с регрессионным моделированием на языке программирования R, то это будет в основном модель glm с формулой взаимодействия CalledUp ~ PIC:Pos:Draft.
Эта модель оказывается намного более успешной, чем любая из предыдущих моделей с точностью теста около 78%. С дополнительными манипуляциями с переменными в наборе данных я смог повысить точность теста примерно до 80%, но тогда модель становится трудной для интерпретации и излишне сложной. Результаты каждой модели приведены в таблице ниже:
Выводы
Теперь, когда мы проанализировали набор данных и нашли важные индикаторы вызовов, мы можем, наконец, вернуться назад и использовать наши выводы, чтобы ответить на некоторые вопросы, представленные в начале этой статьи.
Джереми Лин
Случай Джереми Лина во время того пребывания в пузыре G-лиги, скорее всего, был вызван неудачным выбором времени, а не производительностью. Например, среди защитников сезона 2020–2021 годов Линь вошел в десятку лучших по PIC, несмотря на то, что сыграл гораздо меньше игр:
Кроме того, показатели Линя также были сопоставимы с показателями игроков, получивших вызовы в сезоне 2020–2021 годов:
Мы также можем сравнить цифры Лина с игроками сезона 2021–2022 годов. Однако, поскольку в регулярном сезоне 2020–2021 гг. было меньше игр (15 игр) по сравнению с регулярным сезоном 2021–2022 гг. (36 игр), нам пришлось бы соответствующим образом скорректировать PIC Лина. Если мы предположим, что Лин сохраняет тот же PIC за игру (162,45 / 9 = 18,05) и играет среднее количество игр, сыгранных в сезоне 2021–2022 гг. (24 игры), то у Лина будет PIC около 18,05 x 24 = 433,2 на сезон 2021–2022 гг. Это снова поставило бы его в топ-10 по ПОС среди охранников:
Очевидно, что игра Джереми Лина в баббле была достаточно хороша, чтобы заслужить вызов, так что же пошло не так? Ответ, скорее всего, плохой выбор времени.
Пандемия COVID-19 повлияла на мир во многих отношениях, и NBA G League не стала исключением. Пандемия вынудила Лигу G сжать регулярный сезон 2020–2021 годов в пузырь из 15 игр всего за 25 дней. Меньшее количество игр за очень короткий период времени означало, что количество вызовов и назначений от команд НБА также значительно сократится. Например, только около 4% игроков в наборе данных за 2020–2021 годы получили вызов по сравнению с примерно 29,8% игроков в наборе данных за 2021–2022 годы.
В конечном счете, Линю, вероятно, просто не повезло, и он играл в сезон, когда было особенно сложно заработать вызов. Предыдущая модель дает Джереми Лину лишь около 12% вероятности быть вызванным в сезоне 2020–2021 годов. Эта вероятность достигает примерно 40%, если бы Джереми Лин играл в сезоне 2021–2022 годов, а не с приближенным выше PIC.
Опять же, мы не знаем, выступил бы Лин так же, если бы он играл в следующем сезоне, а регулярный сезон был намного длиннее, особенно с его историей травм. Мы можем потратить довольно много времени на обсуждение всех возможностей, но, как и многие а что, если в спорте, мы, вероятно, никогда не узнаем настоящего ответа.
Совокупные показатели
Помимо конкретного случая с Джереми Линем, мне также было любопытно, что команды искали в игроках, когда вызывали их. Одна интересная вещь, которую мы обнаружили, заключалась в том, что совокупные показатели, такие как FIC и PIC, оказались лучшими показателями, чем показатели для каждой игры, такие как PIE и PER. Это интересно, потому что количество игр, сыгранных игроком, влияет на расчет их совокупных показателей, но количество сыгранных игр в среднем не сильно отличается между игроками, получившими вызов, и игроками, которые его не получили.
Примечание. я пытался масштабировать переменные, но, похоже, это не сильно повлияло на модель, поэтому эта разница, похоже, связана с разницей в величине. Я также пытался использовать FIC на игру и PIC на игру в качестве предикторов, но они были не так хороши, как исходные показатели.
Возможно, количество сыгранных игр играет скорее косвенную роль, помогая командам найти игроков, которых можно вызвать. Например, возможно, командам НБА нравится видеть игроков, способных поддерживать эффективный вклад в течение более длительного периода времени, а не просто играть в каждой игре. Как бы то ни было, мне было трудно точно определить, почему совокупные метрики являются лучшими предикторами, чем метрики для каждой игры, поэтому, если у кого-то есть какие-либо предложения (если кто-то все еще читает в этот момент), пожалуйста, дайте мне знать.
Еще одним интересным открытием является тот факт, что PIC становится очень хорошим предсказателем, когда вы включаете в модель позицию игрока и раунд драфта. Это может указывать на то, что у команд НБА разные ожидания в отношении внутриигрового вклада для разных позиций и игроков, выбранных в разных раундах. Я нахожу это интересным, потому что есть определенные предубеждения, связанные с разными позициями и игроками из разных раундов драфта, и мне интересно, как эти предубеждения играют роль в оценке игроков НБА.
Счетчик ударов игрока
Поскольку мы обнаружили, что PIC является важным предиктором вызовов, я хотел воспользоваться этой возможностью, чтобы выделить некоторые из самых высоких PIC в сезонах 2021–2022 годов у игроков, которые не получили вызовов:
Эл Джей Фигероа, Китон Уоллес и Девон Дотсон все еще гонятся за мечтой НБА и играют в Лиге G за «Саут-Бэй Лейкерс», «Онтарио Клипперс» и «Кэпитал Сити Гоу-Гоу» соответственно. Деван Эрнандес и Джо Янг теперь играют за границей, в Корее и Италии соответственно.
Кроме того, по состоянию на 7 февраля 2023 г. вот лидеры G-лиги по PIC в текущем сезоне 2022–2023 гг .:
Последние мысли
Конечно, несмотря на то, что я доволен своей работой, есть еще несколько заключительных мыслей, которыми я хотел бы поделиться по поводу этого проекта.
Во-первых, хотя 78-процентная точность тестирования окончательной модели является хорошим улучшением по сравнению с предыдущими моделями, она могла бы быть и лучше. Первоначально я надеялся достичь точности теста более 80%, сохраняя при этом некоторую интерпретируемость модели, но это казалось невозможным с имеющимися данными.
Во-вторых, Second Spectrum недавно достиг соглашения с G League о предоставлении подробных данных отслеживания игроков для низшей лиги, поэтому я надеюсь, что однажды вернусь и улучшу этот проект с помощью данных отслеживания игроков. Некоторые из самых последних показателей оценки игроков, такие как RAPTOR from FiveThirtyEight, используют данные отслеживания игроков для оценки игроков, поэтому было бы интересно посмотреть, как команды НБА используют их для оценки перспектив G League. Аналогичным образом, я надеюсь, что информацию о контрактах игроков также будет легче получить (например, участвуют ли они в двустороннем контракте, назначении НБА и т. д.). Я предполагаю, что шансы на вызов, вероятно, намного выше для игроков с двусторонним контрактом или назначением в НБА, поэтому знание этого может помочь предсказательной силе модели.
Наконец, я просто хотел отметить, что, хотя PIC был важным предсказателем того, будет ли игрок вызван в G League, в конечном итоге очень сложно точно предсказать такие события, особенно с помощью всего одной метрики. Каждая команда НБА оценивает свои перспективы по-своему, и каждый игрок G-лиги не проходит один и тот же путь, чтобы осуществить свои мечты в НБА, поэтому было бы неправильно предполагать, что одна метрика может рассказать всю их историю. Цифры помогают указать вам правильное направление, но они не рисуют всей картины.
Вот и все, что я могу сказать об этом проекте. В целом, мне было очень весело работать над этим проектом, так что спасибо всем, кто нашел время, чтобы прочитать эту статью! Если у вас есть какие-либо комментарии или предложения, пожалуйста, дайте мне знать, я всегда открыт для полезных советов от незнакомцев (хотя я новичок в Medium, поэтому я не совсем уверен, что означает «дать мне знать»… есть раздел комментариев?).