CMS (Compact Muon Solenoid) — один из детекторов общего назначения на LHC. В детекторе два пучка частиц высокой энергии (обычно два пучка протонов), движущиеся в противоположных направлениях, сталкиваются, образуя различные частицы. Одна из этих частиц, называемая К-короткой, проходит в детекторе небольшое расстояние, прежде чем распасться на пары противоположно заряженных пионов с вероятностью 69,20%.

K-шорты трудно найти, учитывая, что их производительность относительно низкая и часто перегружена другими частицами и шумом. Цель этого проекта состоит в том, чтобы выявить настоящие K-шорты в кандидатах на K-шорты путем обучения модели XGBoost на примерах моделирования. Образец был /RunIISummer20UL18MiniAODv2/ZToMuMu_M-50To120_TuneCP5_13TeV-powheg-pythia8/MINIAODSIM/ из CMS, доступ к которому осуществляется через XRootD, который представлял собой образец моделирования столкновения протон-протон, созданный генератором событий Pythia 8, учитывая, что большинство алгоритмов классификации работают с помеченными данными.

Подготовка данных

Данные CMS проходят через цепочку реконструкции, которая идет от необработанных данных к форматам данных, которые являются более доступными и более сжатыми с уменьшенными размерами файлов. В процессе преобразования из RAW в MiniAOD программы пытаются идентифицировать различные физические объекты, такие как электроны, мюоны и фотоны, и их соответствующие физические свойства, такие как импульс. Объекты одной категории помещаются в одну коллекцию. На данном этапе MiniAOD две коллекции, имеющие отношение к нашей теме K-short, — это packedPFCandidates и slimmedKshortVertices. packedPFCandidates включает всех кандидатов, реконструированных алгоритмом ParticleFlow, а slimmedKshortVertices содержит всех K-коротких вторичных вершин-кандидатов, реконструированных алгоритмом EDProducer из пар пионов с определенными сокращениями свойств пионов.

Образцы моделирования, сгенерированные Pythia, проходят аналогичный процесс, включающий взаимодействие сгенерированных с помощью моделирования частиц с детекторами и процесс реконструкции, как в реальном эксперименте и данных. Файлы образцов включают в себя все физические объекты для реальных наборов данных, а также набор объектов, помеченных как packedGenParticles, которые включают всю информацию о сгенерированных частицах.

Два возможных способа восстановить короткие шорты из набора данных или образцов MiniAOD:

  1. Изучите пары пионов, на которые распался K-short, вырезав все возможные пионы-кандидаты в packedPFCandidates (для выборки моделирования истинные пионы помечены в packedGenParticles их PDGID) и объединив каждую пару, чтобы проверить их инвариантную массу, или
  2. Непосредственно осмотрите slimmedKshortVertices

К сожалению, после проверки packedGenParticles было показано, что эта коллекция включает информацию только о К-шортах, но не о пионах, на которые они распались. Возврат на один шаг назад в цепочке к файлу AOD не показывает улучшения, а это означает, что невозможно пометить K-шорты из реконструированных пионов, если соответствующие сгенерированные пионы не записаны в выборках. Чтобы идентифицировать настоящие K-короткие частицы из K-коротких кандидатов, была написана программа, которая сравнивает свойства K-коротких кандидатов в packedGenParticles и K-коротких кандидатов в slimmedKshortVertices и помечает K-короткие кандидаты как true, если их свойства кажутся соответствовать. По сравнению с другими параметрами более точно восстанавливаются псевдобыстрота η и азимутальный угол ϕ частиц. Графики, показывающие разницу между значениями η и ϕ реконструированных и сгенерированных пар K-short, показаны на рисунках 1 и 2. Изучение этих двух графиков показывает пики около нуля, представляющие пары реконструированных и сгенерированных K-short, которые действительно совпадают среди шум, вызванный несвязанными парами.

Таким образом, если различия параметров между K-коротким кандидатом и сгенерированной K-короткой парой удовлетворяют Δη ‹ 0,02 и Δϕ ‹ 0,02, K-короткий кандидат помечается как true.

Функции были выбраны в соответствии со знанием физики ускорителей и несколькими раундами обучения модели — функции, которые оказались важными, были сохранены, в то время как новые функции были добавлены. Соответствующие данные были извлечены с использованием встроенных методов из коллекции slimmedKshortVertices, чтобы отразить как этот процесс будет выполняться с истинным набором данных. Имена выбранных функций и их соответствующие значения показаны в таблице ниже:

В таблице каждое имя функции с суффиксом «Pion» соответствует двум функциям для двух пионов, на которые распался K-short (или, таким образом, алгоритм считается ложным K-shorts). PV относится к первичной вершине, где впервые взаимодействовал пучок частиц, а POCA относится к точке ближайшего сближения. Детали того, что представляет собой каждая из этих функций, не будут здесь представлены, так как это займет несколько страниц и будет слишком техническим для данного отчета.

Обработанная выборка представляет собой несбалансированную выборку, в которой только 8023 настоящих короткометражек из 95 897 кандидатов в короткие шорты, а это означает, что только около 8,4% коллекции кандидатов в короткие слова являются настоящими короткими. Если образец будет передан любой модели машинного обучения без изменений, модель, скорее всего, предскажет 0 или ложный K-short для каждого кандидата K-short. Чтобы решить эту проблему, измените вес образца после выполнения этих двух разрезов, которые будут обсуждаться в следующем разделе.

Обучение модели

Этот проект направлен на бинарную классификацию истинных и ложных корейских шорт. XGBClassifier в библиотеке XGBoost, чтобы ансамблевое обучение могло создать более гибкую модель, чем разрезы на образце, аналогичные тем, которые уже были применены в процессе реконструкции к slimmedKshortVertices. Библиотека Scikit-learn использовалась для разделения обучающих и тестовых образцов, при этом 30% образцов были зарезервированы для тестирования.

Поскольку целью была бинарная классификация, была использована цель обучения binary:logistic. Была использована максимальная глубина 30 вместо 6 по умолчанию, учитывая, что для данных имеется 14 признаков. Вес выборки был установлен равным 0,9163 для истинных K-шорт и 0,0837 для ложных K-шорт на основе доли этих двух классов в данных.

Как упоминалось в последнем разделе, было проведено несколько раундов обучения модели, чтобы определить список функций, которые использовались в текущей модели.

Тестирование модели

Обученная модель была протестирована на тестовом образце с соответствующей путаницей, показанной ниже:

Изучая матрицу путаницы, мы видим, что модель имеет точность 0,914, истинно положительный показатель 0,601, истинно отрицательный показатель 0,945 и ложноположительный показатель 0,055. Это показывает, что текущая модель относительно хорошо справляется с идентификацией ложных K-шорт, но ее навыки выявления настоящих K-шорт имеют много возможностей для улучшения. Учитывая, что доля истинно положительных результатов составляет 60%, почти половина истинных К-шорт помечены моделью как ложные К-шорты.

На рисунке 4 показано ранжирование важности функций, которое было создано с использованием встроенного метода XGBoost, а в таблице 2 обобщено, что представляет собой каждая функция, их важность и ранжирование, из которых мы можем сказать, что:

  • Наиболее важной особенностью была псевдобыстрота, важность которой уже продемонстрирована на рис. 2.
  • На втором и третьем месте оказались параметры продольного удара (Dz) двух пионов. Это очень разумно, учитывая, что Dz — одна из немногих функций, которые еще не были вырезаны для создания коллекции slimmedKshortVertices. И наоборот, функции, которые не помечены как важные, могут быть таковыми, поскольку они были вырезаны ранее.
  • Вершинный хи-квадрат — еще одна функция, которая раньше не использовалась, что опять-таки имеет смысл для ее высокого рейтинга.
  • Ниже приведены шесть функций, которые были вырезаны ранее, что сделало их менее важными в обрабатываемых данных для текущей модели.
  • Наконец, флаг качества высокой чистоты для двух пионов, который почти не повлиял на модель по сравнению с другими функциями.

Заключение

Текущая модель с XGBoost смогла идентифицировать 60% истинных K-шорт и 95% ложных K-шорт для тестового образца, что весьма обнадеживает, учитывая, что образец уже был обработан обычными методами и по-прежнему содержал только 8,4%. настоящие K-шорты изначально. График инвариантной массы со всеми K-шортами, идентифицированными моделью как истинные, показан на рисунке 5.

Тем не менее, у модели все еще есть возможности для улучшения, особенно в ее истинном положительном показателе в 60%.

В качестве улучшения можно добавить более сложные функции, требующие значительно большей предварительной обработки, чтобы увидеть, уменьшают ли они ошибку обобщения модели. Со временем параметры для XGBClassifier можно было бы настроить более тщательно, возможно, также уменьшив ошибку и, следовательно, частоту ложных срабатываний.

Помимо внесения дополнительных улучшений в модель и использования самой модели машинного обучения для реконструкции K-short, это также дало важное представление о функциях с их важностью. Модель показывает, что параметр продольного удара dz пиона действительно является важным фактором при реконструкции К-шорт, и, наоборот, флаг качества высокой чистоты может быть не очень эффективным в том же отношении. Эти идеи применимы даже при работе с К-краткой реконструкцией обычным способом.

[1] Адриано Ди и др. (2021) PackedCandidate [Исходный код]. https://github.com/cms-sw/cmssw/blob/506661f288cce5bbc25537466f2317b37c1ed020/DataFormats/PatCandidates/interface/PackedCandidate.h