Вавилонская башня бинарной классификации

TL;DR: бинарная классификация — распространенная задача, но терминология для нее сильно различается в разных областях. Вот краткий глоссарий.

Двоичная классификация — это задача классификации элементов заданного набора на две группы (предсказание, к какой группе принадлежит каждый из них)» (Википедия).

Подумайте о тесте на беременность. Человек может быть либо беременным, либо нет; а тест на беременность либо скажет, что женщина беременна, либо нет. Результаты теста обычно правильные, но могут быть и ошибки.

Или предупредите об урагане. Это должно произойти перед ураганом, но иногда случаются ошибки. Ложная тревога — это плохо, но ураган, который приходит без предупреждения, еще хуже. Или поиск инопланетной жизни. Или протоколы обеспечения качества…

Все это задачи бинарной классификации. Они встречаются во многих областях — медицине, психологии, машинном обучении, статистике, обеспечении качества, прогнозировании погоды и так далее. Существует даже отдельная теория обнаружения сигналов.

К сожалению, каждая область имеет свою собственную терминологию вокруг бинарной классификации: например, своего рода ошибка, когда тест показывает, что женщина беременна, хотя на самом деле это не так, в медицине называется «ложным срабатыванием», а в сигнале — «ложной тревогой». обнаружение и «Ошибка типа I» в статистике. Очень запутанно.

Я часто работаю в междисциплинарных командах и снова и снова ловлю себя на том, что переводю термин, обозначающий одно и то же, например, с машинного обучения на медицинский. В какой-то момент я составил краткий глоссарий, и он мне очень помог на протяжении многих лет. Вот он, надеюсь, он поможет и вам.

Часть I. Основы

Распространенным способом суммирования результатов задачи бинарной классификации является таблица 2 на 2, которую также называют матрицей ошибок, таблицей непредвиденных обстоятельств 2x2 или, соответственно, матрицей путаницы.

Часть II. Условные вероятности

Второй набор терминологической путаницы — это «условные вероятности» — вторичные вычисления на основе чисел в матрице путаницы. Например, вероятность того, что тест на беременность покажет, что кто-то беременен, когда он на самом деле беременен («на самом деле беременна» здесь). Для случая 2x2 всего имеется восемь условных вероятностей, и терминология разбросана по полям. Эта конкретная условная вероятность (TP / (TP+FN)) также называется «Истинная положительная частота», «Чувствительность», «Отзыв», «Частота попаданий» и «Мощность теста». Если я что-то пропустил, скажите, я добавлю.

Часть III. Метрики оценки

Последняя часть, где этот глоссарий часто бывает полезен, — это оценка качества данного бинарного классификатора. Имея два теста на беременность или несколько систем оповещения об ураганах, как мы можем сравнить их качество, чтобы выбрать лучший? Кажется, что каждое поле изобретает свою собственную метрику — и иногда они одинаковы или очень похожи, но под разными именами.

Иногда, конечно, разные области действительно нуждаются в разных метриках. Например, в прогнозировании погоды нет способа рассчитать истинные отрицательные значения (TN) — это было бы каждый раз, когда не было ни предупреждения об урагане, ни урагана — и как это считать? В этих случаях метрики оценки должны быть независимыми от TN — см. ниже. Если вы хотите узнать больше, есть отличная (но длинная) статья в Вики [2].

Резюме

Это в основном мои заметки на манжетах, не очень организованные — я просто надеюсь, что они помогут кому-то разобраться в новой терминологии в незнакомой области. Если у вас есть какие-то новые поля/термины, которые вы хотите добавить, или просто хотите поделиться своим опытом — пожалуйста, прокомментируйте.

Ссылки

  1. https://en.wikipedia.org/wiki/Статистическая_классификация
  2. https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers
  3. https://en.wikipedia.org/wiki/Confusion_matrix
  4. https://en.wikipedia.org/wiki/Чувствительность_и_специфичность
  5. https://en.wikipedia.org/wiki/Precision_and_recall
  6. https://en.wikipedia.org/wiki/Receiver_operating_characteristic