«Раскрытие возможностей кривой ROC AUC: практический подход»

Почему кривая ROC?

В контролируемом машинном обучении мы сталкиваемся с двумя типами проблем: регрессией и классификацией. В задаче регрессии мы стремимся предсказать числовое значение, например, предсказать зарплату (LPA) на основе таких характеристик, как CGPA и IQ. С другой стороны, в задаче классификации мы стремимся предсказать класс или категорию, к которой принадлежит точка данных. Например, определение того, помещен ли студент или нет, на основе его CGPA и IQ.

При решении задач классификации, особенно бинарной классификации, широко используется кривая ROC (рабочая характеристика приемника). Кривая ROC помогает нам оценить и визуализировать производительность алгоритмов классификации. В этих алгоритмах, как и в логистической регрессии, модели рассчитывают вероятность (в диапазоне от 0 до 1) наступления события, например вероятность размещения учащегося.

Чтобы преобразовать предсказанные вероятности в фактические предсказания, нам нужно выбрать пороговое значение. Например, если порог установлен на 0,5, любая прогнозируемая вероятность ниже 0,5 классифицируется как 0 (не размещено), а все, что выше 0,5, классифицируется как 1 (размещено).

Возникает вопрос, как определить оптимальное пороговое значение. Именно здесь кривая ROC становится решающей. Это позволяет нам оценить различные пороговые значения и выбрать то, которое лучше всего соответствует нашим потребностям.

Давайте рассмотрим еще один пример классификации электронной почты. Предположим, мы хотим предсказать, является ли электронное письмо спамом или нет (порог 0,5). Мы можем совершить два типа ошибок:

Ложноотрицательный результат: спам-письмо ошибочно классифицируется как не спам.

Ложное срабатывание: электронное письмо, не являющееся спамом, ошибочно классифицируется как спам.

В то время как первый случай может привести к неудобствам, таким как просмотр рекламы, мы можем справиться с первым случаем в случае проблемы с классификатором спама emai, это не повредит нам, чтобы увидеть ADS, такие как myntra или что-то еще.

второй случай более проблематичен. Например, представьте, что студент колледжа получает электронное письмо о собеседовании, но модель предсказывает его как спам с вероятностью 0,6 (начиная с 0,6 > 0,5). Следовательно, электронное письмо попадает в папку со спамом, а студент остается в неведении о возможности собеседования. В результате студент теряет собеседование и, возможно, работу. Такие инциденты могут привести к потере доверия к прогностической модели.

то студент больше никогда не воспользуется вашим продуктом

Чтобы избежать таких ошибок, нам нужно определить наилучшее пороговое значение. В этом случае мы могли бы рассмотреть более высокий порог, например 0,8, где вероятности выше 0,8 классифицируются как спам. Точно настроив порог, мы можем делать более точные прогнозы и минимизировать вероятность неправильной классификации важных электронных писем.

Используя кривую ROC и выбирая соответствующее пороговое значение, мы можем повысить производительность и надежность наших моделей классификации.

Матрица путаницы

В классификации электронной почты матрица путаницы является полезным инструментом для оценки эффективности модели классификации. Он предоставляет сводку прогнозов, сделанных моделью, по сравнению с фактическими метками. Матрица состоит из четырех ключевых показателей: истинные положительные результаты (TP), истинные отрицательные результаты (TN), ложные положительные результаты (FP) и ложные отрицательные результаты (FN).

Давайте рассмотрим пример матрицы путаницы для модели классификации электронной почты:

В этой матрице путаницы у нас есть следующие показатели:

  • True Positives (TP): электронные письма, которые на самом деле являются спамом и правильно определены как спам. В этом примере 85 истинных срабатываний.
  • True Negatives (TN): электронные письма, которые на самом деле не являются спамом и правильно определены как спам. Здесь у нас 92 истинно отрицательных результата.
  • Ложные срабатывания (FP): электронные письма, которые на самом деле не являются спамом, но ошибочно определены как спам. У нас 8 ложных срабатываний.
  • False Negatives (FN): электронные письма, которые на самом деле являются спамом, но ошибочно определены как спам. В этом случае имеется 15 ложноотрицательных результатов.

Таким образом, матрица путаницы обеспечивает всесторонний обзор прогнозов модели и помогает оценить ее точность и эффективность при различении спамовых и неспамовых электронных писем.

Истинный положительный показатель (TPR) –> Преимущество

Истинный положительный показатель (TPR), также известный как чувствительность или отзыв, измеряет долю правильно предсказанных положительных случаев от всех фактических положительных случаев. В контексте обнаружения спама в электронной почте TPR представляет способность модели правильно идентифицировать спам-письма.

Давайте рассмотрим пример, чтобы объяснить TPR в контексте спама по электронной почте:

Предположим, у нас есть набор данных из 100 электронных писем, из которых 40 являются спамом, а 60 — нет. После обучения нашей модели обнаружения спама мы получаем следующие результаты:

  • True Positives (TP): 35 Модель правильно идентифицирует 35 писем со спамом как спам.
  • False Negatives (FN): 5 Модель неправильно классифицирует 5 писем со спамом как не спам.
  • True Negatives (TN): 55 Модель правильно идентифицирует 55 сообщений электронной почты, не являющихся спамом, как не спам.
  • Ложные срабатывания (FP): 5 Модель неправильно классифицирует 5 сообщений электронной почты без спама как спам.

Используя эти значения, мы можем рассчитать TPR следующим образом:

TPR = TP / (TP + FN) = 35 / (35 + 5) = 35 / 40 = 0,875 или 87,5%

TPR 87,5% указывает на то, что наша модель правильно идентифицировала 87,5% фактических спам-писем в наборе данных. Другими словами, он обладает высокой чувствительностью при обнаружении спама.

Важно иметь высокий показатель TPR при обнаружении спама, чтобы свести к минимуму вероятность пропуска важных спам-сообщений и обеспечить более высокий уровень защиты от потенциальных угроз. Однако также важно учитывать другие показатели, такие как точность и специфичность, для оценки общей производительности системы обнаружения спама.

Ложноположительный показатель (FPR)

roc-auc.ipynb — Совместная работа (google.com)

Коэффициент ложных срабатываний (FPR) измеряет долю неправильно предсказанных положительных случаев от всех фактических отрицательных случаев. В контексте обнаружения спама в электронной почте FPR представляет собой скорость, с которой электронные письма, не являющиеся спамом, ошибочно классифицируются как спам.

Продолжая предыдущий пример обнаружения спама в электронной почте:

  • Истинные положительные результаты (TP): 35
  • Ложноотрицательные результаты (FN): 5
  • Истинные негативы (TN): 55
  • Ложные срабатывания (FP): 5

Мы можем рассчитать FPR следующим образом:

FPR = FP / (FP + TN) = 5 / (5 + 55) = 5 / 60 = 0,083 или 8,3%

FPR, равный 8,3 %, указывает на то, что 8,3 % фактических электронных писем, не являющихся спамом, в наборе данных были ошибочно классифицированы моделью как спам. Другими словами, показатель ложных срабатываний модели составляет 8,3%.

Низкий FPR желателен при обнаружении спама в электронной почте, поскольку он указывает на более низкую вероятность того, что законные электронные письма будут помечены как спам. Однако важно найти баланс между сведением к минимуму ложных срабатываний (письма, не являющиеся спамом, классифицируются как спам) и максимизацией истинного срабатывания (письма со спамом, правильно классифицированные как спам). Достижение низкого FPR при сохранении высокого TPR и точности имеет решающее значение для эффективной системы обнаружения спама.

Конечная цель

Конечная цель обнаружения спама в электронной почте – добиться высокого показателя истинного срабатывания (TPR) при сохранении низкого показателя ложноположительного срабатывания (FPR). Изменяя пороговые значения, используемые для классификации электронных писем как спам или не спам, мы можем построить кривую, которая показывает компромисс между TPR и FPR. Эта кривая, часто называемая кривой рабочих характеристик получателя (ROC), дает визуальное представление о производительности системы обнаружения спама при различных порогах классификации. Цель состоит в том, чтобы найти оптимальный порог, обеспечивающий баланс между идентификацией как можно большего количества спам-писем (высокий TPR) и минимизацией количества законных писем, классифицированных как спам (низкий FPR). Анализируя кривую ROC и выбирая соответствующий порог, мы можем максимизировать эффективность системы обнаружения спама, точно определяя спам-сообщения и сводя к минимуму количество ложных срабатываний.

реализация кода