Матрица путаницы

1 января 2022 г.

Матрица путаницы

Это метрика оценки классификации.

Матрица путаницы — это то место, где мы измеряем эффективность нашей модели. Лучше эффективность, лучше производительность, и это именно то, что мы хотим. И именно здесь в центре внимания оказывается матрица путаницы. Матрица путаницы — это показатель эффективности классификации машинного обучения.

Как следует из названия, это на самом деле немного сбивает с толку в первый раз, когда я учился, я имею в виду, что мне действительно требуется некоторое время, чтобы точно знать, когда что уменьшать и каковы эти положительные и отрицательные показатели. Матрица путаницы может применяться к задачам бинарной классификации, а также к задачам мультиклассовой классификации. В этом блоге мы увидим матрицу путаницы для двоичной классификации, потому что, если есть более 3 классов, я схожу с ума.

Чтобы оценить модели классификации, мы обсудим эти терминологии.

Точность
Точность
Отзыв или чувствительность
Специфика
Ошибка
F1-счет
Кривая AUC-ROC

Что такое матрица путаницы?

Матрица путаницы — это показатель оценки для классификации. Метрики оценки — это способ количественной оценки производительности модели машинного обучения.
Матрица путаницы - это не что иное, как матрица 2 x 2, но с точки зрения проблемы двоичной классификации, где размер матрицы путаницы зависит от категорий / классов, которые у нас есть.
В матрице путаницы наша цель состоит в том, чтобы уменьшить FP (частота ложных срабатываний), которая является ошибкой типа 1, и FN (ложноотрицательная ошибка), которая является ошибкой типа II.

Это чрезвычайно полезно для измерения полноты, точности, специфичности, точности и, что наиболее важно, кривых AUC-ROC.
Давайте разберемся с TP, FP, FN, TN с точки зрения аналогии с Covid.

Термины, связанные с матрицей путаницы:

– Истинный положительный результат (TP):

Вы предсказывали положительный результат, и это правда.
Вы предсказали, что у человека есть Covid, а на самом деле у этого человека есть. есть Ковид.

-True Negative (TN):

Вы предсказали Негатив и его Истину.
Вы предсказывали, что на человека не влияет Covid, и на самом деле этот человек на самом деле не затронут.

– Частота ложных срабатываний (FP): – Ошибка типа I:

Вы предсказали Положительное и его Ложное.
Вы предсказали, что у человека есть Covid, но на самом деле у этого человека Covid нет.

– Частота ложноотрицательных результатов (FN): – Ошибка типа II:

Вы предсказали отрицательный результат и его ложь.
Вы предсказали, что у человека нет Ковида, а на самом деле у него Ковид.

Точность:-

Истинные положительные (TP) и истинно отрицательные (TN) блоки матрицы путаницы подпадают под точность.
Точность никогда не следует использовать в качестве меры, когда целевые классы переменных в данных составляют большинство одного класса или класс является несбалансированным.

Точность:-

Точность также называется положительными прогнозируемыми значениями.
В Precision мы фактически фокусируемся на ложном срабатывании (FP).
Он говорит, как часто моя модель была верна, когда предсказывала, что человек затронут.

Напомнить :-

Отзыв также известен как чувствительность ИЛИ истинно положительная скорость.
При воспоминании мы на самом деле фокусируемся на ложноотрицательном результате (FN).
Это говорит о том, как часто моя модель предсказывала, что человек затронут, когда он действительно затронут.

Конкретность :-

Это говорит о том, как часто моя модель предсказывала, что человек не затронут, когда на самом деле он не затронут.

Коэффициент ошибок = 1 – точность.

Оценка F1:-

F1-Score в основном представляет собой среднее гармоническое (точность, отзыв). Иногда в некоторых постановках задачи важны как ложноположительные (fp), так и ложноотрицательные (fn), поэтому мы используем полноту и точность, чтобы найти F1-оценку.
F-оценка помогает одновременно измерять полноту и точность.

Кривая AUC-ROC:-

Когда нам нужно проверить или визуализировать производительность задачи классификации нескольких классов, мы используем кривую AUC (площадь под кривой) ROC (рабочие характеристики приемника).
Кривая ROC — это широко используемый способ визуализации производительности бинарного классификатора, что означает классификатор с минимум двумя возможными выходными классами.
Простыми словами, метрика AUC-ROC расскажет нам о способности модели различать классы. Чем выше AUC, тем лучше модель.
Для построения кривой ROC AUC нам необходимо оптимизировать пороговые значения.
Кривая ROC строится с отношением TPR (истинная положительная частота) к FPR (ложноположительная частота), где TPR находится на оси y, а FPR — на оси x.
Говорят, что большая площадь под кривой — лучшая модель.

Здесь красная линия считается очень плохой ROC-кривой, где AUC составляет где-то около 0,55, потому что она будет предсказывать 50–50 прогнозов того, что у человека рак или, возможно, нет рака.
И хорошей моделью или лучшей моделью является Зеленая кривая, где точность составляет 100% (AUC составляет 1,0) и нет ошибочной классификации.
Таким образом, мы получим лучший AUC, когда мы оптимизируем лучшее пороговое значение, уменьшая ложноположительные или ложноотрицательные значения в зависимости от варианта использования.

Когда следует уменьшать количество ложноположительных или отрицательных результатов в матрице путаницы:

Пример 1. В случае рака

В случае рака мы должны сосредоточиться на отзыве, который является чувствительностью, где мы должны уменьшить ложноотрицательный результат (FN).

Предположим, если у человека рак, но модель предсказала, что у него нет рака, поэтому в этом сценарии мы должны уменьшить FN.

Пример 2. Обнаружение нежелательной почты

В случае обнаружения спама мы должны сосредоточиться на точности (FP).

Предположим, что если письмо не является спамом, но модель предсказала, что это спам, то в этом сценарии мы должны уменьшить False Positive FP.

Пример 3. Побочные эффекты вакцинации

Должен уменьшить FN: Если вакцина имеет побочные эффекты и прогнозируется отсутствие побочных эффектов, вакцинация может привести к другой проблеме со здоровьем.

Также мы должны уменьшить FP: ЕСЛИ вакцина не имеет побочных эффектов и прогнозируется, что она имеет побочный эффект, люди не будут готовы к вакцинации, и это приведет к еще более худшей ситуации.

Вы можете связаться со мной по адресу:

LinkedIn: https://www.linkedin.com/in/shubham-gangawane/

Гитхаб: https://github.com/ShubhamGangawane

Инстаграм: https://www.instagram.com/godnooob/

Спасибо за прочтение!

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning