Какова цель просмотра показателей?

Чтобы найти решение нашей проблемы на основе фактических данных и прогнозируемых данных, которые помогут вам выбрать правильную метрику на основе вашей проблемы с данными.

Прежде чем выбрать правильную метрику для нашей задачи, нам нужно знать несколько терминов, относящихся к мерам задачи классификации. Матрица неточностей помогает нам решить проблему, выбрав правильный показатель для проблемы.

Матрица путаницы

Примечание:

0 указывает на Отсутствие (или) Отрицание.

1 указывает на присутствие (или) положительное

1. Истинно-отрицательный (TN):

Результат, при котором модель правильно предсказывает отрицательный класс. Например, у вас нет covid, а модели машинного обучения предсказывают правильно как не covid-отрицательный.

2. Ложноположительный результат (FP):

Результат, при котором модель неверно предсказывает положительный класс. Например, у вас нет коронавируса, а ML неверно прогнозирует коронавирус. Этот тип ошибки называется ошибкой 1-го типа.

3. Ложноотрицательный (FN):

Результат, при котором модель неверно предсказывает отрицательный класс. Например, у вас covid, но ML предсказывает, что у вас нет отрицательного covid. Этот тип ошибки называется ошибкой типа 2.

4. Истинно положительный (TP):

Результат, при котором модель правильно предсказывает положительный класс. Например, у вас есть covid, и ML предсказывает, что у вас covid-положительный результат, тогда это действительно положительный результат.

Перейдем к выступлениям по задачам классификации.

Мы можем получить характеристики для классификации, вызвав отчет о классификации, или мы можем вычислить их вручную ...

1. Точность

Это часть прогнозов, в которых модель оказалась верной. Мы выберем меру точности, когда наше целевое распределение данных будет сбалансированным. Чем выше значение точности, тем лучше модель.

Точность = (TP + TN) / (TP + TN + FP + FN)

2. Точность

Это доля прогнозируемых положительных случаев. Чем выше значение точности, тем лучше модель.

Точность = TP / (TP + FP)

3. Напомним

Это доля реальных положительных случаев. Он даже называется Чувствительность или Истинно Положительный рейтинг. Чем выше показатель отзыва, тем лучше модель.

Отзыв = TP / (TP + FN)

4. Уровень ложноположительных результатов (FPR)

Это доля фактических отрицательных случаев, предсказанных ошибочно. Чем ниже FPR, тем лучше модель, потому что мы неправильно предсказываем положительные случаи.

Частота ложных срабатываний = FP / (FP + TN)

(OR)

Частота ложных срабатываний = 1 - чувствительность

5. Специфика

Это доля фактических отрицательных случаев, которые были предсказаны правильно.

Специфичность = TN / (TN + FP)

6. Оценка F1

Это среднее гармоническое значение точности и запоминания. Он может иметь максимальный балл 1 и минимальный балл 0.

7. Оценка Каппа

Он используется для общих характеристик модели, которая представляет собой фактические данные по сравнению с прогнозируемыми данными.

Оценка Коэна Каппа измеряет степень соответствия истинных значений и прогнозируемых значений

Меньшее значение 0 означает отсутствие соглашения

0,01–0,20 означает небольшое согласие

0,21–0,40 указывает на справедливое согласие

От 0,41 до 0,60 означает умеренное согласие

от 0,61 до 0,80 означает существенное согласие

От 0,81 до 1 означает почти полное совпадение

8. Рабочие характеристики приемника (ROC).

Значения TPR и FPR меняются с разными пороговыми значениями. Кривая ROC представляет собой график отношения TPR к значениям FPR, полученным при всех возможных пороговых значениях.

9. Площадь под кривой ROC (AUC)

Это разделимость между классами целевых переменных. AUC увеличивается по мере увеличения разделения между классами. Чем выше AUC, тем лучше модель

Это показатели эффективности для задачи классификации. Мы будем выбирать показатели производительности на основе знаний в предметной области.

Надеюсь, вы ясно узнали об этих концепциях.

Спасибо за прочтение :)