Методы классификации в науке о данных позволяют нам группировать наши данные в разные классы на основе общих признаков, но как мы оцениваем наши модели? В задачах регрессии оценка, как правило, проста — мы проверяем, насколько хорошо наша линия наилучшего соответствия коррелирует с нашими данными, и работаем исходя из этого. К счастью, у нас есть множество методов оценки классификаторов, которые мы можем настроить на основе наших тематических исследований.

Один из самых простых способов оценить наши классификаторы — использовать матрицу путаницы. С его помощью мы можем проверить, насколько хорошо наша модель предсказала правильные группировки в нашем тестовом наборе данных и ее ошибки. Чтобы объяснить это, предположим, что у нас было только две группы (положительные и отрицательные). Первыми правильными группировками были бы истинно положительные и истинно отрицательные. Последними будут ложные срабатывания (предсказание положительного значения, когда оно на самом деле отрицательное) и ложноотрицательное (предсказание отрицательного значения, когда оно на самом деле положительное). Очевидно, мы хотели бы свести к минимуму как ложные срабатывания, так и ложноотрицательные, но когда у нас мало времени при моделировании, мы можем сосредоточиться на минимизации одного по сравнению с другим. Например, если мы диагностируем болезнь у пациентов, было бы лучше нацеливаться на ложноотрицательные результаты, чем на ложноположительные, поскольку, по-видимому, было бы более опасно позволить больному пациенту думать, что он здоров, чем позволить здоровому думаю, что они были больны.

По сути, матрицы путаницы измеряют чувствительность и специфичность. Чувствительность — это мера того, сколько истинных положительных результатов возвращает наша модель. Специфичность — это мера того, как часто наша модель возвращает истинные отрицательные значения. Иногда при моделировании нам приходится расставлять приоритеты, максимизируя одно над другим. В идеале они оба должны быть высокими, но ни одна модель не идеальна. Эта калибровка особенно актуальна в медицинских случаях, когда определяют, у каких пациентов (истинно положительные) и у каких пациентов (истинно отрицательные) есть заболевание.

Другим методом, который мы используем для оценки классификаторов, является Кривая характеристик принимающего оператора (ROC), которая отображает нашу истинную положительную частоту (TPR) в сравнении с нашей ложной положительной частотой (FPR). Определив, насколько близка площадь под кривой к 1 (если бы она была равна 1, это был бы идеальный классификатор), мы можем оценить, насколько хороша наша модель в определении истинно положительных результатов.

Помимо этих методов, также полезно смотреть на точность и полноту нашей модели, когда мы ее тестируем. Полнота — это отношение значений, которые мы правильно сгруппировали, ко всем значениям, которые на самом деле находятся в этой группе. Например, если мы правильно предсказали 7 из 10 значений, которые находятся в группе, наша оценка отзыва будет 70%. Однако само по себе это не объясняет, насколько эффективна наша модель при определении этих правильных групп. Таким образом, нам нужна проверка на точность, которая представляет собой отношение всех значений, которые мы правильно предсказали, ко всем значениям, предсказанным нашей моделью. Таким образом, если бы мы предсказали 7 правильных значений из 12 предсказанных, наша точность была бы довольно низкой — 7/12, или около 58,3%. Увидев высокое значение в этих двух, мы бы также показали, что у нас есть хороший классификатор.

Есть и другие методы оценки. Я перечислил здесь лишь некоторые из них и, вероятно, узнаю больше по мере продолжения работы. В целом, хорошо известно, как простые методы, подобные этим, могут быть чрезвычайно полезны в нашем моделировании.