В наши дни машинное обучение, кажется, у всех на слуху, и почти каждый, от новичков на YouTube до хорошо зарекомендовавших себя компаний, изо всех сил пытается усвоить эти сладкие идеи. Многие из этих идей являются прямым результатом кропотливо собранных данных и хорошо разработанных моделей. Обучение этим моделям - важный шаг в этом процессе, но понимание того, как оценить модель, может оказаться сложной задачей. Вот тут-то и пригодятся методы оценки.
Образцовые методы оценки - это именно то, на что они похожи. Это методы оценки корректности моделей на тестовых данных. Эти методы позволяют оценить качество вашей статистической модели или модели машинного обучения. Также важно не только оценить вашу модель, но и оценить ее по нескольким показателям. Это связано с тем, что модель, которая хорошо работает с одним показателем, может плохо работать с другим.
Выбор правильного метода оценки будет в первую очередь зависеть от того, какой тип проблемы решается. В области машинного обучения с учителем мы будем рассматривать модели в двух категориях - классификации и регрессии. Регрессия позволяет нам отвечать на такие вопросы, как «сколько?» или «сколько?». Если ваш результат представляет собой число с действительным значением, вы пытаетесь решить проблему регрессии. Классификация, с другой стороны, позволяет нам сказать, принадлежит ли что-либо к тому или иному классу. Давайте рассмотрим несколько методов, которые вы, вероятно, усвоите на раннем этапе своего пути к машинному обучению.
Метрики регрессии
Модели регрессии выводят непрерывные переменные, поэтому показатели для оценки моделей регрессии отражают это.
MSE
Сначала идет MSE или среднеквадратичная ошибка. MSE измеряет среднеквадратичную разницу между расчетными значениями и фактическими значениями. MSE очень чувствительна к выбросам и из-за этого приведет к очень высокому значению ошибки, даже если несколько выбросов присутствует в хорошо подобранной модели.
RMSE
RMSE или среднеквадратичная ошибка - это просто квадратный корень из среднеквадратичной ошибки. Это предпочтительнее, чем MSE, потому что это наиболее легко интерпретируемая статистика, поскольку она имеет те же единицы, что и количество, нанесенное на вертикальную ось. Извлечение квадратного корня из MSE означает, что RMSE придает относительно высокий вес большим ошибкам. Это также означает, что вместо того, чтобы двигаться с дисперсией ошибок, вместо этого он движется с дисперсией частотного распределения величин ошибок.
R-квадрат
R-квадрат (R2) - это статистическая мера, которая представляет, какая доля дисперсии для зависимой переменной объясняется независимой переменной или переменными. Это показатель, объясняющий взаимосвязь, аналогичную корреляции. Но в то время как корреляция объясняет силу взаимосвязи между независимой и зависимой переменной, R-квадрат объясняет, в какой степени ваша модель отражает отношение дисперсии между переменными. Например, если R2 модели составляет 0,84, то примерно 84% наблюдаемой вариации можно объяснить входными данными модели.
Скорректированный R-квадрат
R-квадрат всегда увеличивается с добавлением любой новой функции. Это ограничение означает, что трудно определить, работает ли модель лучше с меньшими функциями. Скорректированный R-квадрат решает проблему R-Square, штрафуя счет по мере добавления дополнительных функций. Следовательно, для увеличения общей ценности модели требуется значительное увеличение R2.
Показатели классификации
Большинство оценок моделей классификации начинаются с построения матрицы неточностей. Матрица неточностей - это сводка результатов прогноза по задаче классификации. Количество правильных и неправильных прогнозов суммируется со значениями подсчета и разбивается по каждому классу.
Матрица путаницы сообщает нам четыре важных вещи:
- Истинные положительные результаты (TP): количество наблюдений, в которых модель предсказала, что наблюдение является частью целевого класса (1), а они на самом деле являются (1).
- Истинно-отрицательные (TN): количество наблюдений, в которых модель предсказала, что наблюдение не является частью целевого класса (0), и они не являются (0).
- Ложные срабатывания (FP): количество наблюдений, в которых модель предсказала, что наблюдение является частью целевого класса (1), а на самом деле нет (0).
- Ложноотрицательные (FN): количество наблюдений, в которых модель предсказала, что наблюдение не является частью целевого класса (0), а на самом деле (1).
Получив эти значения, вы можете переходить к расчету различных методов оценки вашей модели.
Точность
Точность - это наиболее интуитивно понятный показатель, который можно определить как количество правильно классифицированных тестовых случаев, деленное на общее количество тестовых примеров. Он отвечает на вопросы: «Какой процент из всех прогнозов, сделанных нашей моделью, был правильным?» Хотя точность считается хорошим целостным представлением, она имеет серьезное ограничение. Когда дело доходит до несбалансированных наборов данных, вы можете иметь высокую точность и при этом иметь совершенно неэффективную модель. Например, если мы обнаруживаем мошенничество в банковских данных, соотношение случаев мошенничества и случаев отсутствия мошенничества может составлять 1:99. Если используется точность, модель окажется на 99% точной, если все тестовые сценарии будут предсказаны как не мошеннические. Однако в данном случае это было бы бесполезно.
Точность
Точность - это показатель, используемый для определения правильности классификации. Precision отвечает на вопросы: «Из всех случаев, когда модель говорила, что наблюдение принадлежит классу, сколько раз это было на самом деле?» Это уравнение представляет собой отношение правильных положительных классификаций к общему количеству предсказанных положительных классификаций. Чем больше дробь, тем выше точность, а значит, лучше способность модели правильно классифицировать положительный класс.
Оценка высокой точности может вводить в заблуждение, потому что она указывает только на то, сколько раз модель предсказывала положительный результат, и это было истинно положительным. Это означает, что он ничего не говорит вам о том, сколько раз модель предсказывала ложь, но на самом деле это было правдой. Точность - хорошая мера, когда цена ложного срабатывания высока.
Напомнить
Напоминание сообщает нам количество правильно идентифицированных положительных случаев из общего числа положительных случаев. Напомним, отвечает на вопрос: «Из всех наблюдений, которые были частью целевого класса, какой процент из них наша модель правильно определила?» Высокий уровень отзыва может вводить в заблуждение, потому что он не дает вам указания на то, сколько раз модель предсказывала истинность, когда на самом деле она была ложной. Отзыв - хороший показатель для использования, когда цена ложноотрицательных результатов высока. Напоминание также часто называют истинно положительным показателем или чувствительностью.
Примечание: точность и отзыв имеют обратную связь. По мере того, как наш отзыв увеличивается, наша точность снижается, и наоборот. Вот почему важно учитывать вашу проблему и то, какая ошибка менее затратна для вашей общей цели.
Специфика
Специфичность, иногда называемая показателем истинного отрицания, измеряет долю правильно идентифицированных отрицаний. Другими словами, доля наблюдений, не принадлежащих к целевому классу, которые правильно определены как не принадлежащие к целевому классу. Подобно другим обсуждаемым мерам, эта мера также ограничена тем, что не дает полной картины. Например, модель, которая всегда возвращает отрицательный результат теста, будет иметь специфичность 100%, потому что специфичность не учитывает ложноотрицательные результаты.
Оценка F1
Оценка F1, также известная как F-Score / F-Measure, учитывает как точность, так и отзывчивость. Это гармоническое среднее (среднее) точности и полноты. Максимально возможное значение F-оценки равно 1, что указывает на идеальную точность и отзыв, а минимально возможное значение - 0, если точность или отзыв равны нулю. Это полезно в тех случаях, когда важны как отзыв, так и точность. Это, однако, указывает на серьезную критику оценки F1, поскольку в ней одинаково важны точность и отзывчивость. На практике разные типы неправильной классификации влекут за собой разные затраты, и поэтому во время оценки их следует рассматривать по-разному, поскольку они являются частью проблемы, которую решает ваша модель.
ROC и AUC
Кривая характеристик оператора-приемника (ROC-кривая) показывает процент истинных положительных результатов по сравнению с частотой ложных срабатываний нашего классификатора. AUC обеспечивает единичный показатель для оценки модели классификации путем измерения площади под кривой ROC. ROC позволяет нам определять оптимальные соотношения между спецификой и отзывами, специфичными для проблемы, которую вы хотите решить. При обучении классификатора наиболее эффективные модели будут иметь кривую ROC, которая охватывает верхний левый угол графика, что означает, что модель может надлежащим образом различать классы. AUC, равная 1, означает, что ваш классификатор идеален, что крайне маловероятно. Хотя AUC 0,5 (50%) или меньше будет означать, что ваша модель не лучше, чем случайное предположение. Следует отметить, что сокращение этих мер до единственного числа иногда осуждается, поскольку это приводит к выводу, который рассматривается как шумный.
Последние мысли
В этом блоге мы кратко рассмотрели лишь некоторые методы, используемые сегодня для оценки различных моделей в науке о данных. Разные проблемы требуют разных подходов, и вам следует использовать тот метод, который наиболее подходит для вашего проекта. Хотя легче сказать, чем сделать, с практикой и исследованиями вы тоже скоро будете делать надежные выводы, которые, несомненно, приведут к еще большему количеству машинного обучения.
Следуйте за мной здесь на Medium.
Если вам понравилось общаться, вы можете найти меня в LinkedIn: здесь
Если вы хотите следить за моим путешествием по науке о данных (и получать удовольствие от мемов), свяжитесь со мной в Twitter: здесь.