Показатели оценки 101

В наши дни машинное обучение, кажется, у всех на слуху, и почти каждый, от новичков на YouTube до хорошо зарекомендовавших себя компаний, изо всех сил пытается усвоить эти сладкие идеи. Многие из этих идей являются прямым результатом кропотливо собранных данных и хорошо разработанных моделей. Обучение этим моделям - важный шаг в этом процессе, но понимание того, как оценить модель, может оказаться сложной задачей. Вот тут-то и пригодятся методы оценки.

Образцовые методы оценки - это именно то, на что они похожи. Это методы оценки корректности моделей на тестовых данных. Эти методы позволяют оценить качество вашей статистической модели или модели машинного обучения. Также важно не только оценить вашу модель, но и оценить ее по нескольким показателям. Это связано с тем, что модель, которая хорошо работает с одним показателем, может плохо работать с другим.

Выбор правильного метода оценки будет в первую очередь зависеть от того, какой тип проблемы решается. В области машинного обучения с учителем мы будем рассматривать модели в двух категориях - классификации и регрессии. Регрессия позволяет нам отвечать на такие вопросы, как «сколько?» или «сколько?». Если ваш результат представляет собой число с действительным значением, вы пытаетесь решить проблему регрессии. Классификация, с другой стороны, позволяет нам сказать, принадлежит ли что-либо к тому или иному классу. Давайте рассмотрим несколько методов, которые вы, вероятно, усвоите на раннем этапе своего пути к машинному обучению.

Метрики регрессии

Модели регрессии выводят непрерывные переменные, поэтому показатели для оценки моделей регрессии отражают это.

MSE

Сначала идет MSE или среднеквадратичная ошибка. MSE измеряет среднеквадратичную разницу между расчетными значениями и фактическими значениями. MSE очень чувствительна к выбросам и из-за этого приведет к очень высокому значению ошибки, даже если несколько выбросов присутствует в хорошо подобранной модели.

RMSE

RMSE или среднеквадратичная ошибка - это просто квадратный корень из среднеквадратичной ошибки. Это предпочтительнее, чем MSE, потому что это наиболее легко интерпретируемая статистика, поскольку она имеет те же единицы, что и количество, нанесенное на вертикальную ось. Извлечение квадратного корня из MSE означает, что RMSE придает относительно высокий вес большим ошибкам. Это также означает, что вместо того, чтобы двигаться с дисперсией ошибок, вместо этого он движется с дисперсией частотного распределения величин ошибок.

R-квадрат

R-квадрат (R2) - это статистическая мера, которая представляет, какая доля дисперсии для зависимой переменной объясняется независимой переменной или переменными. Это показатель, объясняющий взаимосвязь, аналогичную корреляции. Но в то время как корреляция объясняет силу взаимосвязи между независимой и зависимой переменной, R-квадрат объясняет, в какой степени ваша модель отражает отношение дисперсии между переменными. Например, если R2 модели составляет 0,84, то примерно 84% наблюдаемой вариации можно объяснить входными данными модели.

Скорректированный R-квадрат

R-квадрат всегда увеличивается с добавлением любой новой функции. Это ограничение означает, что трудно определить, работает ли модель лучше с меньшими функциями. Скорректированный R-квадрат решает проблему R-Square, штрафуя счет по мере добавления дополнительных функций. Следовательно, для увеличения общей ценности модели требуется значительное увеличение R2.

Показатели классификации

Большинство оценок моделей классификации начинаются с построения матрицы неточностей. Матрица неточностей - это сводка результатов прогноза по задаче классификации. Количество правильных и неправильных прогнозов суммируется со значениями подсчета и разбивается по каждому классу.

Матрица путаницы сообщает нам четыре важных вещи:

Истинные положительные результаты (TP): количество наблюдений, в которых модель предсказала, что наблюдение является частью целевого класса (1), а они на самом деле являются (1).
Истинно-отрицательные (TN): количество наблюдений, в которых модель предсказала, что наблюдение не является частью целевого класса (0), и они не являются (0).
Ложные срабатывания (FP): количество наблюдений, в которых модель предсказала, что наблюдение является частью целевого класса (1), а на самом деле нет (0).
Ложноотрицательные (FN): количество наблюдений, в которых модель предсказала, что наблюдение не является частью целевого класса (0), а на самом деле (1).

Получив эти значения, вы можете переходить к расчету различных методов оценки вашей модели.

Точность

Точность - это наиболее интуитивно понятный показатель, который можно определить как количество правильно классифицированных тестовых случаев, деленное на общее количество тестовых примеров. Он отвечает на вопросы: «Какой процент из всех прогнозов, сделанных нашей моделью, был правильным?» Хотя точность считается хорошим целостным представлением, она имеет серьезное ограничение. Когда дело доходит до несбалансированных наборов данных, вы можете иметь высокую точность и при этом иметь совершенно неэффективную модель. Например, если мы обнаруживаем мошенничество в банковских данных, соотношение случаев мошенничества и случаев отсутствия мошенничества может составлять 1:99. Если используется точность, модель окажется на 99% точной, если все тестовые сценарии будут предсказаны как не мошеннические. Однако в данном случае это было бы бесполезно.

Точность

Точность - это показатель, используемый для определения правильности классификации. Precision отвечает на вопросы: «Из всех случаев, когда модель говорила, что наблюдение принадлежит классу, сколько раз это было на самом деле?» Это уравнение представляет собой отношение правильных положительных классификаций к общему количеству предсказанных положительных классификаций. Чем больше дробь, тем выше точность, а значит, лучше способность модели правильно классифицировать положительный класс.

Оценка высокой точности может вводить в заблуждение, потому что она указывает только на то, сколько раз модель предсказывала положительный результат, и это было истинно положительным. Это означает, что он ничего не говорит вам о том, сколько раз модель предсказывала ложь, но на самом деле это было правдой. Точность - хорошая мера, когда цена ложного срабатывания высока.

Напомнить

Напоминание сообщает нам количество правильно идентифицированных положительных случаев из общего числа положительных случаев. Напомним, отвечает на вопрос: «Из всех наблюдений, которые были частью целевого класса, какой процент из них наша модель правильно определила?» Высокий уровень отзыва может вводить в заблуждение, потому что он не дает вам указания на то, сколько раз модель предсказывала истинность, когда на самом деле она была ложной. Отзыв - хороший показатель для использования, когда цена ложноотрицательных результатов высока. Напоминание также часто называют истинно положительным показателем или чувствительностью.

Примечание: точность и отзыв имеют обратную связь. По мере того, как наш отзыв увеличивается, наша точность снижается, и наоборот. Вот почему важно учитывать вашу проблему и то, какая ошибка менее затратна для вашей общей цели.

Специфика

Специфичность, иногда называемая показателем истинного отрицания, измеряет долю правильно идентифицированных отрицаний. Другими словами, доля наблюдений, не принадлежащих к целевому классу, которые правильно определены как не принадлежащие к целевому классу. Подобно другим обсуждаемым мерам, эта мера также ограничена тем, что не дает полной картины. Например, модель, которая всегда возвращает отрицательный результат теста, будет иметь специфичность 100%, потому что специфичность не учитывает ложноотрицательные результаты.

Оценка F1

Оценка F1, также известная как F-Score / F-Measure, учитывает как точность, так и отзывчивость. Это гармоническое среднее (среднее) точности и полноты. Максимально возможное значение F-оценки равно 1, что указывает на идеальную точность и отзыв, а минимально возможное значение - 0, если точность или отзыв равны нулю. Это полезно в тех случаях, когда важны как отзыв, так и точность. Это, однако, указывает на серьезную критику оценки F1, поскольку в ней одинаково важны точность и отзывчивость. На практике разные типы неправильной классификации влекут за собой разные затраты, и поэтому во время оценки их следует рассматривать по-разному, поскольку они являются частью проблемы, которую решает ваша модель.

ROC и AUC

Кривая характеристик оператора-приемника (ROC-кривая) показывает процент истинных положительных результатов по сравнению с частотой ложных срабатываний нашего классификатора. AUC обеспечивает единичный показатель для оценки модели классификации путем измерения площади под кривой ROC. ROC позволяет нам определять оптимальные соотношения между спецификой и отзывами, специфичными для проблемы, которую вы хотите решить. При обучении классификатора наиболее эффективные модели будут иметь кривую ROC, которая охватывает верхний левый угол графика, что означает, что модель может надлежащим образом различать классы. AUC, равная 1, означает, что ваш классификатор идеален, что крайне маловероятно. Хотя AUC 0,5 (50%) или меньше будет означать, что ваша модель не лучше, чем случайное предположение. Следует отметить, что сокращение этих мер до единственного числа иногда осуждается, поскольку это приводит к выводу, который рассматривается как шумный.

Последние мысли

В этом блоге мы кратко рассмотрели лишь некоторые методы, используемые сегодня для оценки различных моделей в науке о данных. Разные проблемы требуют разных подходов, и вам следует использовать тот метод, который наиболее подходит для вашего проекта. Хотя легче сказать, чем сделать, с практикой и исследованиями вы тоже скоро будете делать надежные выводы, которые, несомненно, приведут к еще большему количеству машинного обучения.

Следуйте за мной здесь на Medium.

Если вам понравилось общаться, вы можете найти меня в LinkedIn: здесь

Если вы хотите следить за моим путешествием по науке о данных (и получать удовольствие от мемов), свяжитесь со мной в Twitter: здесь.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning