В машинном обучении точность и полнота — это метрики, используемые для оценки того, насколько хорошо работает модель. В этой статье подробно объясняется, что они из себя представляют.

В машинном обучении точность и полнота — это метрики, используемые для оценки того, насколько хорошо работает модель. В этой статье объясняется, что они из себя представляют, и даются ответы на популярный вопрос точность или полнота.

Мы рассмотрим, как вычислить точность и полноту. Мы также обсудим конкретные примеры каждого и почему вы должны использовать как точность, так и полноту для оценки производительности вашей модели.

Лучше всего использовать наиболее точную модель машинного обучения при прогнозировании какого-либо результата. Это, конечно, для того, чтобы свести к минимуму ошибки вашей модели машинного обучения.

В любом случае, некоторые ошибки вашей модели ИИ окажут более значительное влияние, чем другие. Совершать как можно меньше ошибок не всегда в ваших интересах; иногда очень важно знать, где ваша модель неверна.

Или, иначе говоря, понять, с какими ошибками вы можете жить, а какие хотите минимизировать.

Давайте погрузимся глубже.

Каждая модель машинного обучения иногда ошибается, и это факт. Представьте, что наша задача — разработать модель машинного обучения, которая сможет максимально точно предсказывать наличие рака шейки матки.

Видимая цель состоит в том, чтобы

  • Выявить как можно более высокий процент случаев рака
  • с минимальным количеством «ложных срабатываний» (прогноз рака, но на самом деле рака нет)

Гораздо предпочтительнее не игнорировать никого, кто болен раком, даже если это означает, что некоторые пациенты, у которых нет этого заболевания, будут отмечены как больные раком.

И именно в этом разница между акцентом на точности и полноте как на метрике модели машинного обучения.

Как читать матрицу путаницы

Матрица путаницы — это измерение производительности для задач классификации машинного обучения. В случае, если выходные данные могут быть одного из двух классов (Рак ДА/НЕТ, Upsale ДА/НЕТ, Конверсия клиента ИСТИНА/ЛОЖЬ и т. д.), матрица путаницы представляет собой таблицу с четырьмя различными комбинациями прогнозируемых и фактических значений.

Представьте, что у нас есть тысячи строк медицинских данных от пациентов, помеченных как «Рак ДА/НЕТ».

У нас также есть 1848 строк тестовых данных, поэтому мы можем проверить, насколько хорошо работает модель. Результаты организованы в матрицу путаницы:

Чтобы выбрать подходящую модель машинного обучения и принимать обоснованные решения на основе ее прогнозов, важно понимать различные меры релевантности.

Точность — это процент правильно предсказанных случаев по отношению к общему количеству случаев.

Напротив, отзыв — это процент правильно предсказанных случаев по отношению к общему количеству соответствующих случаев.

Высокая точность и высокая полнота означают, что ваша модель работает хорошо.

Формула точного отзыва

Точность. Сколько из всех примеров, которые были предсказаны как положительные, сколько положительных?

Напомнить. Сколько из всех положительных примеров было предсказано как положительное?

Что такое точность в машинном обучении?

Точность является важным фактором, который следует учитывать при оценке производительности модели машинного обучения. Он определяется как доля истинных положительных результатов ко всем положительным прогнозам, включая ложные срабатывания и истинные маркеры.

Сколько из всех пациентов, у которых было предсказано наличие рака, действительно больны раком?

Низкая точность означает, что наша модель машинного обучения будет предсказывать некоторые FP — ложные срабатывания. Некоторым пациентам он будет указывать, что у них рак, хотя на самом деле у них его нет. Это не идеально, но такая ошибка не опасна для жизни.

Точность – это показатель того, сколько обнаруженных элементов действительно релевантны.

Например, представьте, что вы пытаетесь предсказать, есть ли у пациента диабет. Если вы сделаете тест на диабет только один раз, есть вероятность ошибочного диагноза — у пациента может не быть диабета, если в этот день у него был только низкий уровень сахара в крови. Однако их результаты могут оказаться достаточно похожими на результаты пациентов с диабетом, поэтому ваш тест поставит диагноз.

Но если вы сделаете тест дважды — один раз, когда у пациента высокий уровень сахара в крови, и один раз, когда у пациента низкий уровень сахара в крови, — вы получите средний результат, который приведет к правильному диагнозу.

Тот же принцип применим и к другим типам предсказаний. Например, если вы пытаетесь предсказать рост человека, однократное тестирование может привести к неверному прогнозу, поскольку во время измерения на человеке может быть обувь с толстой подошвой.

Но если вы проверите несколько раз, измерив их рост в разной обуви, станет легче найти среднее значение, которое будет более точным, чем любое отдельное измерение.

Определение отзыва машинного обучения

Напомним, еще один важный показатель успеха машинного обучения. Это способ оценить, сколько правильных элементов было найдено по сравнению с тем, сколько их было на самом деле.

Сколько из всех пациентов, у которых действительно есть рак, были предсказаны правильно?

Низкий отзыв означает, что наша модель машинного обучения будет предсказывать некоторые FN — ложные отрицательные значения. Некоторые пациенты, у которых действительно есть рак, будут помечены как не больные. Такая ошибка опасна для жизни.

Другой пример: вы хотите оценить 500 изображений, чтобы определить, на скольких из них есть кошка. Вы, вероятно, пропустите некоторые из них, потому что кошка спрятана на заднем плане или слишком мала, чтобы ее можно было оценить. В этом случае ваша скорость отзыва ниже, чем ваша точность.

Запоминаемость – это показатель того, насколько хорошо вы можете находить нужные элементы.

Не всегда возможно найти каждый отдельный элемент или точку данных, поэтому 100% высокий уровень отзыва встречается редко. Но вы хотите, чтобы ваш процент был как можно выше.

В чем разница между точностью и точностью

Точность и точность — частая тема в области машинного обучения. Это может сбить с толку новых специалистов по данным, поэтому мы разберем его для вас.

При обучении модели вам необходимо определиться с функцией потерь и с тем, какой вес вы хотите придать каждому типу ошибок.

  • Если ваша модель слишком неточна, она не будет давать точных прогнозов ни для каких данных тестового набора.
  • Если ваша модель слишком точна, она будет давать точные, но не точные предсказания. Он даст ответ, который всегда верен или всегда ложен, но недостаточно точен, чтобы быть полезным на практике.

Было бы полезно, если бы вы также подумали, заинтересованы ли вы в выполнении логических выводов (предсказаниях на основе новых данных) или только в прогнозировании результатов на основе прошлых данных. Предположим, вы хотите сделать выводы с новыми данными. В этом случае вы также должны учитывать, насколько точность подходит для этих прогнозов и какая частота ошибок будет приемлемой на практике.

Если вас интересуют только прогнозы на основе прошлых данных, подумайте, какой уровень ошибок является приемлемым. Если есть вероятность того, что ваша модель будет делать ошибки при прогнозировании будущего, полезно знать, какие это могут быть ошибки.

Например, если ваша модель предсказывает, что у человека рак со 100% уверенностью (на основании его симптомов и истории болезни), но у некоторых пациентов на самом деле нет рака, это будет недопустимая частота ошибок.

Точность машинного обучения

В следующих примерах рассмотрим матрицу путаницы:

Cправильные прогнозы

Всего 202 из 262 тестовых строк. Это определяет Точность модели = 77,1%

True Positives (TP) = 65: строка была 1, и модель предсказала для нее 1 класс.

True Negatives (TN) = 137: строка была 0, и модель предсказала для нее класс 0.

Ошибки

Всего 60 из 262 тестовых строк, 22,9%

Ложные срабатывания (FP) = 29: строка была 0, и модель предсказала для нее класс 1.

False Negatives (FN) = 31: строка была 1, и модель предсказала для нее класс 0.

Простая формула точности выглядит следующим образом:

Точность, (TP + TN) / ВСЕГО.

Из всех классов (положительных и отрицательных) 77,10% из них мы предсказали правильно.

Точность должна быть максимально возможной.

Сколько из всех пациентов (с раком или без него) мы правильно предсказали?

Как рассчитать точность в машинном обучении?

Точность, также известная как положительное прогностическое значение, измеряет, насколько хорошо классификатор предсказывает положительный класс.

Он рассчитывается как количество истинных положительных результатов, деленное на общее количество всех положительных и отрицательных наблюдений. Это значение находится в диапазоне от 0 до 1; более высокий балл указывает на лучший баланс.

Точность, TP / (TP + FP).

Из всех классов, которые мы предсказали как положительные, 69,15% на самом деле положительные.

Точность должна быть максимально возможной.

Как рассчитать отзыв в машинном обучении

Отзыв, также известный как чувствительность, рассчитывается путем деления количества положительных образцов, правильно классифицированных как положительные, на общее количество положительных образцов.

Он измеряет способность модели обнаруживать положительные результаты — чем выше ее отзыв, тем больше положительных результатов обнаруживается.

Чтобы рассчитать отзыв, вы должны сначала определить, что представляет собой «положительный» образец. Например, если вы работаете с медицинскими данными, вы можете определить «положительных» как пациентов, у которых было диагностировано определенное заболевание или состояние. Затем используйте свою модель, чтобы классифицировать этих пациентов как «положительных» или «отрицательных» на основе информации, предоставленной вашим алгоритмом.

После этого подсчитайте, сколько пациентов были правильно идентифицированы как у которых было диагностировано это заболевание или состояние. Наконец, разделите это число на всех пациентов, чей статус был точно известен (т. е. на тех, кому точно поставили диагноз).

Это даст вам точную оценку того, насколько хорошо ваш алгоритм обнаружил положительные результаты среди всех возможных положительных результатов (т. е. среди всех пациентов).

Напомнить, TP / (TP + FN).

Из всех положительных классов 67,71% мы предсказали правильно.

Отзыв должен быть как можно выше.

Что такое несбалансированные наборы данных?

Несбалансированные наборы данных — это тип набора данных, в котором один класс имеет значительно большую долю наблюдений, чем другие. Целевая переменная имеет большее отношение наблюдений для одного класса. Например, если у вас есть 1 миллион элементов и ваша целевая переменная — «мужской», тогда может быть более 500 000 элементов, помеченных как мужские, но только около 1000 элементов, помеченных как женский.

Это может быть проблематично, потому что многие алгоритмы машинного обучения предполагают, что каждый элемент имеет равные шансы быть классифицированным как мужской или женский. Таким образом, они не будут работать хорошо, когда придет время делать прогнозы на вашем наборе данных.

Вот несколько вещей, которые вы можете сделать, чтобы исправить несбалансированный набор данных:

Передискретизация (передискретизация или недостаточная выборка)

С помощью повторной выборки вы можете создать новый набор данных, случайным образом выбрав элементы из исходного набора данных. Вы можете сделать это путем избыточной или недостаточной выборки определенных классов.

Например, предположим, что ваш обучающий набор данных несбалансирован, потому что в вашей базе данных больше клиентов-мужчин, чем женщин. В этом случае вы можете увеличить выборку женщин, чтобы выровнять распределение наблюдений между мужчинами и женщинами.

Это поможет улучшить производительность вашей модели. Вы также можете выбрать недостаточную выборку мужчин, что будет иметь противоположный эффект — уменьшит количество наблюдений в вашей обучающей выборке.

Вы можете использовать выборку с заменой или без замены. Обратите внимание, что выборка с заменой может внести систематическую ошибку в ваш набор данных. Если вы хотите избежать этой проблемы, лучше всего использовать выборку без замены.

Передискретизация включает в себя создание синтетических данных, которые являются более сбалансированным представлением генеральной совокупности. Вы можете сделать это путем выборки из разных частей мира, что значительно уменьшит систематическую ошибку в ваших данных.

Еще один способ улучшить разнообразие набора данных — использовать изображения с низким разрешением и повышать их дискретизацию. Это гарантирует, что у вас будет широкий выбор образцов с разным разрешением, чтобы ваша модель могла научиться оценивать любой тип изображения, а не только изображения с высоким разрешением.

Методы сборки

Методы ансамбля используют несколько алгоритмов и методов обучения для получения лучших результатов, чем любой отдельный подход.

Это делается путем объединения прогнозов разных алгоритмов в один прогноз. Например, вы можете по-разному обучить пять разных классификаторов и использовать их для предсказания, к какой категории относится изображение.

Окончательный прогноз будет представлять собой средневзвешенное значение прогноза каждой модели, при этом больший вес будет отдан наиболее точным моделям.

Методы ансамбля могут быть очень мощными, но они также более сложны, чем другие методы, и требуют большого количества данных. Голосование и усреднение — два самых простых способа реализации ансамблевых методов, а суммирование — сложный метод, включающий объединение моделей с использованием другого алгоритма.

F1 Score Machine в обучении

Оценка F1 — это мощный способ измерения производительности модели. Он объединяет две метрики: точность и полнота.

Он рассчитывается следующим образом:

F 1 балл, 2 * (точность * полнота)/(точность + полнота).

Оценка F1 составляет 68,42%. Это помогает одновременно измерять полноту и точность. Вы не можете иметь высокий балл F1 без сильной модели позади.

Давайте повторим то, что мы узнали до сих пор.

Точность — это процент релевантных результатов, которые возвращает ваша модель. Он измеряет, насколько точна ваша модель при определении правильного ответа, вместо того, чтобы возвращать какой-либо результат, который можно было бы считать соответствующим тому, что вы ищете.

Напомним, с другой стороны, измеряет, насколько релевантны ваши результаты поиска. Он сообщает вам, должен ли ваш поиск вообще дать какие-либо результаты.

Показатель F1 представляет собой средневзвешенное значение точности и полноты. Один балл добавляется к точности, если результат релевантен, и один балл добавляется к отзыву, если хотя бы один результат релевантен. Полученное значение дает представление о том, насколько точно ваша модель соответствует искомому запросу.

Оценка F1 — это хороший показатель для оценки результатов поиска, поскольку он позволяет легко сравнивать различные модели. Если у вас есть две модели с очень похожими показателями точности и полноты, трудно сказать, какая из них лучше.

С оценкой F1 вы можете сравнить их с помощью одной метрики, взвесив их соответствующие оценки одинаково. Это придает больший вес ложным срабатываниям и ложным отрицательным результатам, которые являются ложными прогнозами, которые значительно повлияют на точность и достоверность.

Лучший способ использовать оценку F1 — сравнить ваши результаты с базовой моделью. Если вы пытаетесь улучшить производительность своей модели, сравнение ее с базовой моделью с оценкой F1 0,5 или выше поможет вам увидеть, насколько лучше (или хуже) она работает.

Вы также можете использовать оценку F1 как часть проверки статистической гипотезы, чтобы определить, могут ли ваши улучшения иметь значение в реальных сценариях использования.

Точность против отзыва: итог

Точность является одним из наиболее важных понятий в машинном обучении, поскольку она определяет, насколько точно классификатор или предиктор идентифицирует вещи, которые имеют отношение к его задаче.

Отзыв также необходим; пытаясь понять данные, вы хотите знать, идентифицирует ли классификатор или предиктор всю соответствующую информацию.

При использовании этих концепций важно помнить об их ограничениях. Точность и полнота не являются абсолютными числами — это измерения по отношению к набору данных, которые могут меняться в зависимости от того, какая другая информация может быть доступна. Они также не учитывают какие-либо пользовательские факторы, такие как демография или местоположение.

В заключение, точность и полнота являются двумя ключевыми понятиями для понимания того, как работает машинное обучение. Они помогут вам понять, насколько хорошо ваши классификаторы выявляют шаблоны в данных, тем самым улучшая эти модели, гарантируя, что они распознают всю необходимую информацию, игнорируя при этом ненужные детали.

Теперь, когда вы лучше понимаете основные показатели моделей машинного обучения, вы можете лучше понять свои модели прогнозирования.

Нравится содержание? Давайте подключимся.

Если вы считаете, что этой статьей стоит поделиться, расскажите о ней и помогите другим узнать о ее ценности.

Забавный совет: попробуйте нажать кнопку хлопка, чтобы произошло волшебство! ❤️

Вы можете связаться со мной в LinkedIn.