В статье Какое машинное обучение (ML) выбрать? «[1], который поможет вам выбрать правильное машинное обучение для ваших данных, мы указали, что с точки зрения бизнеса двумя наиболее важными измерениями являются точность и интерпретируемость.

Мы также заявили, что «Оценка точности модели машинного обучения имеет решающее значение при выборе и развертывании модели машинного обучения».

- Но какие факторы влияют на точность модели?

Точность зависит от подгонки модели. И подгонка модели зависит от компромисса смещения и дисперсии в машинном обучении. Уравновешивание смещения и дисперсии может решить проблему переобучения и недообучения.

Диаграмма «яблочко»: распределение предсказаний модели

Изображение адаптировано: Доминго 2012 [2]

- Определения:

Подгонка модели — это мера того, насколько хорошо [оптимизировать] модель машинного обучения обобщает данные [оценки], аналогичные тем, на которых она была обучена. Хорошо подобранная [оптимально подобранная] модель дает более точные результаты. Переобученная модель слишком точно соответствует данным. Недостаточно подобранная модель недостаточно точно соответствует «[3].

В машинном обучении переоснащение происходит, когда модель обучения слишком сильно настраивает себя, чтобы описать взаимосвязь между обучающими данными и метками. Переоснащение имеет тенденцию делать модель очень сложной из-за слишком большого количества параметров. При этом он теряет свою обобщающую способность, что приводит к плохой работе с новыми [оценочными] данными «[4]

Ваша модель не соответствует обучающим данным, когда модель плохо работает с обучающими данными. Это связано с тем, что модель не может зафиксировать взаимосвязь между входными примерами (часто называемыми X) и целевыми значениями (часто называемыми Y) «[5].

Основные причины:

Подгонка модели зависит от решения проблемы и баланса между смещением и дисперсией.

Понимание соответствия модели важно для понимания основной причины плохой точности модели. Это понимание поможет вам предпринять корректирующие шаги. Мы можем определить, является ли прогностическая модель неподходящей или переобучающей для обучающих данных, взглянув на ошибку прогнозирования в обучающих данных и данных оценки «[6].

Смещение — это разница между оценочным значением и истинным значением оцениваемого параметра. Высокое смещение приводит к недообучению, что приводит к неточной [недействительной] модели. Это может быть вызвано обучением на небольшом наборе данных, построением простой модели для захвата сложных закономерностей или неучетом всех особенностей, предоставленных для обучения, что приводит к изучению неверных отношений. Как правило, модели с высоким смещением обучаются быстрее и их легче понять, но они менее гибкие [7].

Дисперсия — это степень разброса в наборе данных, которая указывает, насколько набор точек данных разбросан от их среднего [среднего] значения. Дисперсия оцениваемой функции показывает, насколько функция способна адаптироваться к изменению набора данных. Высокая дисперсия приводит к переоснащению, что приводит к противоречивой [ненадежной] модели. Это может быть вызвано наличием слишком большого количества функций, созданием более сложной модели, чем необходимо, или захватом высокого уровня шума. Как правило, модели с высокой дисперсией настраиваются сами по себе и более устойчивы к изменяющемуся набору данных, но они более сложны и чрезмерно гибки.

«Основное различие между машинным обучением и статистикой заключается в их назначении. Модели машинного обучения предназначены для максимально точного прогнозирования. Статистические модели предназначены для вывода о взаимосвязях между переменными».

Статистическая погрешность — это систематическая тенденция, которая приводит к различиям между результатами и фактами. Статистическая погрешность может быть введена на всех этапах анализа данных: отбор данных, проверка гипотез, выбор оценщика, методы анализа и интерпретация.

Источники статистической погрешности на этапах анализа данных. Изображение: Visual Science Informatics, LLC

Систематическая ошибка (смещение) вносит зашумленные данные с высоким смещением, но с низкой дисперсией. Хотя измерения неточны (недействительны), они последовательны (надежны). Повторяющаяся систематическая ошибка связана с неисправным оборудованием или ошибочным планом эксперимента и влияет на точность измерения.

Ошибка воспроизводимости (дисперсия) вносит зашумленные данные с низким смещением, но высокой дисперсией. Хотя измерения точны (действительны), они противоречивы (ненадежны). Повторяющаяся ошибка связана с процессом измерения и в первую очередь влияет на точность измерения. Воспроизводимость относится к вариации измерений, сделанных на объекте в изменяющихся условиях.

Компромисс смещения и дисперсии

Подгонка, оптимальная подгонка и переобучение в машинном обучении

Изображения адаптированы из Скотта Фортманн-Роу [8], Абхишека Шриваставы [9] и Эндрю Нг [10].

Компромисс:

«Ожидаемая ошибка теста модели ML может быть разложена на ее смещение и дисперсию по следующей формуле:

𝙩𝙚𝙨𝙩 𝙚𝙧𝙧𝙤𝙧 = 𝙗𝙞𝙖𝙨² + 𝙫𝙖𝙧𝙞𝙖𝙣𝙘𝙚 + 𝙞𝙧𝙧𝙚𝙙𝙪𝙘𝙞𝙗𝙡𝙚 𝙚𝙧𝙧𝙤𝙧

Таким образом, чтобы уменьшить ошибку оценки [для повышения точности], вам необходимо уменьшить как смещение, так и дисперсию, которые в целом обратно пропорциональны, и, следовательно, компромисс [11].

Необходимо найти компромисс между предвзятостью и дисперсией, чтобы учесть различия в медицинском обслуживании в этой стране и во всем мире. Увеличение смещения (не всегда) уменьшает дисперсию и наоборот.

- Средства:

  • Ранняя остановка:

Еще один эффективный метод решения проблемы переобучения и недообучения и построения модели машинного обучения с оптимальным подбором — ранняя остановка.

Ранняя остановка — одна из наиболее часто используемых стратегий, потому что она проста и эффективна. Это относится к процессу остановки обучения, когда ошибка обучения больше не уменьшается, а ошибка проверки начинает расти «[12].

  • Методы ансамбля:

Объедините модели с помощью метода ансамбля повышения, чтобы уменьшить смещение. Объедините модели с помощью метода ансамбля мешков, чтобы уменьшить дисперсию.

  • Визуализация

Визуализация данных — это графическое представление информации и данных. Используя визуальные элементы, такие как диаграммы, графики и карты, методы визуализации данных обеспечивают визуальный способ увидеть и понять тенденции, выбросы и закономерности в данных. Инструменты визуализации предоставляют возможности, которые помогают открывать новые идеи, демонстрируя связи между данными.

Квартет Анскомба

Изображение: Шюц [13]

Дополнительным преимуществом визуализации данных является то, что наборы данных, которые имеют схожие описательные статистики, такие как среднее значение, дисперсия, корреляция, линейная регрессия и коэффициент детерминации линейной регрессии, имеют очень разные распределения и выглядят совершенно по-разному на графике.

Квартет Анскомба [14] на изображении выше состоит из четырех наборов данных, которые демонстрируют как важность графического отображения данных при их анализе, так и влияние выбросов и других важных наблюдений на статистические свойства.

В машинном обучении тремя основными причинами визуализации данных являются понимание, диагностика и уточнение вашей модели.

Одна важная цель, которую вам необходимо визуализировать, заключается в обеспечении интерпретируемой (рассуждающей) прогностической модели и объяснимости вашей модели. Другими важными целями являются визуализация архитектуры, параметров и показателей вашей модели.

Кроме того, вам может понадобиться визуализировать вашу модель во время отладки и улучшений, сравнения и выбора, а также обучения концепциям.

Визуализация наиболее актуальна во время обучения для мониторинга и наблюдения за рядом показателей и отслеживания прогресса обучения модели. После обучения визуализация вывода модели — это процесс получения выводов из обученной модели. Визуализация результатов помогает интерпретировать и отслеживать, как модель генерирует свои оценки (Визуализация моделей машинного обучения: руководство и инструменты [15]).

  • Матрица путаницы и метрики оценки классификации

После того, как вы подберете свою модель машинного обучения, вы должны оценить ее производительность на тестовом наборе данных.

Оценка производительности вашей модели имеет решающее значение, поскольку производительность вашей модели позволяет вам выбирать между моделями-кандидатами и сообщать, насколько разумна модель для решения проблемы.

Например, измерение предсказания двоичного вывода (классификация) фиксируется в определенном макете таблицы — матрице путаницы, которая визуализирует, смешивает ли модель два класса. Каждая строка матрицы представляет экземпляры в реальном классе, а каждый столбец представляет экземпляры в прогнозируемом классе. Фиксируются четыре показателя: истинно положительный, ложноотрицательный, ложноположительный и истинно отрицательный.

Точность вычислений определяется четырьмя значениями в матрице путаницы. Дополнительные метрики с формулами справа и ниже — это метрики оценки классификации. Эти показатели включают, но не ограничиваются следующим: чувствительность, специфичность, точность, отрицательное прогностическое значение и точность.

Матрица путаницы и метрики оценки классификации. Изображение: Маниндер Вирк

Помимо точности, существует множество метрик оценки модели. Три метрики, которые обычно сообщаются для модели в задаче бинарной классификации:

  • Точность
  • Отзывать
  • Оценка F1

Точность количественно определяет количество предсказаний положительного класса, которые на самом деле принадлежат положительному классу. Отзыв количественно определяет количество положительных предсказаний класса, сделанных из всех положительных примеров в наборе данных. Оценка F1 объединяет точность и полноту классификатора в единую метрику, взяв их среднее гармоническое. Он в основном используется для сравнения производительности двух более мелких классификаторов.

Иерархия метрик от размеченных данных обучения и прогнозов классификатора до оценки F1. Адаптированное изображение: Теему Канстрен

Показатели образуют иерархию, которая начинается с подсчета истинных/ложноотрицательных/положительных результатов, внизу продолжается расчетом показателей точности и отзыва/чувствительности и строится путем их объединения для расчета оценки F1 «[16]. ”

Классифицированные алгоритмы ML. Изображение: Ноэлия Гонсалес

Важность и интерпретация показателей оценки зависят от предметной области и контекста вашей модели машинного обучения. Например, медицинские тесты оцениваются по специфичности и чувствительности, а информационно-поисковые системы оцениваются по точности и полноте. Понимание различий между точностью и отзывом по сравнению со специфичностью и чувствительностью имеет важное значение при оценке вашей модели в конкретной области [17].

Смещение против дисперсии алгоритмов ML. Изображение: Эга Скура

Для разработчиков моделей машинного обучения важно понимать, как точность зависит от подбора их модели. Построение точной модели классификации может правильно классифицировать положительные результаты от отрицательных.

- По существу:

«Уравновешивание предвзятости и дисперсии… это лучший способ убедиться, что модель достаточно [оптимально] соответствует данным и хорошо работает с новыми [оценочными] данными». Решение проблемы предвзятости и дисперсии связано с переобучением и недообучением и построением оптимальной модели.

Затем прочитайте мою статью Сложность — время, пространство и образец на https://www.linkedin.com/pulse/complexity-time-space-sample-yair-rajwan-ms-dsc.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — -

[1] https://www.linkedin.com/pulse/machine-learning-101-what-ml-choose-yair-rajwan-ms-dsc

[2] https://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf

[3] https://www.datarobot.com/wiki/fitting

[4] https://prateekvjoshi.com/2013/06/09/overfitting-in-machine-learning

[5] https://docs.aws.amazon.com/machine-learning/latest/dg/model-fit-underfitting-vs-overfitting.html

[6] https://medium.com/ml-research-lab/under-fitting-over-fitting-and-its-solution-dc6191e34250

[7] https://medium.datadriveninvestor.com/determining-perfect-fit-for-your-ml-model-339459eef670

[8] https://scott.fortmann-roe.com/docs/BiasVariance.html

[9] https://www.kaggle.com/getting-started/166897

[10] https://www.coursera.org/lecture/deep-neural-network/bias-variance-ZhclI

[11] https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-and-visualizing-it-with-example-and-python-code-7af2681a10a7

[12] https://theaisummer.com/regularization

[13] https://commons.wikimedia.org/wiki/User:Schutz

[14] https://www.tandfonline.com/doi/abs/10.1080/00031305.1973.10478966

[15] https://neptune.ai/blog/visualizing-machine-learning-models

[16] https://towardsdatascience.com/a-look-at-precision-recall-and-f1-score-36b5fd0dd3ec

[17] https://towardsdatascience.com/should-i-look-at-precision-recall-or-specificity-sensitivity-3946158aace1