Точность модели обычно оценивается путем измерения качества подгонки (обычно среднеквадратичной ошибки).

Мы можем улучшить соответствие модели, увеличив степени свободы (более высокие DF — волнистые кривые, более низкие DF — более гладкие; линейная регрессия имеет 2 DF).

Однако есть и компромисс: переподгонка к обучающим данным может привести к более высокому значению MSE для тестовых данных, поскольку обучающие данные могут не отражать f.

Теория, лежащая в основе этого, называется компромисс между смещением и дисперсией.

Дисперсия статистической модели относится к «величине, на которую f’ изменится, если мы оценим ее, используя другой набор обучающих данных» (стр. 34, ISL). Как правило, чем более гибким является метод, тем выше дисперсия.

Смещение статистической модели относится к «ошибке, вносимой аппроксимацией реальной проблемы» (стр. 35, ISL). Например, линейная регрессия предполагает линейную зависимость, что может быть не так. Следовательно, более гибкие модели (которые не предполагают функциональную форму) будут иметь меньшую предвзятость.

Нахождение на этом компромиссе — это искусство — мы, вероятно, коснемся этого позже (с помощью таких методов, как перекрестная проверка).

Точность классификации
Как же работает точность модели в ситуациях классификации, когда выходные данные являются категориальными? мы смотрим на обучающий коэффициент ошибок (доля неправильных классификаций). В частности, мы хотим посмотреть на коэффициент ошибок при тестировании.

Сейчас идеальным алгоритмом для классификации является байесовский классификатор. Этот алгоритм предполагает, что мы знаем условное распределение Y при заданном X. Например, у вас есть группа выходцев из Азии (корейцев и китайцев), и вы пытаетесь классифицировать их по национальному признаку. Мы знаем, что китайских женщин больше, чем китайских мужчин, а корейских мужчин больше, чем корейских женщин. Если бы вы знали эти распределения, мы бы также знали условную вероятность P (национальность = китаец | пол = женщина). Если бы у нас была эта априорная информация и о других атрибутах, мы бы легко пришли к очень низкому коэффициенту ошибок, коэффициенту байесовских ошибок.

Но реальность такова, что реальный мир не дает нам условных распределений, поэтому использовать байесовский классификатор невозможно. Но поскольку байесовский классификатор — это неустранимый коэффициент ошибок, мы постараемся максимально приблизиться к нему. Теперь какие другие способы?

K-ближайшие соседи (KNN)
Представьте, что вы путешествуете по чужой земле и пытаетесь выяснить, где проходят границы между странами. Вы путешествуете по координате, выбираете 3 ближайших города и анализируете язык и культуру. Если 2 города говорят на языке X, а другой город говорит на языке Y, то вероятность того, что точка, в которой вы находитесь, все еще находится в стране X, составляет 2/3. Это выглядит примерно так: