Понимание предвзятости и дисперсии в отношении функций в обучении с учителем

Уравновешивание предвзятости и дисперсии при подборе моделей является серьезной проблемой в обучении с учителем. Высокий уровень дисперсии присутствует, когда модель слишком точно имитирует обучающие данные, что может помешать ее способности обобщать невидимые данные. Это называется переоснащением. Когда модель является очень общей и чрезмерно простой (недостаточно приспособленной), результатом является более высокий уровень систематической ошибки, и в этом случае важные закономерности обучающих данных упускаются из виду. В идеале нам нужен умеренный баланс как дисперсии, так и смещения. Ниже приведен график, иллюстрирующий этот компромисс:

Одна из самых важных вещей, которую можно сделать при подготовке модели, — это тщательно продумать, какие функции включить в нее. Часто имеется чрезмерное количество функций, которые не сильно коррелируют с прогнозируемой целевой переменной, и в этом случае при включении их в модель создается чрезмерный «шум». Кроме того, когда признаки слишком сильно коррелируют друг с другом, это создает проблему мультиколлинеарности. Это проблема, потому что это затрудняет разделение эффектов различных функций в модели. На приведенном ниже графике показаны различия в недообучении, переоснащении и хорошем компромиссе, возникающем при выборе оптимальных функций:

Понимание того, что предсказывает модель, всегда будет важно, поскольку выбор и понимание причин и следствий различных функций не могут быть полностью автоматизированы. Однако машинное обучение может помочь в выборе подходящего количества соответствующих функций, что приводит к оптимальному балансу между смещением и дисперсией. Как сказал Джордж Бокс, один из отцов науки о данных: «По сути, все модели ошибочны, но некоторые из них полезны». Цель Data Scientist всегда состоит в том, чтобы создать максимально полезную модель.