Концепция декомпозиции дисперсии смещения очень убедительна, поскольку она помогает вам лучше понять алгоритмы и с легкостью играть с ними. Это поможет вам понять, как возникают ошибки из-за предвзятости и дисперсии в вашей модели и процессе подбора данных для лучшего выбора моделирования.

Что такое функция регрессии?

Предположим, у нас есть данные о двух переменных 𝑿 и 𝒀, функция 𝒀 — это то, что мы пытаемся предсказать, она же зависимая переменная, а 𝑿 — входная или независимая переменная. Предположим, мы хотим предсказать функцию 𝑿, а именно 𝑓(𝑿), чтобы спрогнозировать 𝒀, тогда:

Чтобы минимизировать MSE, первый член внутри ожидания не зависит от нашего прогноза, а второй член может быть уменьшен, чтобы получить оптимальную функцию r (x), обусловленную X = x, таким образом, это приводит к

то есть оптимальное условное предсказание — это просто условное ожидаемое значение. Функция 𝑟(𝑿) называется функцией регрессии. Таким образом, распределение 𝒀 при заданном 𝑿 можно записать в следующей форме через 𝑟(𝑿):

где ƞ(𝑿) — переменная шума со средним значением 0.

Разложение смещения и дисперсии:

Предположим, что истинная функция регрессии равна 𝑟(x), а ȓ — это наш прогноз с использованием доступных наборов данных. На практике, поскольку данные, которые мы получаем, являются случайными, точная функция регрессии, которую мы получаем, также будет случайной и обозначается функцией Ȓn, где нижний индекс n обозначает конечное количество данных, которые мы использовали для ее оценки.

Мы больше сосредоточены на оценке обобщенной ошибки, поэтому вместо оценки

Мы рассчитаем

Понимание приведенного выше доказательства:

Мы получаем уравнение 1.2 из 1.1, используя закон полного ожидания, т.е. тот факт, что

для любых случайных величин U и V является одним и тем же вероятностным пространством.

Мы получаем уравнение 1.5 из 1.4, поскольку первый член равен Y — 𝑟(X) =ƞ(X),случайная величина, имеющая математическое ожидание >0, но дисперсия равна σx², что дает коэффициент шума, В среднесрочной перспективе, посколькумы принимаем ожидание, что ничего не происходит, поскольку не содержит случайных величин. И последний член становится 0, поскольку ожидание Y — 𝑟(X) равно 0.

Следуя тому же трюку, что и выше, мы уменьшаем уравнение 1,7 до 1,8.

Таким образом, наше разложение дисперсии смещения состоит из неприводимой ошибки + смещения² + дисперсии.

  1. Шум (σx²):это «статистическое» колебание даже вокруг самого лучшего прогноза. Эта ошибка измеряет неоднозначность из-за вашего распределения данных и представления функций. Вы никогда не сможете победить это, это аспект данных.
  2. Смещение ( 𝑟(x)-E(Ȓn(x))):это величина, на которую наши прогнозы систематически отклоняются. Эта ошибка представляет собой разницу между ожидаемым (или средним) прогнозом нашей модели и правильным значением, заданным истинной функцией регрессии.
  3. Дисперсия оценки ( Var(Ȓn(x)) ):это дисперсия нашей оценки функции регрессии. Даже если у нас есть беспристрастный метод, т. е. 𝑟(x) = E(Ȓn(x)), если в нашу оценку, мы можем ожидать больших ошибок.

Компромисс дисперсии смещения:

На этих рисунках мы можем представить идеальную модель, которая предсказывает, что правильные значения попадут в центр.

Шум не может быть уменьшен ни одной моделью, но с учетом истинной функции и с бесконечными данными мы можем уменьшить как смещение, так и дисперсию оценки до 0.

Но чтобы уменьшить погрешность аппроксимации, мы можем добиться только увеличения дисперсии оценки. Это называется компромисс между погрешностью и дисперсией.

Дополнительная литература:

  1. Элементы статистического обучения
  2. https://youtu.be/zUJbRO0Wavo