Концепция декомпозиции дисперсии смещения очень убедительна, поскольку она помогает вам лучше понять алгоритмы и с легкостью играть с ними. Это поможет вам понять, как возникают ошибки из-за предвзятости и дисперсии в вашей модели и процессе подбора данных для лучшего выбора моделирования.
Что такое функция регрессии?
Предположим, у нас есть данные о двух переменных 𝑿 и 𝒀, функция 𝒀 — это то, что мы пытаемся предсказать, она же зависимая переменная, а 𝑿 — входная или независимая переменная. Предположим, мы хотим предсказать функцию 𝑿, а именно 𝑓(𝑿), чтобы спрогнозировать 𝒀, тогда:
Чтобы минимизировать MSE, первый член внутри ожидания не зависит от нашего прогноза, а второй член может быть уменьшен, чтобы получить оптимальную функцию r (x), обусловленную X = x, таким образом, это приводит к
то есть оптимальное условное предсказание — это просто условное ожидаемое значение. Функция 𝑟(𝑿) называется функцией регрессии. Таким образом, распределение 𝒀 при заданном 𝑿 можно записать в следующей форме через 𝑟(𝑿):
где ƞ(𝑿) — переменная шума со средним значением 0.
Разложение смещения и дисперсии:
Предположим, что истинная функция регрессии равна 𝑟(x), а ȓ — это наш прогноз с использованием доступных наборов данных. На практике, поскольку данные, которые мы получаем, являются случайными, точная функция регрессии, которую мы получаем, также будет случайной и обозначается функцией Ȓn, где нижний индекс n обозначает конечное количество данных, которые мы использовали для ее оценки.
Мы больше сосредоточены на оценке обобщенной ошибки, поэтому вместо оценки
Мы рассчитаем
Понимание приведенного выше доказательства:
Мы получаем уравнение 1.2 из 1.1, используя закон полного ожидания, т.е. тот факт, что
для любых случайных величин U и V является одним и тем же вероятностным пространством.
Мы получаем уравнение 1.5 из 1.4, поскольку первый член равен Y — 𝑟(X) =ƞ(X),случайная величина, имеющая математическое ожидание >0, но дисперсия равна σx², что дает коэффициент шума, В среднесрочной перспективе, посколькумы принимаем ожидание, что ничего не происходит, поскольку не содержит случайных величин. И последний член становится 0, поскольку ожидание Y — 𝑟(X) равно 0.
Следуя тому же трюку, что и выше, мы уменьшаем уравнение 1,7 до 1,8.
Таким образом, наше разложение дисперсии смещения состоит из неприводимой ошибки + смещения² + дисперсии.
- Шум (σx²):это «статистическое» колебание даже вокруг самого лучшего прогноза. Эта ошибка измеряет неоднозначность из-за вашего распределения данных и представления функций. Вы никогда не сможете победить это, это аспект данных.
- Смещение ( 𝑟(x)-E(Ȓn(x))):это величина, на которую наши прогнозы систематически отклоняются. Эта ошибка представляет собой разницу между ожидаемым (или средним) прогнозом нашей модели и правильным значением, заданным истинной функцией регрессии.
- Дисперсия оценки ( Var(Ȓn(x)) ):это дисперсия нашей оценки функции регрессии. Даже если у нас есть беспристрастный метод, т. е. 𝑟(x) = E(Ȓn(x)), если в нашу оценку, мы можем ожидать больших ошибок.
Компромисс дисперсии смещения:
На этих рисунках мы можем представить идеальную модель, которая предсказывает, что правильные значения попадут в центр.
Шум не может быть уменьшен ни одной моделью, но с учетом истинной функции и с бесконечными данными мы можем уменьшить как смещение, так и дисперсию оценки до 0.
Но чтобы уменьшить погрешность аппроксимации, мы можем добиться только увеличения дисперсии оценки. Это называется компромисс между погрешностью и дисперсией.