Давайте начнем с предыстории:

Компромисс между погрешностью и дисперсией.Методы с высокой дисперсией могут хорошо представлять обучающую выборку, но подвержены риску переобучения. Напротив, высокое смещение обычно приводит к более простым моделям, которые могут не соответствовать данным.

Точно так же большой компромисс заключается в том, что чем больше ваш класс гипотез, тем лучше лучшая гипотеза моделирует лежащую в основе истинную функцию, но тем сложнее найти эту лучшую гипотезу.

класс гипотез: он состоит из всех возможных гипотез, которые вы ищете, независимо от их формы.

В конечной гипотезе количество примеров для обеспечения вероятного приблизительно правильного (PAC) обучения равно логарифмическому размеру пространства гипотезы.

Владимир Вапник и Алексей Червоненкис написали статью, позволяющую оценить сложность выборки для бесконечных классов гипотез.

Что такое бесконечный класс гипотез?

Если мы возьмем два атрибута x1 и x2 на оси x-y и моя гипотеза будет прямой линией,

а если x1 и x2 являются действительными значениями, количество линейных функций может быть бесконечным. Например: это может быть круг, треугольник и т. д.

Идея «VCD» заключается в том, что размер класса гипотез является плохой мерой того, насколько «сложным» или насколько «выразительным» на самом деле является класс гипотез. В нем говорилось, что даже если пространство гипотез бесконечно, пока выборка конечна, мы можем знать, сколько выборок нам нужно.

Что такое разбиение наборов?

Пример: число классов =› (n) может быть помечено 2^n способами.
Если для каждой маркировки существует функция в пространстве гипотез, которая согласуется с маркировкой, то мы скажем, этот набор точек разбит пространством гипотез.

VC-размерность класса понятий «C» определяется как мощность наибольшего множества, которое может быть разбито «C». Если сколь угодно большие множества могут быть разбиты с помощью «C», то говорят, что VC-размерность + бесконечна.

Учитывая набор 'F' подмножеств множества {S}, мы говорим, что конечное подмножество {A} множества {S} разбито при условии, что каждое подмножество {B}, содержащееся в {A}, может быть записано как пересечение {A} с элементом 'F'.

Таким образом, множество {A} из трех точек общего положения на плоскости «S» разбивается набором полуплоскостей «F», но множество из четырех точек «A» на плоскости не разбивается набором полуплоскостей. коллекция 'F' полуплоскостей.

  • Если существует хотя бы одно подмножество {X} размера d, которое можно разбить, то VCD ≥ d
  • Если никакое подмножество размера «d» не может быть разбито, то VCD ‹ d

Чем больше подмножество {X}, которое можно разрушить, тем более выразительным (и менее предвзятым) является пространство гипотез.

Хорошо для чтения:



Теперь, когда мы знаем VCD, важно отметить, что примеры, достаточные для изучения PAC, определяются как:

VCD является гораздо лучшим индикатором способности моделей вписываться в произвольные данные, чем можно предположить по количеству параметров в моделях.

  • По сравнению с конечной гипотезой => ln(H),
    поскольку VC(H) ≤ ln(H), это может обеспечить более точную верхнюю границу количества примеров, необходимых для обучения PAC. .

Нижние границы VCD:

Рассмотрим класс понятий «C», такой что:

  • VC(H) > 2,
  • любой ученик L
  • и любой 0‹эпсилон‹1/8,
  • 0‹дельта‹1/100

Тогда существует распределение D и целевая концепция C, такие, что если L наблюдает меньше, чем:

примеров, то с вероятностью не менее дельты L выводит гипотезу с ошибкой больше эпсилон, т. е. мы не получаем приблизительную гипотезу.

LinkedIn: https://www.linkedin.com/in/vivekg-/

Ознакомьтесь с моим юридическим пространством здесь: https://easylaw.quora.com