Очень краткое объяснение функций потерь с двумя простыми для понимания примерами известного классификатора softmax и функции потерь SVM.

вступление

Задачу прогнозирования можно рассматривать как простую задачу оптимизации. Модель пытается оптимизировать его производительность, правильно предсказывая значение. Фактическое значение, которое мы оптимизируем, называется «потерями» (которые мы, конечно же, стараемся минимизировать). Для этого модели необходима способность измерять этот так называемый «убыток», который зависит от конкретной проблемы.

Как правило, функция потерь L - это некоторая функция над входом, набор параметров (называемых «Весами») и истинная метка (в мультиклассовом семействе Li определяется как потеря по классу i) .

R - это функция регуляризации. Эта функция используется для наказания «сложного» W (например, он «предпочитает» меньшие W). Это заставляет модель отдавать предпочтение более простым моделям более сложным.

lambda, коэффициент R, является еще одним параметром, который оптимизирует этот процесс.

Потеря нескольких классов SVM (также известная как «потеря шарнира»)

Интуитивно эта функция потерь проверяет, является ли правильный результат «маржой» лучше, чем другие оценки.

Si - это оценка классификатора в примере i, Yi - истинная метка Xi.

В этом примере 1 - это «буфер безопасности». Это означает, что мы рассматриваем «отсутствие ошибки», если
Syi >= Sj+1 (оценка реальной метки больше, чем оценка неправильной метки - с буфером) \

В целом для этой функции потерь:
0 <= L < infinity

Другой вариант - это «квадратная функция потерь», которая возводит в квадрат результат max. Это дает дополнительный штраф за плохие оценки, возводя их в квадрат.

Классификатор Softmax (потеря кросс-энтропии)

Это обещает, что вероятность каждого класса находится в диапазоне от 0 до 1, а сумма всех вероятностей равна 1.

Затем мы используем функцию журнала как вероятность правильного класса:

Итак, по сути, мы имеем:

В целом для этой функции потерь:
0 <= L < infinity

Вот хорошее краткое объяснение причин, по которым работает функция softmax:

Показатель в функции softmax грубо сокращает журнал потерь кросс-энтропии, в результате чего потери становятся примерно линейными по Z (взвешенный вход в нейроны). Это приводит к примерно постоянному градиенту, когда модель ошибочна, что позволяет ей быстро исправляться. Таким образом, неправильный насыщенный softmax не вызывает исчезающего градиента.
[источник здесь]

Анекдот: Softmax против функций потерь SVM

В то время как softmax «никогда не будет доволен» нашим прогнозом (поскольку потеря никогда не может быть на самом деле 0 [только теоретически, потому что для этого требуется s = -infinity),
функция потерь SVM будет «счастлива» только в некоторой степени , и он будет считать это наилучшим возможным прогнозом (или минимально возможным убытком).