Краткое введение в функции потерь

Очень краткое объяснение функций потерь с двумя простыми для понимания примерами известного классификатора softmax и функции потерь SVM.

вступление

Задачу прогнозирования можно рассматривать как простую задачу оптимизации. Модель пытается оптимизировать его производительность, правильно предсказывая значение. Фактическое значение, которое мы оптимизируем, называется «потерями» (которые мы, конечно же, стараемся минимизировать). Для этого модели необходима способность измерять этот так называемый «убыток», который зависит от конкретной проблемы.

Как правило, функция потерь L - это некоторая функция над входом, набор параметров (называемых «Весами») и истинная метка (в мультиклассовом семействе Li определяется как потеря по классу i) .

R - это функция регуляризации. Эта функция используется для наказания «сложного» W (например, он «предпочитает» меньшие W). Это заставляет модель отдавать предпочтение более простым моделям более сложным.

lambda, коэффициент R, является еще одним параметром, который оптимизирует этот процесс.

Потеря нескольких классов SVM (также известная как «потеря шарнира»)

Интуитивно эта функция потерь проверяет, является ли правильный результат «маржой» лучше, чем другие оценки.

Si - это оценка классификатора в примере i, Yi - истинная метка Xi.

В этом примере 1 - это «буфер безопасности». Это означает, что мы рассматриваем «отсутствие ошибки», если
Syi >= Sj+1 (оценка реальной метки больше, чем оценка неправильной метки - с буфером) \

В целом для этой функции потерь:
0 <= L < infinity

Другой вариант - это «квадратная функция потерь», которая возводит в квадрат результат max. Это дает дополнительный штраф за плохие оценки, возводя их в квадрат.

Классификатор Softmax (потеря кросс-энтропии)

Это обещает, что вероятность каждого класса находится в диапазоне от 0 до 1, а сумма всех вероятностей равна 1.

Затем мы используем функцию журнала как вероятность правильного класса:

Итак, по сути, мы имеем:

В целом для этой функции потерь:
0 <= L < infinity

Вот хорошее краткое объяснение причин, по которым работает функция softmax:

Показатель в функции softmax грубо сокращает журнал потерь кросс-энтропии, в результате чего потери становятся примерно линейными по Z (взвешенный вход в нейроны). Это приводит к примерно постоянному градиенту, когда модель ошибочна, что позволяет ей быстро исправляться. Таким образом, неправильный насыщенный softmax не вызывает исчезающего градиента.
[источник здесь]

Анекдот: Softmax против функций потерь SVM

В то время как softmax «никогда не будет доволен» нашим прогнозом (поскольку потеря никогда не может быть на самом деле 0 [только теоретически, потому что для этого требуется s = -infinity),
функция потерь SVM будет «счастлива» только в некоторой степени , и он будет считать это наилучшим возможным прогнозом (или минимально возможным убытком).

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning