SVM - математическое понимание

Теория без математики?

В Интернете много материалов о том, что делают машины опорных векторов, но мало о математике, лежащей в основе этого. Мы знаем, что SVM работают, максимизируя ширину улицы, разделяющей положительную и отрицательную выборки, но как точно вывести формулу для этой ширины? Лично мне всегда было трудно понять истинную природу любого алгоритма без глубокого погружения в вычисления, которые им управляют. Поэтому я много исследовал в Интернете и случайно наткнулся на это удивительное видео https://www.youtube.com/watch?v=_PwhiWxHK8o, в котором вы совершите математическую поездку по SVM, потому что теория без математики? Большое НЕТ!

Математика, лежащая в основе SVM

Эта статья представляет собой не что иное, как документированную версию упомянутого выше видео, и для нее требуется предварительное представление о том, что такое SVM. Изучив содержание, безукоризненно объясненное профессором Патриком Уинстоном, мне не терпелось задокументировать его, чтобы охватить более широкую аудиторию. Итак, давайте углубимся ...

В приведенном выше примере у нас есть улица (заштрихованная розовым) со средней линией, которая отделяет положительные образцы от отрицательных, причем положительные образцы лежат справа от улицы.

Используя вектор перпендикулярно улице, неизвестный вектор внутри улицы и константы b и c, мы перейдите к правилу принятия решения, как указано выше.

Не знакомы с скалярным произведением векторов? Видеть это! Https://www.mathsisfun.com/algebra/vectors-dot-product.html

Где происходит волшебство

Умножьте 1 на уже имеющееся значение ≥ 1, и вы получите количество ≥ 1. Это приводит к уравнению (3)

Умножьте -1 на значение, уже ≤ -1, и вы получите количество, также ≥ 1. Это приводит к уравнению (4).

И вы получите уравнения (3) и (4), которые абсолютно одинаковы :)

Таким образом, исходя из уравнений (3) и (4), мы можем сказать, что для любой выборки (положительной или отрицательной) ВНЕ улицы мы имеем:

Это приводит к следующему уравнению:

Расчет ширины улицы

Теоретически мы знаем, что SVM работают, пытаясь максимизировать ширину улицы, средняя линия которой разделяет положительную и отрицательную. Теперь давайте посмотрим, как на самом деле рассчитать ширину этой улицы, чтобы у нас было что максимизировать. Мы увидим, как уравнение (6) помогает нам в этом.

Шаг 1

Шаг 2

Но разве у нас нет вектора, перпендикулярного улице?

Мы делаем! Попробуйте прокрутить вверху, чтобы подвести итог;) Или переходите к следующему шагу ниже :)

Шаг 3

Мы приходим к уравнению (9) из уравнения (8), используя закон распределения для скалярных произведений для вычитания.

Шаг 4

Таким образом, мы получаем формулу ширины улицы. Чтобы максимизировать это, мы минимизируем обратное, для математического удобства :)

Минимизация осуществляется с помощью оптимизации Лагранжа, о которой мы расскажем на другой день;)

Svm Machine Learning

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning