Конспект лекций FAU по распознаванию образов
Оптимальный классификатор
Введение в байесовский классификатор
Это конспект лекций FAU на YouTube Распознавание образов. Это полная стенограмма видео лекции и сопоставление слайдов. Исходники для слайдов доступны здесь. Мы надеемся, вам понравится это так же, как видео. Эта стенограмма была почти полностью сгенерирована машиной с использованием AutoBlog, и были внесены лишь незначительные изменения вручную. Если вы заметили ошибки, сообщите нам об этом!
Навигация
Предыдущая глава / Посмотреть это видео / Следующая глава / Верхний уровень
С возвращением, все в распознавание образов! Итак, сегодня мы хотим продолжить разговор о байесовском классификаторе, и сегодня мы хотим представить оптимальность байесовского классификатора.
Таким образом, байесовский классификатор теперь можно обобщить и построить с помощью байесовского правила принятия решений. Итак, мы, по сути, хотим выбрать оптимальный класс, заданный здесь y∗. y∗ определяется решающим правилом. Теперь, что мы хотим сделать, мы хотим взять класс, который максимизирует вероятность, учитывая наше наблюдение x. Мы можем выразить это с помощью базового правила, создав фактический априор для класса y. И тогда нам нужна также фактическая вероятность наблюдения данного класса y, разделенная на вероятность наблюдения фактического свидетельства. Теперь, поскольку это максимизация по y, мы можем избавиться от дроби здесь. И мы можем удалить p(x), потому что это не меняет положение нашего максимума. Так что мы можем просто пренебречь им для максимизации. Таким образом, это можно также переформулировать в виде так называемой логарифмической функции правдоподобия. И здесь мы используем хитрость, применяя логарифм к этому умножению. Это позволяет нам разложить приведенное выше умножение на сумму двух логарифмов. Вы увидите, что мы будем использовать этот трюк довольно часто в этом классе, так что это важное замечание. Так что вы обязательно должны знать об этом, и это будет очень актуально, вероятно, для любого экзамена, с которым вам предстоит столкнуться. Так что вы должны очень хорошо запомнить этот слайд. Теперь это дает нам оптимальное решение в соответствии с базовым правилом. И есть некоторые подсказки.
Таким образом, как правило, ключевым аспектом для получения хорошего классификатора является поиск хорошей модели для апостериорной вероятности p для y при заданном x. Тогда у вас обычно есть фиксированное измерение в x. И это затем приводит к простым схемам классификации. Тогда x не обязательно является подмножеством многомерного пространства ℝᵈ, но может быть элементами различных размерностей. Например, вы наблюдаете это в последовательностях или наборах признаков. Так, например, если у вас есть речевой сигнал, то у вас нет фиксированного размера в d. Но то же самое можно сказать быстрее или медленнее. Таким образом, это означает также, что число наблюдений изменяется. А это подразумевает по существу изменение размерности вашей проблемы. Итак, это задачи на последовательность, где вам нужно выбрать тип меры, которая позволит вам сравнивать объекты разной размерности.
Обычно мы анализируем наши проблемы либо с помощью генеративного моделирования, либо с помощью дискриминационного моделирования. В генеративном моделировании у вас обычно есть априорная вероятность класса y, а затем распределение ваших векторов признаков x для соответствующего класса. Итак, у вас есть условное моделирование класса, способное описать все ваше функциональное пространство. А затем вы проводите дискриминативное моделирование в сравнении. Итак, здесь вы напрямую моделируете вероятность класса с учетом наблюдений. Это позволяет нам очень быстро найти решение. По сути, в данном случае мы моделируем границу принятия решения.
Давайте немного посмотрим на оптимальность байесовского классификатора. Если вы посещали Введение в распознавание образов, вы уже видели формальное доказательство того, что байесовский классификатор является оптимальным классификатором, если у вас есть функция потерь с нулевой единицей и принудительное решение. Здесь лишь напомним, что любое решение можно связать с неким риском или убытком. Затем эта функция потерь сообщает вам, какой ущерб будет нанесен, если вы выберете неправильный класс. Таким образом, наиболее часто используемым примером здесь является функция потерь с нулевой единицей. И это, по сути, говорит о том, что вы потеряете единицу, если сделаете неправильную классификацию. Это означает, что вы относитесь ко всем ошибочным классификациям одинаково, и они имеют одинаковую стоимость. А правильные классификации по существу имеют нулевую стоимость. Так что это очень типичный вид функции потерь, который довольно часто используется, и, в частности, людям нравится использовать его, если они точно не знают, какие затраты связаны с неправильной классификацией. В этих случаях вы можете выбрать этот тип функции потерь. Теперь давайте посмотрим, что произойдет, если мы воспользуемся этой функцией потерь.
Теперь вы можете поспорить с минимизацией средней потери, и это, по сути, то, что мы хотим сделать с байесовским классификатором. Итак, мы видим, что можем записать средний убыток как ожидаемое значение по классам. Тогда у нас есть потери, умноженные на вероятность соответствующего класса с учетом нашего наблюдения. Таким образом, теперь это, по сути, средняя потеря для данного наблюдения x. Теперь мы хотим принять решение по этому наблюдению.
Это означает, что мы хотим минимизировать средние потери по классам. По сути, это минимизация наших средних потерь по классам. Итак, теперь мы можем подключить исходное определение нашего среднего убытка. Теперь попробуем найти минимум при этих потерях. И теперь вы, по существу, видите, потому что все ошибочные классификации, означающие неправильные классы, будут суммироваться до 1 минус вероятность правильного класса. Затем вы можете просто превратить эту минимизацию в максимизацию вероятности правильного класса. Вот почему мы находим решение для нашего оптимального класса как максимизацию правильной вероятности.
Теперь мы можем заключить, что оптимальный классификатор, относящийся к функции потерь нуля или единицы, фактически генерируется байесовским решающим правилом, и этот классификатор называется байесовским классификатором. Обратите внимание, что эта функция потерь обычно невыпукла. Таким образом, кажется, что сделать эту максимизацию довольно просто, но обычно настоящая проблема заключается в том, как смоделировать фактическую границу решения. И по сути основная задача, которую мы обсудим в этом классе, заключается в том, что мы рассматриваем разные методы, в том, как сформулировать эти вероятности, чтобы определить правильный класс.
Итак, какие уроки мы извлекли на данный момент? Мы рассмотрели общую структуру системы классификации. Мы изучили контролируемое и неконтролируемое обучение, поэтому мы также можем проводить обучение только с наблюдениями без каких-либо меток. Но, конечно, если мы хотим получить информацию о классе, нам нужны метки. Мы изучили основы вероятностей, вероятности, функции плотности вероятности, базового правила и так далее. И мы рассмотрели оптимальность базового классификатора и роль функции потерь. Кроме того, мы рассмотрели разницу между дискриминационным и генеративным подходами к моделированию апостериорной вероятности.
Так что в следующий раз мы уже хотим заглянуть в первые классификаторы, и начнем мы с проблемы логистической регрессии.
Конечно, я могу порекомендовать еще пару чтений. Книга Ниманна, которая, кстати, вышла и на английском языке, есть книга «Анализ моделей» и, конечно же, немецкая версия «Классификация фон Мюстерна». Кроме того, очень хорошо читается книга Дуды и Харта «Классификация шаблонов».
Так что большое спасибо, что выслушали! Я с нетерпением жду встречи с вами в следующем видео, до свидания.
Если вам понравился этот пост, вы можете найти больше эссе здесь, больше учебных материалов по машинному обучению здесь или посмотреть нашу Глубокое обучение Лекцию. Я также был бы признателен за подписку на YouTube, Twitter, Facebook или LinkedIn, если вы хотите получать информацию о новых эссе, видео и исследованиях в будущем. Эта статья выпущена на условиях Creative Commons 4.0 Attribution License и может быть перепечатана и изменена при ссылке. Если вы заинтересованы в создании расшифровок видеолекций, попробуйте Автоблог.
Ссылки
Генрих Ниманн: анализ закономерностей, серия Springer in Information Sciences 4, Springer, Берлин, 1982.
Генрих Ниманн: Классификация фон Мустерна, Springer Verlag, Берлин, 1983.
Ричард О. Дуда, Питер Э. Харт, Дэвид Г. Сторк: Классификация образов, 2-е издание, John Wiley & Sons, Нью-Йорк, 2000.