Многие вводные материалы, учебные программы или курсы по машинному обучению, в которых есть математическая строгость, содержат основополагающие концепции вероятности и статистики. Понимание этих понятий может сбить с толку новичков в этой области, даже имеющих образование в области математики. Это потому, что область машинного обучения потребует своего взгляда на эти концепции для своих строительных блоков и практического использования.

Одной из основополагающих идей для концептуализации понятия обучения на основе данных является «оценка максимального правдоподобия». При первом контакте термин «вероятность» вызывает вопросы своим сходством с «вероятностью». Более того, слово «оценщик» или «оценка» во многом связано с самой моделью машинного обучения. Поскольку этот же термин иногда используется для обозначения прогностической способности моделей при повседневном использовании технического языка.

Эта путаница обычно усугубляется, когда уже имеется эмпирическое введение в область. Обычный пример демонстрации или описания модели ML говорит, что они выдают вероятности, которые являются оценками цели. Однако оценки максимального правдоподобия не стоят так далеко в будущем, мы должны вернуться к началу, чтобы отделить их от путаницы.

Краткий рассказ о дистрибутивах и функциях для их характеристики.

То, что у нас есть в начале любой проблемы машинного обучения, — это данные. Если мы собираемся использовать все эти данные для построения модели, то это будут наши обучающие данные. Но является ли это набором всех точек данных? Или ваши тренировочные данные — всего лишь образец какого-то реального и неизвестного процесса за туманом?

Со всеми доступными нам данными мы все еще недостаточно всемогущи, чтобы охватить все, что есть в жизни. Таким образом, все доступные данные являются лишь подмножеством. Существует реальный процесс, который генерирует их, и то, что мы имеем в виде точек, уже отобрано.

Продвигаясь вперед статистически, шаг к превращению неизвестного в известное, подобно алхимии, состоит в том, чтобы предположить, что процесс характеризуется распределением. И данные, которые мы храним, взяты из этого распределения.

Дискретная случайная величина будет иметь функцию массы вероятности, которая отображает возможные значения случайной величины в вероятность этого результата. С другой стороны, непрерывная случайная величина будет иметь функцию плотности вероятности, которая сопоставляет «случайную переменную, попадающую в интервал», со значением плотности, которое может быть больше 1, и его не следует путать со значением вероятности.

Что, если нам не нужно значение для интервала, но нам нужно значение, подобное вероятности, для точки в пределах диапазона PDF?

Взгляд на точку x в непрерывном пространстве событий случайной величины X будет иметь бесконечно малый интервал, в результате чего F (X = x) = 0.

С другой стороны, вы можете получить ненулевое значение, подставив значение точки в функцию плотности f(x). Например, приведенный ниже PDF-файл нормального (гауссовского) распределения.

Вероятность того, что X является x

Подстановка произвольного значения точки в приведенную выше функцию с предопределенными μ и σ выведет ненулевое значение относительной* вероятности. В этом случае мы можем сделать наше интуитивное определение вероятности как насколько вероятно, что наша случайная величина X примет значение x при условии, что X выбрано из распределения, характеризуемого функцией плотности с набором параметров Θ = {μ, σ}.

Но жизнь не всегда дает вам лимоны… Помните, что мы ничего не знаем о реальном распределении, потому что не каждая точка данных дана, и мы не всемогущие существа. Мы простые наблюдатели, и у нас есть данные, которые были выбраны: x_i ∈ X, i ∈ {1, 2, …, n}. Чего у нас нет, так это Θ.

*Это относительное значение, поскольку его можно сравнить с другими точками выборки. Однако это не абсолютная количественная оценка вероятности.

Теперь давайте немного визуализируемся.

Фиолетовое распределение дало нам 10 точек данных. Но мы ничего не знаем о свойствах этого распределения, из которого сделаны наши данные. Если бы мы только знали его набор Θ, мы могли бы продвинуться вперед и разработать алгоритм с нашими предположениями. Этот алгоритм мог бы классифицировать или сгруппировать новые поступающие значения x с помощью вероятностного подхода. Но во-первых, мы должны заполнить наши предположения этим распределением, которое составляет наш набор X. т. е. найти его параметры.

При визуальном осмотре большинство x не выглядят так, как будто они взяты из красного распределения. Математически большинство значений x будут возвращать небольшие (≈0) значения правдоподобия при подключении к pdf (т. е. следовать желтому пути Neo.) Θ_1 = {μ_1, σ_1}, поскольку предложение параметризовать реальный PDF выглядит как слабое предположение.

На этот раз мы предлагаем новый набор параметров Θ_2 = {μ_2, σ_2}. На этот раз возвращенные значения из PDF демонстрируют большую «вероятность» того, чтобы принадлежать этому новому предлагаемому дистрибутиву. Значений вероятности, равных ≈0, меньше.

Давайте больше математически

Если бы мы знали реальное распределение, мы могли бы рассчитать метрику расстояния между двумя распределениями (реальным и предполагаемым), например, расхождение Кульбака-Лейблера. Однако, не зная реального распределения, нам нужна другая математическая формулировка, чтобы показать, насколько обоснован предлагаемый набор параметров Θ_i.

Давайте формализуем объединение вероятности наших точек данных.

Функция правдоподобия для предлагаемого набора параметров Θ с учетом данных выборки X_i ∈ {1, 2,… n} представляет собой совместную PDF выборочных данных с учетом предполагаемого Θ.

В предположении независимости выборки Xs.

Эта функция правдоподобия может быть сформулирована следующим образом:

  • Насколько вероятно, что предложенное Θ представляет реальное распределение, генерирующее данные.
  • Насколько вероятно, что мои выборки взяты из гипотетического распределения, параметризованного предложенным Θ.

Результат не равен нулю и может быть больше 1.

Нахождение наилучшей оценки для набора параметров Θ

Что нам нужно, так это оптимальное Θ, где это значение правдоподобия является максимальным. Это будет наша наилучшая оценка реального Θ при наличии выборочных данных.

Конечно, мы не собираемся садиться и предлагать значения для Θ, пока не сорвем джекпот. Учитывая все возможные значения для Θ, функция правдоподобия будет иметь набор ненулевых значений. L(Θ) — непрерывная функция, подчиненная Θ.

Точка, в которой непрерывная выпуклая вверх функция максимизируется, - это точка, в которой ее первая производная по заданному параметру равна нулю. Таким образом, аналитическое решение множества Θ, которое максимизирует функцию правдоподобия, может быть получено из

Максимизация вероятности вернет нам оценку Θ для распределения. Следовательно, оценщик придуман как оценщик максимального правдоподобия.

Конкретный пример с биномиальным распределением

Допустим, у вас есть данные из ресторана. Каждая точка данных показывает, полностью ли забронирован ресторан в данный день или нет.

A = {1, 1, 0, 1, 0, 0, 0, 1, 1, 1, …, 0, 1}

И мы остановимся на том, что есть. Никакая другая характеристика ресторана или целевая переменная не превратили бы это в проблему классификации с многомерным набором характеристик.

Учитывая, что у меня есть случайная переменная — количество полных забронированных мест в ресторане, я могу рассматривать это как «событие успеха».

X = k успешных событий

Когда есть понятие успеха, я могу предположить, что моя случайная величина генерируется из биномиального распределения.

Возвращение к биномиальному распределению

Биномиальное распределение является одним из распределений, характеризующих дискретные случайные величины. Пространство событий состоит из n испытаний экспериментов и вероятности успеха со скоростью k при заданном k ∈ {0, 1, …, n}

Как мы можем вспомнить ранее, распределения дискретных случайных величин представлены функциями массы вероятности. PMF для биномиального распределения:

Комбинированный член показывает, сколько существует способов, чтобы k успешных испытаний произошло среди n испытаний. p обозначает вероятность успеха. По определению вероятности и бинарного исхода (1-р) есть вероятность неудачи. Совместная вероятность успеха и неудачи в независимых испытаниях определяется показателями.

Возвращаясь к нашему делу

Учитывая, что мы собрали n точек данных (дней), у нас есть n испытаний и k успешных событий (ресторан полностью забронирован). По имеющимся у нас данным имеем n и k; но p, который параметризует распределение, которое генерирует наши обучающие данные, неизвестно.

Прибегая к MLE, мы можем получить оценку p. Оптимальной оценкой p является та, которая максимизирует функцию правдоподобия с точки зрения p.

Написание нашей функции правдоподобия в терминах совместной вероятности доступных точек данных из предполагаемого распределения:

Теперь, прежде чем дифференцировать этого парня, давайте возьмем его логарифм по двум причинам:

  • Простота дифференциации, так как журнал работы продукта является суммированием. Таким образом, условия продукта будут разделены.
  • Очень маленькие значения вероятности вызывают ошибки с плавающей запятой во время вычислений.

Логарифмическая вероятность бинома

Наша оценка максимального правдоподобия для p — это выборочное среднее, т. е. доля успешных событий среди всех выборочных событий.

Итак, допустим, мы собрали данные за 50 дней и на 35 дней ресторан полностью забронирован. В этом случае р* = 0,7. Отныне, используя эту точечную оценку p, мы можем ответить на такие вопросы, как: «Какова вероятность того, что ресторан будет полностью забронирован как минимум на 5 дней в течение следующих 7 дней?»

Ответ будет:

Заключить

Оценка максимального правдоподобия — это методология, позволяющая дать нам точечную оценку параметра (параметров) распределения, которое мы предполагаем для нашей обучающей выборки. Оценка параметров для распределения, генерирующего данные, прокладывает путь к дальнейшим шагам в построении модели и выводе. Построение параметрических моделей в ML — это оценка неизвестных параметров модели с учетом обучающих данных. Максимальное правдоподобие — это один из методов статистической оценки, который является важной вехой и дает представление о других подходах к моделированию. В связи с этим я очень хочу написать отдельный пост в блоге для подхода MLE на обычных методах наименьших квадратов.

Ресурсы:

[1] Гринстед, Чарльз М.; Снелл, Дж. Лори (2009) Введение в вероятность

[2] Видео-лекции Кристины Кнудсон

Рисунки выполнены: Лимну