Представьте, что вы фотограф и пытаетесь сфотографировать красивый пейзаж. Вы хотите захватить всю сцену, но ваша камера может сфокусироваться только на одной части за раз. Итак, вы делаете несколько снимков, каждый из которых фокусируется на разных частях пейзажа.

Теперь вы хотите создать единую картинку, представляющую весь пейзаж. Один из способов сделать это — взять средневзвешенное значение изображений. Вы придаете большее значение изображениям, которые представляют наиболее важные части пейзажа, и меньшее значение другим. В результате получается единая картина, отражающая суть всего пейзажа.

Неравенство Дженсена немного похоже на этот процесс. Но вместо картинок мы имеем дело с числами, а вместо пейзажа — с математической функцией.

Допустим, у нас есть функция, которая представляет собой правило, которое берет число и преобразует его в другое число. Некоторые функции обладают особым свойством: они «выпуклые». Если бы вы их нарисовали, они бы напоминали букву U или букву V. Они изгибаются вверх, как x².

Теперь предположим, что у нас есть набор чисел (назовем их x1, x2, …, xn), и мы хотим передать их нашей функции. Но вместо того, чтобы кормить их по одному, мы сначала берем их средневзвешенное значение. Это похоже на создание нашего составного изображения. Мы придаем большее значение одним числам и меньшее значение другим, в зависимости от того, насколько важными мы их считаем.

Неравенство Дженсена говорит, что если наша функция выпуклая (помните, что она изгибается вверх), то функциясредневзвешенного наших чисел меньше или равна средневзвешенному значению функции наших номеров.

Другими словами, если мы сначала усредним наши числа, а затем применим нашу функцию, мы получим число, которое меньше того, что мы получили бы, сначала применив нашу функцию к каждому числу, а затем усреднив результаты.

Это может показаться тонким моментом, но на самом деле это очень важно в области математики и экономики. Например, он используется в теории неприятия риска, согласно которой люди предпочитают верную вещь азартной игре с одинаковым ожидаемым значением. Это связано с тем, что полезность ожидаемого уровня богатства (который является своего рода средним значением) меньше, чем ожидаемая полезность различных уровней богатства (которая является функцией уровней богатства).

Итак, неравенство Дженсена — это как бы математическая версия поговорки «Синица в руке стоит двух в небе». Это способ сказать, что при работе с выпуклой функцией лучше выбрать то, что верно (функция среднего), чем играть на неопределенный результат (среднее значение функции).

Обзор:

Выпуклая функция: функция f: R → R является выпуклой, если она удовлетворяет определенному свойству, относящемуся к отрезку, соединяющему любые две точки на графике функции.

Возьмем любые две точки x и y в области определения функции. Отрезок, соединяющий точки (x, f(x)) и (y, f(y)) на графике функции, задается уравнением:

Этот отрезок представляет собой средневзвешенное значение функций f(x) и f(y), где веса равны t и (1-t) соответственно. При t=0 получаем L(t) = f(y), а при t=1 получаем L(t) = f(x). Для t между 0 и 1 L(t) дает нам точки на отрезке между (x, f(x)) и (y, f(y)).

Теперь функция f называется выпуклой, если значение функции в любой точке отрезка, соединяющего (x, f(x)) и (y, f(y)) меньше или равно соответствующей точке на самом отрезке линии. Другими словами, для всех t в [0, 1] мы должны иметь:

Это определение выпуклой функции. Это геометрическое свойство, согласно которому график функции лежит ниже отрезка, соединяющего любые две точки на графике. Именно это свойство делает функцию «изогнутой» или «изогнутой» вверх, поэтому она и называется выпуклой.

Представьте, что у вас есть функция f, представляющая кривую на графике. Теперь давайте выберем две точки на этой кривой, назовем их точкой A и точкой B. Точка A имеет координаты (x, f(x)) и точка B имеет координаты (y, f(y)).

Мы хотим нарисовать отрезок прямой линии, соединяющий эти две точки. Этот отрезок представляет собой смесь точек A и B, где «смешивание» определяется параметром «t», который находится в диапазоне от 0 до 1.

Когда t=0, мы полностью в B. Таким образом, отрезок прямой в t=0 — это просто сама точка B, которая имеет координаты (y, f(y)). Когда t=1, мы полностью в точке A, отрезок прямой в момент t=1 — это просто сама точка A, имеющая координаты (x, f(x)).

А что происходит, когда t находится в диапазоне от 0 до 1? В данном случае мы находимся в некоторой точке отрезка между A и B. Мы создаем отрезок, который начинается в точке B и постепенно движется к точке A по мере увеличения t.

Для этого мы берем средневзвешенное значение функции в точках A и B. Вес для точки A равен t, а вес для точки B равен (1-t). Это означает, что с увеличением t вес точки A становится больше, а вес точки B — меньше.

Итак, для любого значения t между 0 и 1 мы можем вычислить координаты сегмента, взяв средневзвешенное значение функции в точках A и B. Этот отрезок линии обозначается L(t) = tf(x) + (1-т)ф(у).

Используя это средневзвешенное значение, мы создаем отрезок, соединяющий точки A и B. По мере увеличения t от 0 до 1 отрезок постепенно перемещается от точки B к точке A.

Ключевая идея здесь заключается в том, что выпуклая функция — это функция, в которой значение функции в любой точке отрезка, соединяющего (x, f(x)) и (y, f(y)) меньше или равно значению функции в соответствующей точке отрезка L(t). Другими словами, кривая функции лежит ниже отрезка, соединяющего А и В.

Именно это свойство выпуклых функций придает им характерную «изогнутую» или «изогнутую» форму. Это гарантирует, что значения функции в любой точке отрезка прямой всегда меньше или равны соответствующей точке отрезка прямой.

Доказательство

Неравенство Дженсена утверждает, что для выпуклой функции f значение функции при математическом ожидании случайной величины меньше или равно математическому ожиданию значений функции в точках, заданных случайной величиной. Формально, если X — случайная величина, а f — выпуклая функция, то f(E[X]) ≤ E[f(X)].

выпуклая функция. Функция f: R → R называется выпуклой, если для всех x, y в R и для всех t в [0, 1] имеем:

давайте рассмотрим случайную величину X с конечным числом исходов x1, x2, …, xn, происходящих с вероятностями p1, p2, …, pn соответственно. У нас есть:

и

Мы хотим показать, что f[X]) ≤ E[f(X)].

Применяя определение выпуклости (уравнение 1) к терминам в математическом ожидании E[X] (уравнение 2), мы получаем:

Но правая часть этого неравенства — это просто E[f(X)] (уравнение 3). Итак, у нас есть:

Это прекрасный результат, основанный на простой геометрической интуиции, лежащей в основе выпуклых функций.

давайте подумаем об ожидании в вероятностном смысле, ожидание — это своего рода средневзвешенное значение. Если у вас есть случайная величина X, ожидание E[X] — это среднее значение X, где каждое возможное значение взвешивается по его вероятности.

Неравенство Йенсена утверждает, что для выпуклой функции f и случайной величины X математическое ожидание функции E[f(X)] больше или равно функции математического ожидания f(E[X])

Чтобы понять это, представьте, что у вас есть набор весов (представляющих вероятности), и вы размещаете их вдоль своей функции. Центр масс этих весов (который является математическим ожиданием E[X]) будет тянуть значение функции f(E[X]) вниз из-за выпуклости функции.

С другой стороны, если вы сначала примените функцию к каждому весу (что дает вам f(X) для каждого возможного значения X), а затем вычислите центр масс (что даст вам E[f(X)]), вы сначала вычисляете значения функции, а затем усредняете. Из-за выпуклой формы функции эти значения функции будут в среднем выше, чем значение функции в центре масс.

По сути, среднее значение f(x) выше, чем функция среднего, потому что функция выпуклая, а значения f(x) больше, чем значения x.

Пожалуйста, не стесняйтесь выражать свою поддержку, аплодируя как можно чаще (Вы можете аплодировать до 50 раз за сообщение). Ваши аплодисменты много значат и помогают распространять информацию дальше. Спасибо за щедрые аплодисменты!