Теория информации

Энтропия

(Физика): мера хаоса или беспорядка в системе.
Чем ниже порядок, тем ниже энтропия.

(Теория информации): мера информации с точки зрения неопределенности.
Чем выше неопределенность, тем выше энтропия. Чем выше энтропия, тем больше информации содержится в системе.

Мера информации

Чтобы понять, что такое информация и энтропия, давайте начнем с примера: мы подбросили монету и хотим знать, на какую сторону она приземлилась. Каков объем информации? Или сколько вопросов нам нужно задать, прежде чем мы узнаем о состоянии системы? Чем больше вопросов нам нужно задать, тем больше заявляет, что это возможно, поэтому тем больше у нас неопределенности. Если у монеты две головы, мы знаем, что она выпадает на голову. Нам не нужно задавать никаких вопросов, и поэтому мы не сомневаемся в результате. Итак, эта система имеет нулевую энтропию и нулевую информацию.
Если монета честная, у нее две разные стороны. Нам нужно задать хотя бы один вопрос, чтобы узнать состояние системы. «Это хвост?» или «Это голова?». Итак, энтропия этой системы равна 1.

Давайте определим событие X, которое имеет разные исходы M (M = 2 в случае честного подбрасывания монеты). Объем информации, полученной от X, равен I (X).

Основание логарифма может варьироваться, в этом примере мы будем использовать двоичный журнал с основанием 2 и представим, что измеряем информацию в битах. В машинном обучении мы будем чаще использовать естественные журналы с базой e.

В случае, когда монета всегда падает головой, M = 1:

В случае броска кубика M = 6:

Когда возможны исходы A = {a1, a2,…, am} с вероятностью P = {p1, p2,…, pm}

Например, если у нас есть A набор возможных результатов: A = {a1, a2} и набор вероятностей P = { 0,75, 0,25 }, I (a1) = 0,415 и I (a2) = 2.

Мера энтропии

Общая неопределенность для источника информации, когда вероятность того, что результаты не равны, равна энтропии.

Мера кросс-энтропии

Когда у нас есть истинное распределение вероятностей p и предсказанное распределение q, мы измеряем перекрестную энтропию:

Дивергенция KL

Если q = p, перекрестная энтропия равна энтропии. Но если q! = P, перекрестная энтропия будет больше, чем энтропия, и количество между ними называется относительной энтропией или KL-дивергенцией.

В машинном обучении мы можем использовать перекрестную энтропию между двумя распределениями q и p как функцию стоимости, когда оценка или обучение классификатора. Это потеря перекрестной энтропии (или потеря журнала). Здесь мы в основном используем натуральный журнал.