Обобщенные линейные модели (GLM) с приложением

Изучение GLM позволяет вам понять, как мы можем использовать распределения вероятностей в качестве строительных блоков для моделирования. Я предполагаю, что вы знакомы с линейной регрессией и нормальным распределением.

Теорию Гаусса Наивного Байеса (GNB) можно найти ниже.



Это список распределений вероятностей и их канонических функций связи.

  • Нормальное распределение: функция тождества
  • Распределение Пуассона: логарифмическая функция
  • Биномиальное распределение: логит-функция

Преимущество статистического моделирования заключается в том, что вы можете создать любую модель, которая хорошо согласуется с вашими данными.

В statsmodels реализованы различные функции ссылок. Однако, если вам нужно использовать более сложные функции ссылок, вам придется писать модели самостоятельно. Для этой цели хорошим выбором будут фреймворки вероятностного программирования, такие как Stan, PyMC3 и TensorFlow Probability.

Найдите код в расположении ниже



Линейная регрессия

Линейная регрессия используется для прогнозирования значения непрерывной переменной y по линейной комбинации независимых переменных X.

В одномерном случае линейная регрессия может быть выражена следующим образом

Обратите внимание, что эта модель предполагает нормальное распределение шумового члена. Модель можно проиллюстрировать следующим образом

Регрессия Пуассона:

Распределение Пуассона используется для моделирования данных подсчета. Он имеет только один параметр, который обозначает как среднее значение, так и стандартное отклонение распределения. Это означает, что чем больше среднее значение, тем больше стандартное отклонение.

Теперь давайте применим регрессию Пуассона к нашим данным. Результат должен выглядеть следующим образом.

Кривая прогнозирования является экспоненциальной, поскольку обратная функция логарифмической связи является экспоненциальной функцией. Отсюда также видно, что параметр регрессии Пуассона, рассчитанный линейным предиктором, гарантированно будет положительным.

Код регрессии Пуассона

Пурпурная кривая - это предсказание регрессии Пуассона.

логистическая регрессия:

Если вы используете логит-функцию в качестве функции связи и биномиальное распределение/распределение Бернулли в качестве распределения вероятностей, модель называется логистической регрессией.

Правая часть второго уравнения называется логистической функцией. Поэтому эта модель называется логистической регрессией. Поскольку логистическая функция возвращает значения от 0 до 1 для произвольных входных данных, она является подходящей функцией связи для биномиального распределения.

Ссылка:

https://cs229.stanford.edu/notes/cs229-notes1.pdf