Центральная предельная теорема - одна из самых важных и очень фундаментальных теорем в статистике, которая широко используется в науке о данных и других связанных задачах. В этом блоге мы шаг за шагом разберемся с центральной предельной теоремой с некоторыми фрагментами кода Python.

Прежде чем перейти к основной идее центральной предельной теоремы, давайте обсудим некоторые самые базовые идеи статистики.

Что такое население в статистике?

В вероятности и статистике популяция относится к общему набору возможных наблюдений. Популяция - это весь набор, из которого берутся образцы. В случае человеческих высот население - это не что иное, как совокупность высот всех людей в мире.

Что такое выборка и распределение выборки в статистике?

Проще говоря, выборки - это наблюдения, полученные из распределения населения. Пример: в популяции любого человеческого роста мы случайным образом выбираем 10 высот.

Теперь поговорим о распределении выборки. Предположим, вам дано распределение населения, вы случайным образом выбираете из него выборку размером n и делаете это всего m раз. Наконец вы получите m образцов, каждый размером n. Затем вы вычисляете среднее значение для каждой отдельной выборки и получаете m средних значений выборки. Теперь распределение этих выборочных средних называется выборочным распределением выборочных средних.

Что такое центральная предельная теорема?

Короткий ответ:

Центральная предельная теорема говорит нам, если среднее (μ) и дисперсия (σ²) распределения совокупности конечны, тогда выборочное распределение выборочных средних будет иметь N ~ (μ, σ² / n) как n ∞, где n - размер каждой выборки

Длинный ответ:

Предположим, у вас есть случайная переменная X, которая может иметь любое распределение, но X должен иметь конечное среднее значение и дисперсию.

Шаг 1. Вы случайным образом выбираете образец размера n из X и делаете это всего m раз. Наконец-то у вас есть m образцов, каждый размером n.

Шаг 2. Мы вычисляем среднее значение для каждой отдельной выборки (size = n) и получаем m средних значений выборки. Чтобы быть более ясным, теперь у вас есть числа m, и каждое из них представляет собой среднее значение определенной выборки.

Шаг 3: Затем мы строим график распределения m выборочных средних, и все готово.

Давайте выполним описанные выше шаги на Python и посмотрим, что получится.

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# defining the sample size and number of samples we want to have
sample_size = 30
sample_number = 1000
sample_means = []
for i in range(0, sample_number):
    # randomly picking sample from the population distribution
    # In this case the population distribution is an Uniform distribution
    sample = np.random.uniform(1, 20, sample_size)
    sample_mean = sample.mean()
    sample_means.append(sample_mean)
    
plt.figure(figsize = (8, 6))
sns.distplot(sample_means, bins = 12);

Выход:

Оценка плотности ядра (KDE) графика выглядит как нормальное распределение. Верно? В этом вся суть Центральной предельной теоремы (ЦПТ).

Центральная предельная теорема гласит: распределение выборки средних значений выборки будет иметь нормальное распределение со средним значением, равным среднему значению генеральной совокупности, и дисперсией, равной дисперсии распределения совокупности, деленной на размер каждой выборки, поскольку размер выборки имеет тенденцию к достижению бесконечность, независимо от типа распределения населения.

Таким образом, если распределение совокупности имеет N ~ (μ, σ²), то распределение выборки средних значений будет иметь N ~ (μ, σ² / n) как n ∞, где n - размер каждой выборки, и часто мы выбираем n = 30.

Но почему мы должны заботиться о центральной предельной теореме?

Центральная предельная теорема часто используется в задачах анализа данных, и с помощью центральной предельной теоремы мы можем получить среднее значение любого типа распределения населения, если среднее и дисперсия распределения населения конечны.

Предположим, вы хотите узнать среднюю зарплату каждого человека в мире. Для вас невозможно собрать информацию о зарплатах каждого в мире, суммировать ее, а затем разделить на общее количество людей в мире, верно? Но с помощью CLT вы можете сделать это за минуту. Вот почему важна центральная предельная теорема.

Использованная литература:

Какое интуитивное объяснение центральной предельной теоремы есть? https://stats.stackexchange.com/questions/3734/what-intuitive-explanation-is-there-for-the-central- предельная теорема

Центральная предельная теорема (Википедия): https://en.wikipedia.org/wiki/Central_limit_theorem