Центральная предельная теорема - одна из самых важных и очень фундаментальных теорем в статистике, которая широко используется в науке о данных и других связанных задачах. В этом блоге мы шаг за шагом разберемся с центральной предельной теоремой с некоторыми фрагментами кода Python.
Прежде чем перейти к основной идее центральной предельной теоремы, давайте обсудим некоторые самые базовые идеи статистики.
Что такое население в статистике?
В вероятности и статистике популяция относится к общему набору возможных наблюдений. Популяция - это весь набор, из которого берутся образцы. В случае человеческих высот население - это не что иное, как совокупность высот всех людей в мире.
Что такое выборка и распределение выборки в статистике?
Проще говоря, выборки - это наблюдения, полученные из распределения населения. Пример: в популяции любого человеческого роста мы случайным образом выбираем 10 высот.
Теперь поговорим о распределении выборки. Предположим, вам дано распределение населения, вы случайным образом выбираете из него выборку размером n и делаете это всего m раз. Наконец вы получите m образцов, каждый размером n. Затем вы вычисляете среднее значение для каждой отдельной выборки и получаете m средних значений выборки. Теперь распределение этих выборочных средних называется выборочным распределением выборочных средних.
Что такое центральная предельная теорема?
Короткий ответ:
Центральная предельная теорема говорит нам, если среднее (μ) и дисперсия (σ²) распределения совокупности конечны, тогда выборочное распределение выборочных средних будет иметь N ~ (μ, σ² / n) как n → ∞, где n - размер каждой выборки
Длинный ответ:
Предположим, у вас есть случайная переменная X, которая может иметь любое распределение, но X должен иметь конечное среднее значение и дисперсию.
Шаг 1. Вы случайным образом выбираете образец размера n из X и делаете это всего m раз. Наконец-то у вас есть m образцов, каждый размером n.
Шаг 2. Мы вычисляем среднее значение для каждой отдельной выборки (size = n) и получаем m средних значений выборки. Чтобы быть более ясным, теперь у вас есть числа m, и каждое из них представляет собой среднее значение определенной выборки.
Шаг 3: Затем мы строим график распределения m выборочных средних, и все готово.
Давайте выполним описанные выше шаги на Python и посмотрим, что получится.
import numpy as np import matplotlib.pyplot as plt import seaborn as sns # defining the sample size and number of samples we want to have sample_size = 30 sample_number = 1000 sample_means = [] for i in range(0, sample_number): # randomly picking sample from the population distribution # In this case the population distribution is an Uniform distribution sample = np.random.uniform(1, 20, sample_size) sample_mean = sample.mean() sample_means.append(sample_mean) plt.figure(figsize = (8, 6)) sns.distplot(sample_means, bins = 12);
Выход:
Оценка плотности ядра (KDE) графика выглядит как нормальное распределение. Верно? В этом вся суть Центральной предельной теоремы (ЦПТ).
Центральная предельная теорема гласит: распределение выборки средних значений выборки будет иметь нормальное распределение со средним значением, равным среднему значению генеральной совокупности, и дисперсией, равной дисперсии распределения совокупности, деленной на размер каждой выборки, поскольку размер выборки имеет тенденцию к достижению бесконечность, независимо от типа распределения населения.
Таким образом, если распределение совокупности имеет N ~ (μ, σ²), то распределение выборки средних значений будет иметь N ~ (μ, σ² / n) как n → ∞, где n - размер каждой выборки, и часто мы выбираем n = 30.
Но почему мы должны заботиться о центральной предельной теореме?
Центральная предельная теорема часто используется в задачах анализа данных, и с помощью центральной предельной теоремы мы можем получить среднее значение любого типа распределения населения, если среднее и дисперсия распределения населения конечны.
Предположим, вы хотите узнать среднюю зарплату каждого человека в мире. Для вас невозможно собрать информацию о зарплатах каждого в мире, суммировать ее, а затем разделить на общее количество людей в мире, верно? Но с помощью CLT вы можете сделать это за минуту. Вот почему важна центральная предельная теорема.
Использованная литература:
Какое интуитивное объяснение центральной предельной теоремы есть? https://stats.stackexchange.com/questions/3734/what-intuitive-explanation-is-there-for-the-central- предельная теорема
Центральная предельная теорема (Википедия): https://en.wikipedia.org/wiki/Central_limit_theorem