Краткое изложение распределения Бернулли.

Распределение Бернулли обычно используется для бинарных результатов и часто комбинируется с другими распределениями. Он моделирует успех или неудачу, а функцию массы вероятности можно рассчитать с помощью P(X=x) = p^x(1-p)^(1-x). Он используется в машинном обучении. для моделирования бинарных исходов и может быть применен к любому случайному эксперименту с бинарными исходами.

Нажмите здесь, чтобы посмотреть больше

Биномиальное распределение

Проще говоря, распределение Бернулли — это распределение вероятностей, которое представляет случайный эксперимент только с двумя исходами: успехом или неудачей. Биномиальное распределение — это расширение распределения Бернулли, в котором мы проводим одно и то же испытание Бернулли n раз.

Например, когда мы подбрасываем монету один раз, это испытание Бернулли, но если мы подбрасываем ее семь раз, то это становится биномиальным распределением. Точно так же, если мы решим, является ли электронное письмо спамом, после его прочтения, это будет испытание Бернулли, но если мы проведем тот же эксперимент пять раз, оно станет биномиальным распределением.

Важно отметить, что при биномиальном распределении все испытания должны быть независимыми друг от друга. Это означает, что результат одного испытания не должен влиять на исход других испытаний.

Биномиальное распределение — это распределение вероятностей, описывающее количество успешных результатов в фиксированном числе независимых испытаний Бернулли с двумя возможными исходами (часто называемыми "успехом" и "неудачей"), где вероятность успеха постоянна для каждого испытания. Биномиальное распределение характеризуется двумя параметрами: количеством попыток n и вероятностью успеха p.

Предположим, мы собираем отзывы пользователей о продукте, который продаем. Если мы просим только одного пользователя оставить отзыв, то это будет пример распределения Бернулли. Пользователь может либо оставить положительный отзыв, либо отрицательный. Однако, если мы попросим отзывы нескольких пользователей, скажем, 100 пользователей, то это станет биномиальным распределением. Но здесь есть важное предположение, что отзывы каждого пользователя не зависят от отзывов других пользователей. Если два пользователя общаются и один пользователь говорит, что ему не понравился продукт и даст отрицательный отзыв, а затем другой пользователь соглашается и тоже решает дать отрицательный отзыв, то это нарушает предположение о независимости. В таком сценарии маршруты не будут независимыми, а распределение не будет биномиальным.

Например, когда мы подбрасываем монету несколько раз, результат одного броска не влияет на результат следующего броска. Следовательно, события независимы. Важно помнить об этой концепции при работе с такими распределениями, как биномиальное распределение.

Итак, у нас есть простая задача, где мы хотим найти вероятность того, что кто-то лайкнет или похлопает блогу, когда он будет прочитан на платформе. Предположим, что когда кто-то читает блог, вероятность того, что он поставит лайк или нажмет кнопку хлопка, составляет 0,5 или 1/2. Это означает, что есть 50% шанс, что кто-то нажмет кнопку хлопка, и 50% шанс, что он этого не сделает.

Теперь мы хотим ответить на некоторые вопросы, связанные с этой вероятностью. Например, пусть есть 3 человека. какова вероятность того, что никому из трех человек, читающих блог, он не понравится? Мы можем решить эту задачу, используя метод биномиального распределения. Точно так же мы можем также найти вероятность того, что блог понравится одному из трех человек, двум людям из трех или всем трем людям.

Чтобы построить интуицию для решения этой проблемы, давайте предположим, что если я покажу блог трем людям, у каждого из них будет 50 %-й шанс, понравится он или нет. Мы хотим найти вероятность того, что никому из трех человек не понравится блог. Чтобы решить эту проблему, мы можем создать древовидную диаграмму или просто перечислить все возможные комбинации «да/нет» для каждого человека. Всего возможно восемь комбинаций:

да да да,
да да нет,
да нет да,
нет да да,
нет нет да,
нет да нет,
да нет нет,
нет нет нет,

Из них только одна комбинация приводит к тому, что никому из трех человек не нравится блог. Следовательно, вероятность того, что блог не понравится никому из трех, равна 1/8.

Точно так же мы можем найти вероятность того, что блог понравится одному человеку из трех, что составляет 3/8. Такая же вероятность применима к двум из трех человек, которым понравился блог. Вероятность того, что блог понравится всем трем людям, составляет 1/8, поскольку существует только одна комбинация, которая приводит к такому результату.

Предыдущие вопросы легко решались с помощью созданного нами демонстрационного пространства. Однако не всегда возможно создать выборочное пространство, например, если есть 10 человек, выборочное пространство будет иметь 2¹⁰ = 1024 возможных результата, решение которых потребует много времени и усилий. Более того, если бы их было 100 или 10000 человек, проблема стала бы еще сложнее. Для решения этой проблемы у нас есть мощные инструменты, такие как формула биномиального распределения, которая позволяет нам легко решать такие проблемы. Формула задается как p(X=x) = nCx P^x (1-P)^(n-x), где n представляет количество испытаний, p представляет вероятность успеха, x представляет желаемый результат, а nCx равно комбинированная формула. Эта формула позволяет нам легко решать проблемы без необходимости каждый раз создавать пространство для выборки.

Формула PDF

p(X=x) = nCx P^x (1-P)^(n-x). Давайте разберем формулу шаг за шагом. Здесь «n» представляет количество испытаний, «p» представляет вероятность успеха, а «x» представляет желаемый результат или количество раз, которое мы хотим добиться успеха в «n» испытаниях. Термин «nCx» представляет собой комбинацию «n» вещей, взятых «x» одновременно. Термин «P^x» представляет собой вероятность успеха, возведенную в степень «x». Термин «(1-P)^(n-x)» представляет собой вероятность отказа, возведенную в степень «n-x». В целом, формула вычисляет вероятность достижения «x» успехов в «n» испытаниях с вероятностью успеха «p».

В предыдущем вопросе мы вручную решили задачу и получили ответ. Мы также можем использовать формулу для решения задачи, и мы получим тот же результат. Эта формула похожа на формулу Бернулли, но с дополнительным комбинированным коэффициентом для x и n. Мы рассчитываем вероятность успеха и неудачи, перемножаем их и на выходе получаем желаемую вероятность.

Теперь давайте расскажем, как мы перешли от Бернулли к биномиальному, и теперь посмотрим, как мы можем перейти от биномиального к центральной предельной теореме напрямую или через давайте посмотрим.

График PDF:

Если мы посмотрим на это с точки зрения графика, мы увидим график PDF биномиального распределения. Оно чем-то похоже на нормальное распределение. Фактически, это один и тот же PDF-файл, построенный трижды, каждый раз с разной вероятностью успеха. Если мы увеличим вероятность успеха, скажем, до 0,9, график сдвинется вправо и приблизится к 100. Точно так же, если мы уменьшим вероятность успеха до 0,2, график сдвинется влево и приблизится к 0. И если мы сохраняем вероятность успеха около 0,5, график будет иметь форму, аналогичную нормальному распределению. Мы также можем создавать такие графики в Python.

Из графика можно понять, как он движется. Давайте попробуем понять это через Python. Чтобы построить этот график, нам нужно указать два параметра, а именно n и p. Это те самые два параметра, о которых мы говорили ранее.

Python Work Click here

n = 10 # количество попыток
p = 0,5 # вероятность успеха
size = 1000 # количество выборок для генерации, получаем

n = 10 # количество попыток
p = 0,8 # вероятность успеха
size = 1000 # количество выборок для генерации, получаем

n = 10 # количество попыток
p = 0,2 # вероятность успеха
size = 1000 # количество выборок для генерации, получаем

Тот же самый момент, который я хотел передать здесь, есть в изображении «Биномиальное распределение с разными вероятностями успеха». Всякий раз, когда мы увеличиваем вероятность успеха до 1, наш график перемещается вправо. Точно так же, если мы уменьшим вероятность успеха, график сдвинется влево. Если вероятность успеха составляет около 0,5 или 0,6, то он остается в центре.

Критерии:

1. Процесс состоит из n испытаний
2. Возможны только 2 исключительных исхода, успех и неудача.
3. P(успех) = p и P(неудача) = 1-p и фиксируется от суда к суду
4. Суды независимы.

Важно помнить, что есть 3–4 важных условия, которые необходимо выполнить, чтобы мы могли рассматривать биномиальное распределение. Во-первых, должно быть больше 1 попытки, во-вторых, должно быть 2 исключительных исхода — успех и неудача. В-третьих, вероятность успеха фиксирована и представлена ​​«p», а вероятность неудачи представлена ​​«1-p», и она остается постоянной на протяжении всех испытаний. В-четвертых, испытания должны быть независимыми и не связанными друг с другом, как мы обсуждали ранее в примере.

Варианты использования в машинном обучении

  1. Задачи бинарной классификации. В задачах бинарной классификации мы часто моделируем вероятность события как биномиальное распределение. Например, в системе обнаружения спама мы можем смоделировать вероятность того, что электронное письмо является спамом или не является спамом, используя биномиальное распределение.
  2. Проверка гипотез. При статистической проверке гипотез мы используем биномиальное распределение для расчета вероятности наблюдения определенного количества успешных результатов в заданном количестве испытаний, предполагая, что нулевая гипотеза верна. Это можно использовать для принятия решений о том, подтверждается ли определенная гипотеза данными или нет.
  3. Логистическая регрессия. Логистическая регрессия — это популярный алгоритм машинного обучения, используемый для решения задач классификации. Он моделирует вероятность события как логистическую функцию входных переменных. Поскольку логистическую функцию можно рассматривать как преобразование линейной комбинации входных данных, результат логистической регрессии можно рассматривать как биномиальное распределение.
  4. A/B-тестирование. A/B-тестирование — это распространенный метод, используемый для сравнения двух разных версий продукта, веб-страницы или маркетинговой кампании. В A/B-тестировании мы случайным образом назначаем людей в одну из двух групп и сравниваем интересующие результаты между группами. Поскольку результаты часто являются бинарными (например, рейтинг кликов или коэффициент конверсии), биномиальное распределение можно использовать для моделирования распределения результатов и проверки различий между группами.

Выборочное распределение

Прежде чем мы попытаемся понять Центральную предельную теорему (CLT), давайте сначала поговорим о концепции распределения выборки. CLT считается одной из самых красивых и мощных теорем в математике, как утверждает автор этого блога. Однако, чтобы понять CLT, нам необходимо иметь общее представление о распределении выборки, поскольку CLT построен на нем.

Выборочное распределение – это распределение вероятностей, описывающее статистические свойства статистической выборки (например, среднее значение выборки или доля выборки), рассчитанные на основе нескольких независимых выборок одинакового размера из генеральной совокупности.

Определение может показаться запутанным, поэтому давайте попробуем понять его проще. Когда я начал писать о статистике в этом блоге нажмите здесь, мы обсуждали, что такое популяция и выборка. Давайте пересмотрим эту концепцию, потому что распределение выборки основано на ней. В статистике под населением понимаются все данные, которые у нас есть. Например, если мы хотим знать средний бизнес людей в Индии, в идеале нам нужно знать бизнес каждого мужчины и женщины в Индии. Таким образом, наше население будет составлять 1,4 миллиарда человек, живущих в Индии, и это все данные. Однако собирать данные о каждом человеке в Индии нецелесообразно. Итак, мы берем выборку, которая представляет собой подмножество населения. Например, мы могли бы посетить все штаты и районы и собрать данные только от 50 000 человек. Затем мы могли бы попытаться предсказать или сделать вывод о среднем бизнесе всего населения на основе этой выборки. Важно помнить, что выборка должна быть случайно выбрана из генеральной совокупности.

Как правило, нам нужна информация обо всем населении, что не всегда возможно. Поэтому мы случайным образом выбираем образец. Теперь мы понимаем, что такое выборка и совокупность. Давайте обсудим выборочное распределение.

позвольте мне попытаться объяснить распределение выборки простым способом. Предположим, у нас есть совокупность людей, скажем, зарплаты всех людей в Индии, которая включает в себя широкий диапазон значений от очень низких до очень высоких зарплат. Мы хотим рассчитать среднюю зарплату всех людей в Индии, но невозможно собрать информацию о зарплате каждого человека в отдельности. Итак, мы берем случайную выборку из этой совокупности.

Теперь эта совокупность зарплат следует определенному распределению, которое может быть смещено вправо, смещено влево или нормально распределено. Мы можем предположить, что распределение заработной платы в Индии смещено вправо из-за принципа Парето, который гласит, что 80% богатства принадлежит 20% населения.

Чтобы создать выборочное распределение, мы начинаем с решения, сколько образцов мы хотим взять из населения, скажем, 100. Затем мы случайным образом выбираем 50 человек из населения, которые будут частью первой выборки. Записываем зарплаты этих 50 человек и вычисляем среднюю зарплату по этой выборке.

Затем мы повторяем этот процесс еще 99 раз, каждый раз беря 50 новых случайных людей и вычисляя среднюю зарплату для каждой выборки. Таким образом, у нас получается 100 средних зарплат, которые мы можем изобразить на графике. Это распределение средств называется выборочным распределением и основано на случайных выборках, которые мы взяли из населения.

Центральная предельная теорема говорит нам, что по мере увеличения количества выборок распределение выборки становится все более и более нормальным, независимо от первоначального распределения совокупности. Вот почему выборочное распределение так важно в статистике, и оно формирует основу для многих статистических тестов и оценок.

Подводя итог, у нас были полные данные о зарплатах населения, но мы решили случайным образом выбрать 50 человек 100 раз и получили 100 наборов по 50 зарплат в каждом. Затем мы рассчитали среднее значение каждого из этих 100 наборов, что дало нам 100 выборочных средних. Эти выборочные средние вместе образуют выборочное распределение, которое представляет собой распределение средних значений нескольких случайных выборок, взятых из одной и той же совокупности.

Полное название того, что мы рассчитали, т. е. совокупность всех выборочных средних, называется «выборочное распределение выборочного среднего».

До сих пор мы вычисляли выборочное распределение выборочного среднего. Однако мы также можем вычислить выборочное распределение выборочной дисперсии, рассчитав дисперсию каждого из 100 наборов, что даст 100 выборочных дисперсий. В этом случае у нас также будет выборочное распределение, которое будет описывать статистические свойства выборочной дисперсии. Это распределение будет похоже на выборочное распределение выборочного среднего, и мы также можем рассчитать стандартное отклонение или коэффициент дисперсии для него. Определение распределения выборки гласит, что это распределение вероятностей, которое описывает статистические свойства статистики выборки, такие как среднее значение или дисперсия, вычисленные на основе нескольких независимых выборок одинакового размера. В нашем случае мы взяли выборку размером 50 человек из совокупности.

Подводя итог, можно сказать, что несколько выборок одинакового размера берутся из совокупности любое количество раз, скажем, 100 или 1 крор раз. Мы можем рассчитать их средние значения, дисперсии или любую другую желаемую статистику. Набор этих статистических данных называется выборочным распределением. Если это набор средних, мы называем его выборочным распределением выборочных средних. Если это набор дисперсий, мы называем его выборочным распределением выборочных дисперсий. Хотя это может быть запутанным для понимания и объяснения, концепция проста.

Почему распределение выборки важно?

Распределение выборки важно в статистике и машинном обучении, поскольку оно позволяет нам оценить изменчивость выборочной статистики, что полезно для выводов о генеральной совокупности путем анализа свойств. выборочного распределения мы можем вычислять доверительные интервалы, выполнять проверки гипотез и делать прогнозы относительно генеральной совокупности на основе выборочных данных.

Может показаться, что мы делаем что-то бесполезное, вычисляя выборочные распределения, но на самом деле они очень важны в статистике и машинном обучении. Распределение выборки позволяет нам оценить изменчивость статистики выборки, даже если мы берем несколько наборов выборок из одной и той же совокупности с одинаковым размером выборки. Это помогает нам понять изменчивость среднего значения генеральной совокупности.

Распределение выборки полезно для того, чтобы делать выводы о населении. Анализируя свойства выборочного распределения, мы можем вычислять доверительные интервалы, выполнять проверки гипотез и делать прогнозы относительно генеральной совокупности на основе выборочных данных. Таким образом, даже если мы работаем только с выборочными данными, мы все же можем делать точные прогнозы и делать выводы о населении в целом.

𝐶𝑒𝑛𝑡𝑟𝑎𝑙 𝐿𝑖𝑚𝑖𝑡 𝑇ℎ𝑒𝑜𝑟𝑒𝑚

Центральная предельная теорема (ЦПТ) утверждает, что распределение выборочных средних большого числа независимых и одинаково распределенных случайных величин будет приближаться к нормальному распределению независимо от лежащего в основе распределения переменных. .

Условия, необходимые для выполнения CLT:
1. Размер выборки достаточно велик, обычно больше или равен 30.

2. Выборка берется из конечной совокупности или бесконечной совокупности с конечной дисперсией.

3. Случайные величины в выборке независимы и одинаково распределены.

Теперь, если мы хотим понять это проще, давайте возьмем пример нахождения средней зарплаты всех людей в Индии. Мы можем предположить, что заработная плата всех людей в Индии образует распределение населения. Мы случайным образом берем выборки размером 100 человек из этой совокупности, в которой будут люди с более высокой и более низкой зарплатой. Мы повторяем этот процесс 1000 раз и каждый раз получаем 1000 наборов по 100 окладов. Мы вычисляем среднее значение каждого из этих 1000 наборов, и этот набор средних называется распределением выборки.

Теперь давайте обсудим Центральную предельную теорему (ЦПТ). В нем говорится, что если мы нанесем все точки выборочного распределения, оно сформирует нормальное распределение. Прелесть этой теоремы в том, что каким бы ни было исходное распределение совокупности, CLT преобразует его в нормальное распределение. Даже если это логарифмически нормальное распределение, равномерное распределение или распределение Парето, CLT преобразует его в нормальное распределение. На самом деле, даже если нет математического уравнения для распределения, мы все равно можем попытаться преобразовать его в почти нормальное распределение, используя тот же процесс.

Однако есть определенные допущения, которые нам необходимо сделать. Размер выборки должен быть достаточно большим, обычно не менее 30, в идеале больше, 100, как мы использовали в предыдущем вопросе. Если объем выборки меньше 30, то распределение может не стать нормальным. Распределение также должно быть конечным и иметь конечную дисперсию, иначе CLT может не сработать. Кроме того, выборки, которые мы рисуем, должны быть одинаково распределены, а это означает, что вероятность взятия каждой выборки должна быть одинаковой.

Духовный взгляд на этот сценарий таков: человек, который ежедневно практикует медитацию, чтобы соединиться со своим внутренним «я» и обрести душевный покой.

Мы можем связать эту практику с CLT в том смысле, что если бы мы взяли несколько образцов времени медитации этого человека (при условии, что он медитирует в течение фиксированного количества времени каждый день), мы ожидали бы, что распределение выборки времени его медитации приблизится к нормальное распределение согласно центральной предельной теореме.

Например, если бы мы случайным образом выбрали время медитации человека в течение 30 дней и вычислили среднее значение каждой выборки, мы могли бы построить распределение этих средних значений выборки и ожидать, что оно будет нормальным. Это позволило бы нам сделать выводы о среднем времени медитации населения на основе выборочных данных.

Еще одним примером может быть группа друзей, которые регулярно ведут глубокие беседы о смысле жизни, природе сознания и других философских и духовных темах.

В целом, центральная предельная теорема показывает, что, хотя ежедневное время медитации человека может меняться изо дня в день, выборочное распределение времени медитации все же можно использовать для точных прогнозов и выводов об их общих медитативных привычках.

Если три условия соблюдены, неважно, какое у нас распределение, CLT преобразует его в нормальное распределение. Кроме того, если совокупность имеет среднее значение μ и дисперсию (σ)², то среднее значение распределения CLT будет точно или почти таким же, а его дисперсия будет ((σ)²)/n, где n — размер выборки (в данном случае 100). По сути, используя эту теорему, мы можем предсказать среднее значение и дисперсию совокупности на основе имеющихся у нас выборок. Я надеюсь, что это объяснение было полезным.

CLT играет важную роль в статистике и машинном обучении, поскольку позволяет нам делать вероятностные выводы о совокупности на основе выборки данных. Например, мы можем использовать CLT для построения доверительных интервалов, проверки гипотез и прогнозирования среднего значения генеральной совокупности на основе выборочных данных. CLT также обеспечивает теоретическое обоснование многих часто используемых статистических методов, таких как t-критерий, ANOVA и линейная регрессия.

Удивительно, насколько волшебна эта вещь, что нам не нужно обращаться к 1,4 миллиарда человек или, по сути, брать 50 человек из Индии один раз и делать это 100 раз. По сути, если мы получим данные о зарплате 5000 человек, случайно выбрав 50 человек 100 раз, мы сможем сделать точный вывод/прогноз для всей страны. Это пример, и мы можем применить его где угодно. Например, если у меня есть компания со 100 миллионами пользователей, я хочу знать, сколько продуктов они в среднем покупают. Мне не нужно обращаться ко всем 100 миллионам пользователей; Я могу быстро получить его, рассчитав выборочное распределение с помощью CLT.

Python работает. Нажмите здесь, чтобы посмотреть.

Увеличение num_sample или num_size приведет к нормальному графику распределения в соответствии с требуемыми данными. Это верно не только для равномерного распределения, мы также можем преобразовать любое распределение в нормальное распределение, используя CLT. Давайте посмотрим больше примеров на Python.

Здесь мы взяли три распределения — Пуассона, Гамму и Биномиальное. Мы можем видеть их параметры и генерировать выборки с размером выборки 50 и 1000 выборок. Мы создали выборочное распределение для каждого распределения и построили их гистограммы одну за другой. Все они выглядели почти нормально.

На данный момент мы узнали, что не имеет значения, какое распределение мы выберем, CLT может преобразовать его в нормальное распределение. Это первое, на что следует обратить внимание.

Пункт номер два заключается в том, что если совокупность имеет среднее значение μ и дисперсию σ², то среднее значение нашего выборочного распределения (которое является нормальным распределением, полученным с помощью CLT ) также будет равен mu, а его дисперсия будет равна σ², деленному на n, где n — размер выборки, которую мы берем (в нашем случае это 50). Давайте также посмотрим на Python.

Theoretical mean: 2.0000
Empirical mean: 2.0011


Theoretical variance: 2.0000
Empirical variance: 0.0400



To prove this point, we took a gamma distribution and calculated 
its theoretical mean and variance beforehand.
Then we repeated the same process of generating samples with 
a sample size of 50 and a number of samples of 10000.
 We calculated the mean and variance of the sample means to see 
if they match  the theoretical mean and variance.
 We can see that the theoretical variance is not visible separately,
 but if we divide it by 50, it becomes closer to the sample variance.
 This is because the formula for variance is variance/n,
 where n is the sample size. After dividing it by the sample size,
 we found that the result is very close to  the theoretical variance.

Мы доказали две вещи. Во-первых, распределение по выборке не только будет выглядеть как нормальное распределение для любого вида распределения, но и что среднее генеральной совокупности то же, что и среднее значение нашего распределения, а дисперсия генеральной совокупности делится на n (размер выборки), чтобы получить дисперсию распределение.

Мы можем установить взаимосвязь между различными распределениями вероятностей, применяя к каждому из них Центральную предельную теорему (ЦПТ). Генерируя выборки фиксированного размера и повторяя процесс несколько раз, мы можем получить распределение выборки для каждого из этих распределений вероятностей.

Например, в случае распределения Бернулли мы можем сгенерировать выборку бинарных результатов с фиксированной вероятностью успеха, и, повторяя этот процесс несколько раз, мы можем получить выборочное распределение. Точно так же для биномиального распределения мы можем генерировать выборки бинарных результатов с фиксированным числом испытаний, и, повторяя этот процесс несколько раз, мы можем получить выборочное распределение.

Применяя CLT к этим выборочным распределениям, мы видим, что они будут сходиться к нормальному распределению, независимо от основного распределения вероятностей. Кроме того, мы можем установить, что среднее значение распределения выборки будет равно среднему значению распределения совокупности, а дисперсия распределения выборки будет равна дисперсии совокупности, деленной на размер выборки.

Практический пример 1 — тариф «Титаник»

Мы собираемся провести небольшой пример по 𝐶𝑒𝑛𝑡𝑟𝑎𝑙 𝐿𝑖𝑚𝑖𝑡 𝑇ℎ𝑒𝑜𝑟𝑒𝑚 (CLT), чтобы понять силу CLT. Вообще, когда мы узнаем что-то новое, у нас возникает много сомнений, и это требует больших усилий. Например, если мы работаем с новым набором данных, нам нужно понимать CLT и то, как его можно применить к новому набору данных. Поэтому лучше работать с данными, которые мы уже знаем и с которыми знакомы. Набор данных Titanic — это такой набор данных, с которым мы знакомы, и мы можем работать с ним, чтобы понять CLT.

Итак, нажмите здесь, чтобы просмотреть пример использования Python.

В данном случае мы решили использовать 2 стандартных отклонения, но почему мы выбрали именно это? Эмпирическое правило гласит, что 1 стандартное отклонение покрывает 68 % данных, 2 стандартных отклонения покрывают 95 % данных, и 3 стандартных отклонения покрывают 99% данных. Если бы мы выбрали первый случай, у нас был бы меньший диапазон интервала, но точность вероятности была бы ниже. Во втором случае диапазон был немного шире, но точность вероятности составит 95%, что вполне прилично. В третьем случае диапазон был бы гораздо шире, что не имеет особого смысла, хотя точность вероятности составила бы 99%. Поэтому мы решили использовать правило двух стандартных отклонений, так как оно обеспечивает хороший баланс между диапазоном и точностью.

Наш процесс выборки очень важен, поскольку он должен представлять все возможные значения, существующие в нашей совокупности. Это очень большое предположение, и без него наш анализ не может быть надежным.

Тематическое исследование — каков средний доход индийцев

Пошаговый процесс:

  1. Соберите несколько случайных выборок зарплат из репрезентативной группы индийцев. Каждая выборка должна быть достаточно большой (обычно n > 30), чтобы гарантировать выполнение CLT. Убедитесь, что образцы репрезентативны и непредвзяты, чтобы избежать искажения результатов.
  2. Рассчитайте выборочное среднее (средняя заработная плата) и выборочное стандартное отклонение для каждой выборки.
  3. Вычислите среднее значение выборки. Это значение будет вашей наилучшей оценкой среднего значения населения (средняя заработная плата всех индийцев).
  4. Рассчитайте стандартную ошибку выборочных средних, которая представляет собой стандартное отклонение выборочных средних, деленное на квадратный корень из числа выборок.
  5. Рассчитайте доверительный интервал вокруг среднего значения выборки, чтобы получить диапазон, в который, вероятно, попадает истинное среднее значение генеральной совокупности. Для 95% доверительного интервала:

нижний_предел = среднее_выборочное_среднее — 1,96 * стандартная_ошибка

верхний_предел = среднее_выборочное_среднее + 1,96 * стандартная_ошибка

Причина, по которой в расчетах использовалось значение 1,96, заключается в том, что они использовали стандартную нормальную переменную. Они стандартизировали распределение, установив среднее значение 0 и стандартное отклонение 1, что соответствовало значению z-таблицы 1,96 для уровня достоверности 95%. В своем коде они использовали значение 2 вместо 1,96, потому что они умножили стандартное отклонение на 2, что соответствует уровню достоверности 95%.

6. Укажите расчетную среднюю заработную плату и доверительный интервал.

Код Python

Помните, что достоверность ваших результатов зависит от качества ваших
данных и репрезентативности ваших выборок. Чтобы получить точные
результаты, крайне важно убедиться, что ваши образцы непредвзяты и
репрезентативны.