Мягкое введение в популяцию, выборку и их характеристики в статистике.

«Факты упрямые, но статистика надежна» - Марк Твен

Роль населения играет важную роль в статистике и науке о данных. Более того, без составления совокупности и выборки весь мир строительной статистики и науки о данных мог бы исчезнуть.

Данные являются основным строительным блоком всего анализа. Важно знать, как данные разделяются, собираются и отбираются выборки, прежде чем приступить к статистическому анализу. В этой статье я рассмотрю генеральную совокупность и выборку с точки зрения статистики и науки о данных.

Население

Это набор определенной группы похожих объектов, людей или сущностей, которые имеют некоторые общие наблюдаемые характеристики. Из них каждый объект называется «Элементарными единицами».

Пример- Предположим, у нас есть список, состоящий из имен всех сотрудников компании. Это не что иное, как совокупность. Из них каждый сотрудник будет рассматриваться как элементарная единица.

Типы населения

Конечное население

Это тип населения, в котором количество элементарных единиц точно поддается количественному определению.

Пример - Книги в университетской библиотеке.

Бесконечное население

В этом типе населения подсчет элементарных единиц не поддается количественной оценке с большей уверенностью.

Пример - Население страны. Население страны в большинстве случаев точно не поддается количественной оценке, хотя можно сделать приблизительное определение. Это потому, что каждую секунду количество смертей и рождений меняется во времени.

Реальное население

Это такой тип населения, который в основном основан на данных в реальном времени, а информация является конкретной и надежной. Эта совокупность не требует приблизительных или гипотетических данных.

Пример - Сотрудники, работающие в компании.

Гипотетическое население

Это может быть конечная или бесконечная воображаемая популяция, созданная исследователем. В основном здесь исследователь берет сценарий в реальном времени и применяет свою общую гипотезу или предположения, чтобы нарисовать структуру и информацию о популяции.

Пример - Возможные результаты выпадения кубика n раз.

Образец

Часть генеральной совокупности, составленная в соответствии с правилом или планом заключительных характеристик, называется выборкой.

Пример - Представьте себе компанию XYZ, в которой работает около 50 тыс. сотрудников. Провести некоторый анализ на основе информации этих сотрудников, исследователям практически сложно относительно времени и денег со всеми 50 тысячами сотрудников. Наилучший способ - выбрать 5 тысяч человек (или любое случайное число) из этой совокупности и собрать данные от этих сотрудников для проведения анализа. Этот случайный подсчет сотрудников, выбранных из всей генеральной совокупности, называется выборкой. Этот анализ данных будет проводиться исследователями на основе гипотезы о том, что любые выводы, которые они получат от этих 5 тысяч человек, будут применяться ко всему населению в целом f.

Размер образца

Количество элементов в выборке называется размером выборки. В приведенном выше примере из 50 тыс. Сотрудников для анализа было выбрано 5 тыс., Что составляет размер выборки 5 тыс.

Характеристики образца

Образец должен соответствовать определенным характеристикам, чтобы сделать его пригодным для анализа данных. Исследование, проведенное на неправильной выборке, приведет к неверным выводам, которые могут противоречить поведению всего населения, что приведет к опасным последствиям.

1. Репрезентативность

Выборка должна отражать общее поведение населения. Представьте себе ситуацию в приведенном выше примере, в котором 5 тыс. Сотрудников выбраны из 50 тыс. Сотрудников. Если в исходной совокупности было 30 тысяч мужчин и 20 тысяч женщин, но в выборке присутствовали только работницы-женщины (что и составляет размер выборки). Любой анализ, проведенный на этой выборке, не будет отражать общее поведение населения.

2. Однородность

Однородность - это не что иное, как соответствие поведения в нескольких выборках. Если мы получим несколько выборок из генеральной совокупности, ожидается, что все выборки сделают примерно одинаковые выводы о генеральной совокупности.

Представьте, что мы хотим вычислить среднюю зарплату 50 тысяч сотрудников и у нас есть 3 выборки по 5 тысяч в каждой.

· В образце 1 средняя зарплата составляет 40 000 долларов

· Средняя зарплата в образце 2 составляет 38 тыс..

· Средняя зарплата в образце 3 составляет 41 000 долларов.

Можно сказать, что эти выборки однородны, поскольку все выборки дают примерно одинаковую информацию о заработной плате сотрудников.

Что, если результат будет таким,

· В образце 1 средняя зарплата составляет 40 000 долларов

· Средняя зарплата в образце 2 составляет 15 тыс..

· Средняя зарплата в образце 3 составляет 100 000 долларов.

Здесь исследователь не сможет определить примерную зарплату человека в компании из-за нестабильности данных.

3. Адекватность

Количество единиц выборки в выборке должно быть достаточным для проведения исследования.

В приведенном выше примере из 50 тыс. Сотрудников будет неэффективно построение выборки размером 5 или 6 для проведения исследования.

4. Подобные регулирующие условия

Должен быть аналогичный способ отбора образцов, если есть необходимость в нескольких образцах.

В приведенном выше примере из 50 тыс. Сотрудников выборка из 5 тыс. Сотрудников была выбрана случайным образом, и если мы выбираем другую выборку, ее также следует выбирать случайным образом. Не следует поощрять какие-либо предварительные условия для выбора элементарной единицы.

Если Выборка 1 с размером выборки 5k выбрана случайным образом, но мы создаем выборку 2 с таким же размером выборки для того же анализа данных, но мы выбрали только женщин-сотрудников в выборке 2, это повлияет на однородность выборки и в конечном итоге приведет к ее результату. в неверных выводах.

Некоторые важные термины

Единица отбора проб

Подобно элементарной единице, каждый элемент в выборке называется единицей выборки. Здесь из 5 тысяч сотрудников каждый сотрудник будет единицей выборки.

Основа выборки

Полный список единиц выборки, карты или другой приемлемый материал, представляющий совокупность, подлежащую выборке, называется основой выборки.

Давайте посмотрим, есть ли у нас список зарплат 50 тысяч человек в компании.

Здесь,

Каждая зарплата - это точка данных, которая является не чем иным, как единицей выборки.

Подробная информация о зарплате будет получена от каждого из 50 тысяч сотрудников. Это означает, что они являются поставщиками информации. Таким образом, каждый из 50 тысяч сотрудников является единицей наблюдения.

Список заработной платы со всем подкомпонентом, включая отчисления из Фонда обеспечения персонала, Надбавки на аренду дома, Бонусы, станет основой выборки.

В следующей части этой статьи я написал о типах выборки - вероятностной и не вероятностной. Как их можно создавать и использовать для статистических исследований.

URL - Выборка в статистических исследованиях - Часть 1

Спасибо за чтение !!!