"Статистика"
Примеры теста хи-квадрат с R
Анализ ассоциации и распределения переменных
Введение
Когда мы говорим о тестах хи-квадрат, в основном мы изучаем два типа:
- Хи-квадрат для независимости
- Хи-квадрат для согласия
Оба они являются непараметрическими тестами (которые не имеют непрерывной шкалы для измерения и не содержат допущений).
Первый помогает определить любую связь между качественными переменными, а второй сообщает, следует ли выборка тому же распределению, что и выборка, или нет.
Хи-квадрат для независимости
Этот тест помогает определить любую связь между двумя категориальными значениями качественных данных. Это применимо только к категориальным данным.
Основная задача - проверить, не являются ли они независимыми или как они влияют друг на друга. Проверка гипотез, проводимая для проверки связи между ними, известна как проверка на независимость. Он проверит правильность сделанного предположения.
Применяя этот тест, нам также необходимо проверить некоторые предположения. Рассмотрим следующий пример, чтобы поразмыслить более подробно.
Пример:
Предположим, мы хотим узнать, как пол связан с их спортивными предпочтениями. Мы рассматриваем случайную выборку из 500 опрошенных. Результаты, полученные как;
Две переменные - пол и спорт.
Эта таблица в матричном формате, представляющая наблюдаемые частоты для обеих переменных, называется таблицей непредвиденных обстоятельств.
Теперь действуйте следующим образом, чтобы выяснить, связан ли пол как-то или связан с их спортивным выбором.
Практично с R
Введите данные, указанные в таблице
#Enter the values of the available data freq<-c(80,95,80,120,65,60)
Представьте данные в матричной форме, чтобы они имели смысл
rownames(data)<-c("Male","Female") colnames(data)<-c("Basketball","Hockey","Cricket") data #output: Basketball Hockey Cricket Male 80 95 80 Female 120 65 60 #output: [,1] [,2] [,3] [1,] 80 95 80 [2,] 120 65 60
Упомяните нулевую гипотезу и альтернативную гипотезу
- H0: Обе переменные независимы
Это означает, что выбор вида спорта не зависит от пола.
- H1: Обе переменные не независимы
Это означает, что гендерный тип влияет на выбранный вид спорта.
Проверить условия
При проведении этого теста мы должны убедиться, что эти условия выполняются.
- Переменные должны иметь категориальные значения.
В этом примере это верно.
Gender can take only two values → Male, Female Sport variable can take only three values → Badminton,Hockey,Cricket
2. Наблюдения в нашем наборе данных должны быть независимыми.
It implies that all surveyed participants have counted only once. i.e., there is no over-lapping in a dataset
3. Ожидаемые частоты в каждой ячейке ≥ 5
Нахождение ожидаемых частот (E) для каждой ячейки
E = (row total x column total) / overall total
Ни одна ячейка в таблице непредвиденных обстоятельств не должна иметь ожидаемую частоту
Примените тест хи-квадрат
#chisq.test function, already inbuilt in R t<-chisq.test(data) t #output: Pearson's Chi-squared test data: data X-squared = 16.289, df = 2, p-value = 0.0002904
Получите таблицу ожидаемой частоты
#find expected frequency table to get assumption proof t$expected #output: Basketball Hockey Cricket Male 102 81.6 71.4 Female 98 78.4 68.6
Укажите уровень значимости (альфа)
Возьмем альфа = 0,05 (5%).
Здесь это означает, что вероятность (шансы) быть правым или получения правильного ответа составляет (1-альфа), то есть 95%, а вероятность ошибиться составляет 5%.
# Storing the value of alpha(level of significance) alpha<-0.05
По умолчанию в большинстве случаев стандартным значением считается уровень 5%.
Найдите статистику теста и p-значение
Тестовая статистика - это компонент проверки гипотез, чтобы решить, принять или отклонить нашу нулевую гипотезу.
Берет данные из проведенного опроса и сравнивает результаты с ожидаемыми от нулевой гипотезы.
Значение p дает нам значение того, насколько доказательства подтверждают нулевую гипотезу. Когда оно равно
t$statistic #output: X-squared 16.28866 ------------------------------------------ t$p.value #output: 0.0002903774
Заключение
Проверьте, соответствует ли p-значение ‹уровню значимости (альфа).
# Storing the p-value in a variable name and comparing it with alpha p<-t$p.value if(p<alpha){ print("Reject the null hypothesis") }else{ print("Do not not reject Null hypothesis") } #Output: "Reject the null hypothesis"
Значение p здесь составляет 0,029%, что намного меньше 5%.
Интерпретация
Предположение о нулевой гипотезе не принимается. Это означает, что наш выбор, что обе переменные независимы, неверен.
Есть достаточно доказательств, чтобы показать, что пол и их выбор для любого вида спорта. Следовательно, на выбор вида спорта влияет гендерный тип.
ДЛЯ ТЕСТА НА ПРАВИЛЬНОСТЬ
Продавец фруктов утверждает, что каждый день к его прилавку приходит одинаковое количество покупателей. Чтобы проверить это утверждение, было записано количество клиентов, приходящих к его прилавку в любую случайную неделю, а именно:
Наша цель - выяснить, соответствуют ли данные заявлению продавца фруктов.
Практично с R
Введите данные как наблюдаемую (фактическую) частоту
#Enter the values of the available data people<-c(30,38,42,40,50)
Ожидаемая доля покупателей, приходящих в магазин
Поскольку мы должны назначить пропорцию, и она должна составлять 1, как мы делаем в случае назначения вероятностей, которые в сумме составляют 1.
prob<-c(rep(1/5,5))
Упомяните нулевую гипотезу и альтернативную гипотезу
- H0: Фактическое распределение клиентов такое же, как заявлял продавец фруктов.
- H1: Фактическое распределение клиентов отличается от заявленного продавцом фруктов.
Выполните проверку соответствия
Поскольку мы работаем над случаями пропорции / вероятности, мы будем использовать метод #chisq. test () в другом шаблоне, показанном ниже.
Здесь,
люди: представляет собой числовой вектор фактических частот (то есть этот вектор, хранящий все частоты в числовом формате)
представляет собой числовой вектор для ожидаемых пропорций (не равных ожидаемых частотах).
chisq.test(people,p=prob) #Output: Chi-squared test for given probabilities data: people X-squared = 5.2, df = 4, p-value = 0.2674
Заключение
Сравните значение p с α (0,05). Мы получили p-значение ›alpha. Не отвергайте нулевую гипотезу.
Интерпретация
Нулевая гипотеза не отклоняется, что означает, что клиенты следуют тому же распределению, что и заявлено.
Недостаточно доказательств того, что реальное распределение прибывающих людей отличается от распределения, заявленного продавцом фруктов.
Надеюсь, статья вам понравилась. Свяжитесь со мной в моих LinkedIn и twitter.
Рекомендуемые статьи
1. 8 идей для активного изучения модуля Python Collection
2. NumPy: линейная алгебра на изображениях
3. Концепции обработки исключений в Python
4. Pandas: Работа с Категориальные данные
5. Гиперпараметры: RandomSeachCV и GridSearchCV в машинном обучении
6. Полностью объясненная линейная регрессия с Python
7. Полностью объясненная логистическая регрессия с Python < br /> 8. Распределение данных с помощью Numpy с Python
9. Деревья решений против случайных лесов в машинном обучении
10. Стандартизация предварительной обработки данных с помощью Python