Существует два типа ошибок при проверке гипотез: один тип I, а другой тип II.
Ошибка типа I. Ошибка возникает, когда мы отклоняем правильную нулевую гипотезу. также, to называется ложным срабатыванием. Вероятность совершения ошибки такого типа равна α (уровень значимости).
Ошибка типа II. Эта ошибка возникает, когда мы принимаем ложную нулевую гипотезу. также он называется ложноотрицательным. Вероятность совершения этой ошибки обозначается β. β зависит от размера выборки n. Вероятность отклонения нулевой гипотезы равна 1-β. 1-β, также известный как мощность теста. Как я упоминал ранее, мы всегда пытаемся отвергнуть нулевую гипотезу. Ниже представлено графическое представление ошибок первого и второго рода.
Пока что у нас есть некоторое представление об ошибках типа I и типа II. Теперь мы знаем, почему возникают обе ошибки.
Причина ошибки типа I:
- Уровень значимости определяется до проверки гипотезы
- Размер выборки не учитывается.
- Это может произойти из-за случайности.
- Его можно уменьшить, понизив уровень значимости.
Причина ошибки типа II:
- Статистический тест недостаточно мощен.
- Это связано с меньшим объемом выборки.
- Это может скрыть уровень значимости тестируемых элементов.
- Его можно уменьшить, повысив уровень значимости.
На самом деле обе ошибки взаимосвязаны, уменьшение одной может увеличить вероятность другой.
Значения P: значение p обозначает значение вероятности. Это тип статистического измерения, который мы использовали для проверки проверки гипотезы на основе наблюдаемых данных. Если значение P достаточно мало, мы можем заключить, что выборка настолько несовместима с нулевой гипотезой, что мы можем отклонить нулевое значение для всей совокупности. Значения P являются неотъемлемой частью логической статистики, поскольку они помогают нам использовать выборочные данные, чтобы делать выводы о населении. Приведем пример гипотетического исследования лекарств. Представьте, что проверка гипотезы генерирует значение P, равное 0,03. мы можем интерпретировать так: если лекарство не оказывает влияния на популяцию в целом, 3% исследований получат эффекты, наблюдаемые в выборке, или большие из-за случайной ошибки выборки. Мы можем отклонить нулевую гипотезу, если p-значение ниже уровня значимости. Значения P обычно находятся с 3 цифрами после разделителя (точка x.xxx). Чем ближе к 0,000 значение p, тем лучше у нас есть. Значение P — это универсальная концепция, которая работает с любым дистрибутивом. Например, нормальное, биномиальное, равномерное, распределение Стьюдента-Т и т. д. Мы можем использовать калькулятор p-значения для расчета.
Я проведу проверку гипотезы для среднего значения, когда дисперсия населения известна, а дисперсия населения неизвестна. и для среднего, когда выборка зависима, а выборка независима.
Для известной дисперсии я буду использовать Z-статистику, а для неизвестной дисперсии буду использовать T-статистику.