Серия специализаций John Hopkins DS

Что такое P-значение?

Введение в тестирование p-значения и значимости, p-hacking, а также примеры p-значений в R

Full series
Part 1 - What is Data Science, Big data and the Data Science process
Part 2 - The origin of R, why use R, R vs Python and resources to learn
Part 3 - Version Control, Git & GitHub and best practices for sharing code.
Part 4 - The 6 types of data analysis
Part 5 - The ability to design experiments to answer your Ds questions
Part 6 - P-value & P-hacking
Part 7 - Big Data, it's benefits, challenges, and future

Эта серия основана на Специализации в области науки о данных, предлагаемой Университетом Джона Хопкинса на Coursera. Статьи в этой серии представляют собой заметки, основанные на курсе, с дополнительными исследованиями и темами для моих собственных учебных целей. Для первого курса Data Scientist Toolbox примечания будут разделены на 7 частей. Заметки о сериале также можно найти здесь.

Введение

Важный постулат в области науки заключается в том, что не существует неопровержимых теорий, другими словами, не существует того, что называется научным доказательством. То, что стандартизирует и оценивает научную теорию, является свидетельством. Больше + лучшие доказательства = лучшие научные теории и наоборот. Тем не менее, все научные знания, которые у нас есть сегодня, являются предварительными, что означает, что они подлежат подтверждению и являются предположениями (мы делаем все возможное, чтобы понять окружающий нас мир и сформировать теории о них, но они не окончательные и могут быть опровергнуты.)

В статистике то же самое. Невозможно со 100% уверенностью доказать, что, допустим, завтра в 13:00 пойдет дождь, или кто победит на выборах. Все статистические тесты присваивают определенную вероятность имеющимся данным и указывают вероятность того, что результаты являются результатом случайных колебаний в выборке (эталон).

Тем не менее, эта статья будет посвящена тестированию значимости, объяснению того, что такое p-значение на примерах, и тому, как оно используется (p-hacking) в области исследований, что называется кризисом воспроизводимости.

Что такое P-value?

P-значение сообщает вам вероятность того, что полученный результат может быть случайным.

Чтобы получить более конкретное представление о том, что такое p-значения, мы рассмотрим их с точки зрения исследования, то есть как они используются в статистическом анализе или тестах - тестировании значимости.

Но сначала вам нужно знать следующие термины:

  • P-значение
  • Нулевая гипотеза (если отвергнута, ура)
  • Альтернативная гипотеза

А теперь к примеру: классическая музыка и фокус.

Допустим, проводится эксперимент, чтобы выяснить, улучшает ли прослушивание классической музыки концентрацию внимания. Для этого они назначают 100 человек сидеть в комнате и должны пройти тест на концентрацию в наушниках и послушать классическую музыку. Затем у них есть еще 100 человек, которые участвуют в указанном тесте без музыки. Затем сравниваются результаты обеих этих групп.

В приведенном выше эксперименте:

Нулевая гипотеза = нет разницы между классической музыкой и отсутствием классической музыки

Альтернативная гипотеза = в принципе противоположное, разница есть ...

Чтобы доказать, что прослушивание классической музыки увеличивает концентрацию внимания, экспериментаторы должны уметь отвергать нуль, который обычно является большим препятствием, которое исследователи должны преодолеть. Если они не могут этого сделать, то есть у них недостаточно доказательств или данных, чтобы опровергнуть это.

В этом случае, скажем, экспериментаторы провели статистический анализ данных и пришли к очень маленькому p-значению, они радуются и публикуют статьи по этой теме.

Итак, что снова означает небольшое (значимое) p-значение? Вот несколько ключевых моментов

  • он говорит вам, насколько редки результаты
  • это означает, что числа, которые вы получили, редко встречаются случайно
  • например, p-значение = 0,01, это означает, что если вы воспроизвели эксперимент (с теми же условиями) 100 раз, и если предположить, что нулевая гипотеза верна, вы увидите результаты только 1 раз. ИЛИ в случае, если нулевая гипотеза верна, есть только 1% шанс увидеть результаты.

Если задуматься, если достижение p-значения менее 0,05 означает подтверждение своего исследования и позволяет им публиковать его в статьях, очень заманчиво намеренно взломать это значение в свою пользу, и именно это и произошло.

Кризис воспроизводимости

Вкратце, этот кризис связан с исследованиями и экспериментами в области науки, которым необходимо достичь золотого числа

P-взлом

  • исчерпывающий поиск наборов данных, чтобы найти закономерности и корреляции, которые кажутся статистически значимыми благодаря огромному количеству выполненных тестов
  • АКА дноуглубительные работы
  • О ложных корреляциях можно сообщить как о значительных, если вы выполните достаточно тестов, вы сможете найти набор данных и анализ, которые покажут, что вы хотите видеть.

P-hacking также может быть связан с большими данными и лучшими технологиями, которые у нас есть сегодня, которые позволяют быстро проводить эти тесты.

Чтобы увидеть пример P-hacking в действии, ознакомьтесь с отличной статьей FiveThirtyEight, в которой есть живой рабочий пример, с которым вы можете поиграть.

Пример P-значения в R

Просто простой пример того, где вы можете встретить p-значения, вот пример модели линейной регрессии с использованием Boston Dataset, наряду с F-статистикой модели, которая содержит p-значения.

Код

library(MASS) # library for loading datasets
fit = lm(medv ~ lstat, data = Boston) # regression model medv against lstat
summary(fit) # shows you summary about your model

Вывод

Это изображение выше показывает F-статистику теста значимости с использованием функции summary().

Предпосылки для этого теста значимости включают в себя то, что член ошибки ϵ в модели не зависит от x и имеет нормальное распределение, с нулевым средним и постоянной дисперсией. И установив уровень значимости на 0,05

Короче говоря, если вы посмотрите в правом нижнем углу, вы увидите p-value < 2.2e-16. Это означает, что p-значение намного меньше 0,05, что означает, что мы можем отклонить нулевую гипотезу о том, что β = 0. Следовательно, существует значимая взаимосвязь между переменными lstat и mdev в линейной регрессии. модель.

Точно так же p-значения также помогают определить, существуют ли отношения, наблюдаемые в выборке, и в большей популяции. Таким образом, если p-значения статистически значимы, есть основания сделать вывод, что эффект существует также на уровне популяции.

Конечно, p-значения просто говорят вам о существовании корреляции. Чтобы определить, насколько хорошо ваша модель соответствует данным, здесь используются значения R-квадрата. Более того, остаточные ошибки - это «ошибки» в вашей модели (расстояние между линией регрессии и точкой данных), а F-статистика просто сравнивает совместное влияние переменных (чем больше, тем лучше). Все это важные элементы в интерпретации вашей проверки гипотез.

Подробнее о вышеупомянутой регрессии в моей записной книжке kaggle. Если вы хотите получить полное представление, ознакомьтесь с этой статьей. И еще одна статья об интерпретации P-значений и коэффициентов в регрессионном анализе здесь.

Резюме

Сознание - продукт таинственного, невыразимого механизма, лежащего в основе передачи электрических сигналов между 86 миллиардами нейронов в нашем мозгу - одаренное человечество способностью получать субъективный опыт о нашем окружении, размышлять о прошлом, настоящем и будущем, задавать вопросы о мире, постигать непостижимое.

Наши невероятные умы породили множество удивительных открытий и прорывов, а наши многочисленные способы рассуждений о мире помогли нам упростить сложное вокруг нас. Но с развитием информации и технологий, которые ускоряют взаимодействие и объединяют мир, приходят жертвы истины и чума дезинформации. Таким образом, мы должны понимать, что у всех нас есть предубеждения, и мы склонны действовать на основе стимулов, и наше внимание в этом современном мире постоянно капитализируется технологиями.

Чтобы справиться с этим, мы должны сознательно относиться к своим действиям, размышлять о них и учиться на своих ошибках. Мы должны научиться сосредотачивать свое внимание на том, что имеет значение, стремиться к тому, что имеет значение, а не к тому, что целесообразно, окружать себя хорошими людьми и действовать не из эгоизма, а для большего блага общества и мира.

Краткое изложение условий

  • P-значение - способ признать риски того, что мы ошибаемся, когда мы говорим, что нулевая гипотеза неверна (еще один способ просмотра p-значений).
  • Нулевая гипотеза - разница между двумя образцами просто случайна.
  • P-hacking - преднамеренный поиск наборов данных для нахождения закономерностей и корреляции, которые получают статистически значимое значение при простом количестве выполненных тестов.

Следует помнить несколько ключевых моментов:

  • Значимое p-значение не означает качество работы.
  • P-значения не говорят вам о вероятности того, что результат будет верным, это просто результат статистического теста.
  • Невозможно доказать / опровергнуть гипотезы, можно только отвергнуть нулевую гипотезу и поддержать альтернативную гипотезу.

Джордан Элленберг, автор книги Как не быть неправым: сила математического мышления дает прекрасные идеи относительно проверки значимости:

Тест на значимость - это детектив, а не судья. Провокационный и настолько статистически значимый результат - не завершение научного процесса, а его голое начало.

И краткое изложение нулевой гипотезы:

  1. Проведите эксперимент
  2. Предположим, что нулевая гипотеза верна, и пусть p будет вероятностью (согласно этой гипотезе) получения таких экстремальных результатов, как наблюдаемые.
  3. Число p называется p-значением.
  4. Если очень мало, радуйтесь; вы можете сказать, что ваши результаты статистически значимы.
  5. Если он большой, согласитесь, что нулевая гипотеза не была исключена.

В заключение этой статьи расскажу немного правды о том, что такое статистика.

Цель статистики не в том, чтобы сказать нам, чему верить, а в том, чтобы сказать нам, что делать. Статистика - это принятие решений, а не ответы на вопросы. - Джордан Элленберг

Спасибо за чтение и будьте в безопасности.

Больше статей о P-значениях и статистической значимости

Если вы заинтересованы в изучении науки о данных, ознакомьтесь с этой серией статей о науке о данных «Ультра-обучение»!



Как« сверхобучиться науке о данных - часть 1
Это краткое руководство, основанное на книге Ультраобучение , в применении к науке о данных medium.com »



Ознакомьтесь с другими статьями, посвященными науке о данных.









Контакты

Если вы хотите быть в курсе моих последних статей, подписывайтесь на меня на Medium.

Следите также за другими моими профилями в социальных сетях!

Следите за моей следующей статьей и не забывайте оставаться в безопасности!