Изучение и количественная оценка изменений — это то, что вы узнали в контексте вероятности, и важные концепции, такие как случайные величины и закон больших чисел (эмпирическое правило), будут играть центральную роль в этом посте.
0. Голы
- изучить основательное введение в математическую теорию, лежащую в основе статистических методов
- получить теоретические гарантии для статистических методов, которые вы можете использовать для определенных приложений
- теоретические гарантии позволяют сравнивать методы (какой метод лучше других)
- сформулировать статистическую задачу в математических терминах
- выбрать подходящие статистические методы для задач
- понимать последствия и ограничения различных методов
1. Что такое статистика?
Статистика, наука о данных, машинное обучение, искусственный интеллект — в чем разница?
- Все используют данные, чтобы собирать информацию и в конечном итоге принимать решения.
- Статистика лежит в основе части обработки данных
- В настоящее время вычислительные аспекты играют важную роль, поскольку данные становятся все больше.
- статистические идеи преподаются через алгоритмические идеи
Экстраполируйте от небольшого количества данных или даже большого количества данных до потенциально бесконечного. Чтобы понять случайность, нам нужна ВЕРОЯТНОСТЬ.
бывший. как можно использовать независимость?
Вероятность, статистика и моделирование
Вероятность изучает случайность (отсюда предпосылка)
Иногда физический процесс полностью известен: кости, карты…
- Игра в кости — хорошо известный случайный процесс из физики: 1/6 шанса каждой стороны (данные не нужны!), кости независимы. Мы можем вывести вероятность результатов и ожидаемые суммы в долларах. Это вероятность.
- А как насчет более сложных процессов? Необходимо оценить параметры по данным. Это статистика. Иногда реальная случайность (случайный студент, необъективная монета, ошибка измерения...)
- Иногда детерминированное, но слишком сложное явление: статистическое моделирование
››››› Сложный процесс «=» Простой процесс + случайный шум - (хорошо) Моделирование заключается в выборе (правдоподобного) простого процесса и распределения шума.
Вероятность против статистики
Вероятность. Предыдущие исследования показали, что эффективность препарата составляет 80%. Тогда мы можем ожидать, что для исследования 100 пациентов в среднем 80 будут вылечены, и по крайней мере 65 будут вылечены с вероятностью 99,99%.
-› используйте правду, как может выглядеть наблюдение.
Статистика- Обратите внимание, что 78 из 100 пациентов были вылечены. Мы (сможем) заключить, что мы на 95% уверены, что в других исследованиях препарат будет эффективен у 69,88% и 86,11% пациентов.
-› с наблюдениями предсказать, что другие наблюдения могут выглядеть как
→ 확률은 결과를 예측/추론 하는 것이고, 통계는 관찰을 바탕으로 모수를 추정하는 것
Статистический эксперимент
"Неонатальное правостороннее предпочтение вызывает неожиданное романтическое появление в более позднем возрасте".
- Пусть p обозначает долю пар, которые поворачивают голову вправо при поцелуе.
- Давайте спланируем статистический эксперимент и проанализируем его результаты.
- Наблюдайте за n целующимися парами и собирайте значение каждого результата (скажем, 1 для ПРАВИЛЬНОГО и 0 для ЛЕВОГО)
- Оцените p с пропорцией ˆp от RIGHT.
- Исследование: «Поведение человека: сохранение асимметрии поворота головы у взрослых» (Nature, 2003): n = 124 и 80 вправо, поэтому ˆp = 64,5%
Случайная интуиция
Вернемся к данным:
- 64,5% намного больше, чем 50%, поэтому, похоже, предпочтение отдается повороту направо.
- Что, если бы наши данные были ПРАВИЛЬНЫМИ, ПРАВИЛЬНЫМИ, ЛЕВЫМИ (n = 3). Это 66,7% вправо. Даже лучше?
- Интуитивно нам нужен достаточно большой размер выборки n, чтобы сделать вызов. На сколько большой?
- По-другому сформулируем задачу: при n = 124 какое минимальное количество пар «направо» вам нужно увидеть, чтобы убедиться, что p > 50%? 63? 72? 75? 80?
→ Нужно математическое моделирование, чтобы понять точность этой процедуры?
Первый оценщик
Формально эта процедура состоит из следующих действий:
- Для i = 1, . . . ,n, определим Ri = 1, если i-я пара поворачивает направо ВПРАВО, Ri = 0 в противном случае.
- Оценка p – это
Какова точность этой оценки?
Чтобы ответить на этот вопрос, мы предлагаем статистическую модель, которая хорошо описывает/аппроксимирует эксперимент. Мы думаем о Ri как о случайных величинах, так что ˆp также является случайной величиной. Нам нужно понять его колебания.
Предположения моделирования
Создание модели состоит из предположений о наблюдениях Ri, i = 1, . . . ,n для того, чтобы сделать статистические выводы. Вот предположения, которые мы делаем:
- Каждый Ri является случайной величиной.
- Каждая из с.в. Ri является бернуллиевским с параметром p.
- Р1, . . . ,Rn взаимно независимы.
→ Ri 가 베르누이 분포를 따르는 이유는, Ri는 가질 수 있는 값이 0과 1, 즉, binary 값을 갖기 때문이 다. 이렇게 p에 따라 두 개의 값을 가지는 확률 변수를 베르누이 분포를 따르는 확률변수라고 한 다.
Давайте обсудим эти предположения.
- Случайность — это способ моделирования отсутствия информации; имея точную информацию об условиях поцелуя (включая то, что происходит в сознании целующихся), физика или социология позволили бы нам предсказать результат.
- Следовательно, Ri обязательно являются с.в. Бернулли. так как Ri ∈ {0, 1}. У них все еще может быть другой параметр Ri ~ Ber(pi) для каждой пары, но у нас недостаточно информации с данными, чтобы точно оценить число пи. Поэтому мы просто предполагаем, что наши наблюдения происходят из одного и того же процесса: pi = p для всех i.
→ 이라고 가정, пи는 p의 확률을 갖는 베르누이분포를 따름. - Независимость разумна (людей наблюдали в разных местах и в разное время)
→ 하지는 않을 것임. 따라서 커플들이 키스를 하는 행위를 독립 행위라 가정하자는 뜻
Население против выборок
- Предположим, что общая численность населения составляет 5000 пар, «целующихся в аэропорту».
- Предположим ради аргумента, что p = 35% или что p = 65%.
- Как выглядят выборки размера 124 в каждом случае?
→ p와 1-p 어느쪽으로 гистограмма을 돌리던, 결과는 똑같다. 모수p를 기준으로, 정규분포 형태를 띄고 있음. 위 그림이 의미하는 것은, 키스를 하여 오른쪽으로 고개가 돌아갈 확률이 p인 베르누이 분포 를 따르는 5000개 커플이 있을 때, 그 중 124개의 sample 만 뽑아서 확률 p_hat을 계산한 것.
Почему вероятность?
Нам нужно понять вероятностные аспекты распределения случайной величины:
В частности, мы должны быть в состоянии ответить на такие вопросы, как:
- Близко ли ожидаемое значение ˆp к неизвестному p?
- Принимает ли ˆp значения, близкие к p, с высокой вероятностью?
- Велика ли дисперсия ˆp? т.е. ˆp сильно колеблется?
→ Нам нужны вероятностные инструменты! Большинство из них являются средними независимыми случайными величинами.
ссылки. MITx 18,6501x Основы статистики