Это первая часть статьи из трех частей, в которой я объясню доверительный интервал и как его использовать на практике. В этой статье объясняются основы доверительного интервала.

В Индии каждые шесть месяцев у нас проходят какие-то выборы, будь то выборы в штате, выборы в местные органы власти и т. д. Предположим, вы работаете в исследовательской компании, и ваша задача — провести предварительный анализ выборов в штате. Пусть «X» будет избирательным округом, для которого вы проводите предварительный анализ, и есть два конкурирующих кандидата. Ваша задача как исследователя — узнать общее количество людей, которые проголосуют за кандидата А, и общее количество людей, которые проголосуют за кандидата Б. Предположим, что общая численность населения избирательного округа составляет 100 тысяч человек.

Один из способов — подойти к каждому человеку в округе со 100 000 населением и спросить их. Сделав это, мы получим общее количество людей, поддерживающих кандидата А и кандидата Б. Пусть p будет долей людей, поддерживающих кандидата А. p называется долей населения.

Но опросить все 100 тысяч человек будет нереально. Итак, еще один способ сделать это — провести выборку населения. Затем мы спросим мнение всех людей в этой выборке. Пусть p будет общим числом людей из этой выборки, поддерживающих кандидата А. p называется долей выборки.

Допустим, мы берем выборку (S1) из 100 человек из всего населения. Мы вычисляем количество людей, поддерживающих A. Пусть p1A=0,54 будет общим процентом людей, поддерживающих кандидата A из выборки 1. Точно так же мы можем взять другую выборку (S2) и вычислить p2A=0,51. Вычисление p1A, p2A и т. д. называется точечной оценкой, поскольку мы вычисляем одно значение из выборки. Значение p будет меняться каждый раз, поскольку оно зависит от выбранной нами выборки. Мы можем аппроксимировать долю выборки до доли населения.

Возникает вопрос, насколько можно доверять этому значению точечной оценки и какое значение выбрать, так как оно меняется вместе с выборкой.

В качестве альтернативы точечной оценке, что, если нам дан интервал, в котором находится моя доля населения. Наряду с интервалом, что, если нам дали вероятность того, что доля населения находится в пределах этого интервала. В нашем случае вместо того, чтобы найти только одно значение, что если мы найдем интервал, между которым кандидат А получит голоса с некоторой вероятностью. Эта вероятность говорит об уверенности в нахождении доли населения в пределах этого интервала. Это идея доверительного интервала.

Таким образом, доверительный интервал — это диапазон значений, между которыми мы можем ожидать, что наша доля населения попадет, если мы проведем наш тест несколько раз с определенным уровнем достоверности. В нашем случае, если нам дано, что кандидат А наберет голоса в интервале [0,51,0,56] с достоверностью 95%, то это гораздо информативнее точечной оценки.

Во второй части статьи мы увидим, как можно рассчитать доверительный интервал для конкретного распределения.