Все основные инструменты статистики, необходимые для начала работы с Data Science / Machine Learning.

Прошли те времена, когда каждому требовались глубокие знания в области статистики, чтобы действительно преуспеть в науке о данных. С автоматизацией множества техник машинного обучения многие новички сразу переходят к коду, даже не зная, что происходит внутри! Однако статистика присутствует во всех сферах науки о данных, будь то визуализация данных, очистка данных или построение модели машинного обучения.

Вы столкнетесь со многими проблемами в области науки о данных, не обладая хорошими знаниями в области статистики. У вас есть данные с таким большим количеством измерений (например, столбцы во фрейме данных pandas) и вы не знаете, как они связаны? или вы застряли на том, какой из многих методов машинного обучения использовать? Эти вопросы - лишь некоторые из множества проблем, с которыми вы могли бы столкнуться, не имея должных знаний в области статистики.

Итак, вот простое руководство, которое поможет вам начать работу со всей необходимой статистикой.

Случайная переменная

Переменная, значения которой являются результатом случайного явления, называется случайной переменной.
Случайные переменные бывают двух типов:

  1. Дискретная случайная переменная: случайные переменные, которые могут принимать одно из значений между конечными значениями, называется дискретной случайной переменной.
    Примеры:
    1. Бросок кости
    x = {1,2,3,4,5,6}
    2. Подбрасывание монеты
    y = {H, T}
    Здесь x и y - дискретные случайные переменные.
  2. Непрерывная случайная переменная. Случайная переменная, которая может принимать любое значение в заданном диапазоне, называется непрерывной случайной переменной.
    Пример: выбор роста человека. Между двумя значениями (от 150 см до 151 см) могут быть сотни людей разного роста.

Выбросы и выбросы

Точки данных, которые находятся слишком далеко от большинства наблюдений, называются выбросами. Это может повредить часть анализа данных и требует осторожного обращения.

Меры центральной тенденции

Иметь в виду

Среднее просто относится к среднему значению наблюдения. Математически это сумма всех наблюдений, деленная на общее количество наблюдений, т.е.

Здесь
x̄ обозначает среднее значение
n обозначает общее количество наблюдений
ΣXi обозначает сумму всех наблюдений

Вот краткий пример среднего для набора наблюдений:
x = [1,2,3,4,5,6]
x̄ = (1 + 2 + 3 + 4 + 5 + 6) / 6
x̄ = 3,5

Среднее значение может быть отличным инструментом для измерения центральной тенденции, но оно не работает в наборе данных, содержащем выбросы.

Медиана

Медиана - это самый средний элемент в наборе наблюдений. Математически это элемент ((n + 1) / 2) ^ th в нечетном числе наблюдений и среднее значение (n / 2) ^ th и (n / 2) ^ th + 1 элемент в четном числе наблюдений, где наблюдения сортируются в порядке возрастания / убывания.

Ниже приведен краткий пример:
Случай 1: нечетное количество наблюдений
x = [1,3,5,6,7,8,9] < br /> Медиана (x) = ((n + 1) / 2) ^ th элемент
Здесь n = 7 (общее количество наблюдений)
Медиана (x) = 4 ^ й элемент
Таким образом, Median (x) = 6

Случай 2. Когда количество наблюдений четное
x = [1,2,3,4,5,6,8,9]
Медиана (x) = Среднее ((n / 2) ^ th, (n / 2) ^ th + 1)
Здесь n = 8
Медиана (x) = Среднее (4 ^ th, 5 ^ th)
Медиана (x) = (4 + 5) / 2
Таким образом, медиана (x) = 4,5

Медиана не чувствительна к выбросам и обеспечивает лучшую производительность, чем среднее значение. Это не удается, только если общее количество выбросов превышает 50%.

Режим

Мода - наиболее часто встречающийся элемент среди всех наблюдений. Математически это максимальное количество вхождений среди всех точек данных.

Ниже приведен пример

Здесь режим наблюдений - 20, так как он происходил чаще, чем все другие наблюдения.
Он также не чувствителен к выбросам.

Другие важные меры

Дисперсия

Это общий разброс данных в наблюдении в квадратах. Математически это среднее значение суммы квадратов разностей между каждым наблюдением и средним значением, т.е.

Здесь
σ² - дисперсия
N - общее количество наблюдений
X - значение для каждого наблюдения
μ - среднее
Следовательно, это квадратичное отклонение наблюдений от среднего. Как это работает со средним. Следовательно, он чувствителен к выбросам.

Стандартное отклонение

Это квадратный корень из дисперсии, который дает нам фактическое отклонение наблюдений от среднего значения. Он также чувствителен к выбросам.

Среднее абсолютное отклонение

Это лучший показатель, который хорошо работает с выбросами, поскольку он рассчитывается на основе медианы. Математически это медиана абсолютного отличия каждого наблюдения от их медианы, т.е.

Среднее абсолютное отклонение = медиана (| Xi-Median (Xi) |)
Здесь Xi относится к каждому распределению.

Процентили

Это часто используется, чтобы получить представление о данных. В наборе данных 25-й процентиль означает, что 25% данных меньше текущего значения, а 75% больше. Например: в CAT 95 процентиль означает, что 95% кандидатов ниже, а 5% выше.

Типы распространения

Наблюдаемые случайные величины чаще всего следуют определенному распределению. Я приведу некоторые из наиболее часто используемых дистрибутивов:

Гауссово распределение

Это распределение также называется нормальным распределением и является одним из наиболее часто используемых в Data Science. PDF (функция плотности вероятности) распределения Гаусса представляет собой кривую колокола. Здесь центральная тенденция лежит на выступе кривой PDF. Он следует правилу под названием 68,95,99.7, которое очень полезно при анализе данных.

На рисунке выше μ - среднее / медианное, σ - стандартное отклонение.

Это правило гласит, что 68% точек данных или наблюдений лежат между μ + σ и μ-σ, 95% точек данных лежат между μ + 2σ и μ-2σ, а 99,7% точек данных лежат между μ + 3σ и μ-3σ. Итак, если мы найдем распределение, которое является гауссовым, мы можем напрямую указать эти точки.
Гауссово распределение также является симметричным по своей природе.

Равномерное распределение

Это распределение, при котором вероятность появления каждого наблюдения одинакова.

В непрерывном равномерном распределении вероятность получения значения между двумя наблюдениями a и b составляет 1 / (ba) и 0 для всех остальных наблюдений. за пределами a и b.

Логнормальное распределение

Предположим, что x следует логарифмически-нормальному распределению, тогда натуральный логарифм x следует нормальному распределению. Он имеет положительный перекос, что означает, что PDF распределения имеет длинный хвост справа.

Примеры из реальной жизни -
Комментарии в сообщении: Большинство комментариев в сообщении очень маленькие, и лишь некоторые из них очень большие. Если вы видите рисунок, то большинство наблюдений находится слева от взгляда, что означает, что имеется большее количество наблюдений с меньшим значением и очень мало наблюдений с большим значением.

использованная литература

  1. Википедия
  2. Вольфрам

Надеюсь, этот пост поможет вам начать работу со статистикой. Я предоставил очень базовые знания, которые почти используются в каждом проекте по науке о данных.

Вот ссылка на мой linkedin- https://www.linkedin.com/in/ashisnayak/