Обновление статистики, чтобы начать путешествие в области науки о данных

Карлу Пирсону, британскому математику и, возможно, отцу современной статистики, приписывают цитату:

«Статистика - это грамматика науки»

Здесь мы просто сосредоточимся на статистике, связанной с наукой о данных
- посмотрите, что я там сделал? 😄

Библиотеки машинного обучения, такие как Tensorflow или scikit-learn, скрывают от пользователя почти всю сложную математику.
Это означает, что нам не нужно быть экспертами в математике, но это определенно необходимо. иметь базовое понимание основных принципов; это поможет нам лучше использовать эти библиотеки.

Я начинаю серию из 5 коротких статей, которые будут охватывать следующие темы, чтобы дать толчок нашему путешествию по науке о данных, а затем и сопровождать его:

Часть 1: Типы данных | Меры центральной тенденции | Меры изменчивости
Часть 2: Распределение данных
Часть 3: Меры местоположения | Моменты
Часть 4: Ковариация | Корреляция
Часть 5: Условная вероятность | Теорема Байеса

Начнем с части 1️⃣…

Типы данных

Мы не можем пойти более базовым образом: данные разделены на три категории, на основании которых специалист по данным выбирает, как их анализировать и обрабатывать:

№1. Числовые данные представляют собой некоторую поддающуюся количественной оценке информацию, которая поддается измерению и делится на две подкатегории:

  • Дискретные данные, основанные на целых числах (например, количество людей).
  • Непрерывные данные в десятичном формате (например, цена, расстояние, температура).

№2. Категориальные данные - это качественные данные, которые используются для классификации данных по категориям (подумайте о перечислении в программировании). Например, пол, марки автомобилей, страна проживания и т. Д.
Иногда мы можем присвоить категориям числа, чтобы они были более компактными, но не имели никакого математического значения.

№3. Порядковые данные представляют собой дискретные и упорядоченные единицы, например ранг в лиге чемпионов (1-й, 2-й, 3-й), приоритет ошибок (низкий, критический или показушный) или рейтинг отеля (1–5 *).

Меры центральной тенденции

Предположим, у нас есть набор данных из 5 чисел:

{ 6, 3, 100, 3, 13 }

Иметь в виду

Среднее значение (представленное греческой буквой mu— μ) - это среднее для набора данных. Чтобы вычислить среднее значение, мы суммируем все значения и делим его на количество значений.

E.g. 6 + 3 + 100 + 3 + 13 = 125 →
     μ = 125 ÷ 5 = 25

Медиана

Медиана - это середина набора данных. Чтобы вычислить медиану, мы сортируем все значения (в порядке возрастания или убывания) и берем то, что находится посередине.

E.g. 3, 3, 6, 13, 100 → 6

Если имеется четное количество точек данных, мы вычисляем среднее из двух, которые попадают в середину.

Медиана менее восприимчива к выбросам, чем среднее значение, и поэтому нам необходимо принять во внимание, как выглядит распределение данных, чтобы выбрать, какое из них использовать.

Режим

Режим - это наиболее распространенное значение в наборе данных. Чтобы вычислить режим, мы находим число, которое встречается чаще.

E.g. 3:2, 6:1, 13:1, 100:1 → 3

Режим обычно применим только к дискретным числовым данным, но не к непрерывным данным.

Меры изменчивости

Диапазон

Диапазон - это разница между наименьшим и наибольшим номером набора данных. Для расчета диапазона мы вычитаем минимум из максимального значения.

E.g. 100 – 3 = 97

Он показывает нам, насколько разнообразен набор данных, то есть насколько он разброс, но опять же, как и среднее значение, он действительно чувствителен к выбросам.

Дисперсия

Дисперсия определяет, насколько разбросаны данные. Чтобы вычислить дисперсию, мы берем среднее значение квадратов разностей от среднего.

  • №1. Найдите среднее значение точек данных
From previous section it is 25
  • №2. Вычтите среднее значение из каждой точки данных.
6 - 25 = -19
3 - 25 = -22
100 - 25 = 75
3 - 25 = -22
13 - 25 = -12
  • №3. Возведите каждый результат в квадрат
(-19)^2 = 361
(-22)^2 = 484
(75)^2 = 5,625
(-22)^2 = 484
(-12)^2 = 144
  • №4. Найдите среднее значение результатов (т. е. просуммируйте и разделите на n)
361 + 484 + 5,625 + 484 + 144 = 7,098 →
7,098 ÷ 5 = 1,419.6

✏️ «Сумма квадратов»
На шаге № 3 мы используем квадрат разницы двояко:

  • отрицательные различия имеют такое же влияние, как и положительные, то есть они не отменяют друг друга
  • он усиливает влияние выбросов в наборе данных.

✏️ Полнота данных
Для шага 4 существует тонкое различие в зависимости от того, насколько полон наш набор данных:

  • Для полной генеральной совокупности мы делим ее на количество точек данных (n), то есть шаг 4 был правильным, так как в нашем случае у нас была полная популяция.
  • Для выборок мы делим на количество точек данных минус 1 (n - 1).
7,098 ÷ 4 = 1774.5

Среднеквадратичное отклонение

Стандартное отклонение (представленное греческой буквой сигма - σ) - это всего лишь квадратный корень из дисперсии.

E.g. σ = SQRT(1,419.6) = 37.68

Это мера дисперсии с точки зрения того, на сколько стандартных отклонений она отличается от среднего, и, как мы увидим в следующей статье, она используется для определения того, какая точка данных является выбросом.

100 was a rather big number in our example, let's see how many standard deviations it is away from the mean:
μ = 25
σ = 37.68
100 / 37.68 = 2.65

Спасибо за прочтение! Скоро Часть 2

Я регулярно пишу о технологиях и данных на Medium - если вы хотите читать мои будущие сообщения, пожалуйста, Подписывайтесь на меня!