Обновление статистики, чтобы начать путешествие в области науки о данных
Карлу Пирсону, британскому математику и, возможно, отцу современной статистики, приписывают цитату:
«Статистика - это грамматика науки»
Здесь мы просто сосредоточимся на статистике, связанной с наукой о данных
- посмотрите, что я там сделал? 😄
Библиотеки машинного обучения, такие как Tensorflow или scikit-learn, скрывают от пользователя почти всю сложную математику.
Это означает, что нам не нужно быть экспертами в математике, но это определенно необходимо. иметь базовое понимание основных принципов; это поможет нам лучше использовать эти библиотеки.
Я начинаю серию из 5 коротких статей, которые будут охватывать следующие темы, чтобы дать толчок нашему путешествию по науке о данных, а затем и сопровождать его:
Часть 1: Типы данных | Меры центральной тенденции | Меры изменчивости
Часть 2: Распределение данных
Часть 3: Меры местоположения | Моменты
Часть 4: Ковариация | Корреляция
Часть 5: Условная вероятность | Теорема Байеса
Начнем с части 1️⃣…
Типы данных
Мы не можем пойти более базовым образом: данные разделены на три категории, на основании которых специалист по данным выбирает, как их анализировать и обрабатывать:
№1. Числовые данные представляют собой некоторую поддающуюся количественной оценке информацию, которая поддается измерению и делится на две подкатегории:
- Дискретные данные, основанные на целых числах (например, количество людей).
- Непрерывные данные в десятичном формате (например, цена, расстояние, температура).
№2. Категориальные данные - это качественные данные, которые используются для классификации данных по категориям (подумайте о перечислении в программировании). Например, пол, марки автомобилей, страна проживания и т. Д.
Иногда мы можем присвоить категориям числа, чтобы они были более компактными, но не имели никакого математического значения.
№3. Порядковые данные представляют собой дискретные и упорядоченные единицы, например ранг в лиге чемпионов (1-й, 2-й, 3-й), приоритет ошибок (низкий, критический или показушный) или рейтинг отеля (1–5 *).
Меры центральной тенденции
Предположим, у нас есть набор данных из 5 чисел:
{ 6, 3, 100, 3, 13 }
Иметь в виду
Среднее значение (представленное греческой буквой mu— μ) - это среднее для набора данных. Чтобы вычислить среднее значение, мы суммируем все значения и делим его на количество значений.
E.g. 6 + 3 + 100 + 3 + 13 = 125 → μ = 125 ÷ 5 = 25
Медиана
Медиана - это середина набора данных. Чтобы вычислить медиану, мы сортируем все значения (в порядке возрастания или убывания) и берем то, что находится посередине.
E.g. 3, 3, 6, 13, 100 → 6
Если имеется четное количество точек данных, мы вычисляем среднее из двух, которые попадают в середину.
Медиана менее восприимчива к выбросам, чем среднее значение, и поэтому нам необходимо принять во внимание, как выглядит распределение данных, чтобы выбрать, какое из них использовать.
Режим
Режим - это наиболее распространенное значение в наборе данных. Чтобы вычислить режим, мы находим число, которое встречается чаще.
E.g. 3:2, 6:1, 13:1, 100:1 → 3
Режим обычно применим только к дискретным числовым данным, но не к непрерывным данным.
Меры изменчивости
Диапазон
Диапазон - это разница между наименьшим и наибольшим номером набора данных. Для расчета диапазона мы вычитаем минимум из максимального значения.
E.g. 100 – 3 = 97
Он показывает нам, насколько разнообразен набор данных, то есть насколько он разброс, но опять же, как и среднее значение, он действительно чувствителен к выбросам.
Дисперсия
Дисперсия определяет, насколько разбросаны данные. Чтобы вычислить дисперсию, мы берем среднее значение квадратов разностей от среднего.
- №1. Найдите среднее значение точек данных
From previous section it is 25
- №2. Вычтите среднее значение из каждой точки данных.
6 - 25 = -19 3 - 25 = -22 100 - 25 = 75 3 - 25 = -22 13 - 25 = -12
- №3. Возведите каждый результат в квадрат
(-19)^2 = 361 (-22)^2 = 484 (75)^2 = 5,625 (-22)^2 = 484 (-12)^2 = 144
- №4. Найдите среднее значение результатов (т. е. просуммируйте и разделите на n)
361 + 484 + 5,625 + 484 + 144 = 7,098 → 7,098 ÷ 5 = 1,419.6
✏️ «Сумма квадратов»
На шаге № 3 мы используем квадрат разницы двояко:
- отрицательные различия имеют такое же влияние, как и положительные, то есть они не отменяют друг друга
- он усиливает влияние выбросов в наборе данных.
✏️ Полнота данных
Для шага 4 существует тонкое различие в зависимости от того, насколько полон наш набор данных:
- Для полной генеральной совокупности мы делим ее на количество точек данных (n), то есть шаг 4 был правильным, так как в нашем случае у нас была полная популяция.
- Для выборок мы делим на количество точек данных минус 1 (n - 1).
7,098 ÷ 4 = 1774.5
Среднеквадратичное отклонение
Стандартное отклонение (представленное греческой буквой сигма - σ) - это всего лишь квадратный корень из дисперсии.
E.g. σ = SQRT(1,419.6) = 37.68
Это мера дисперсии с точки зрения того, на сколько стандартных отклонений она отличается от среднего, и, как мы увидим в следующей статье, она используется для определения того, какая точка данных является выбросом.
100 was a rather big number in our example, let's see how many standard deviations it is away from the mean: μ = 25 σ = 37.68 100 / 37.68 = 2.65
Спасибо за прочтение! Скоро Часть 2…
Я регулярно пишу о технологиях и данных на Medium - если вы хотите читать мои будущие сообщения, пожалуйста, Подписывайтесь на меня!