Статистика - это грамматика науки о данных - Часть 1/5

Обновление статистики, чтобы начать путешествие в области науки о данных

Карлу Пирсону, британскому математику и, возможно, отцу современной статистики, приписывают цитату:

«Статистика - это грамматика науки»

Здесь мы просто сосредоточимся на статистике, связанной с наукой о данных
- посмотрите, что я там сделал? 😄

Библиотеки машинного обучения, такие как Tensorflow или scikit-learn, скрывают от пользователя почти всю сложную математику.
Это означает, что нам не нужно быть экспертами в математике, но это определенно необходимо. иметь базовое понимание основных принципов; это поможет нам лучше использовать эти библиотеки.

Я начинаю серию из 5 коротких статей, которые будут охватывать следующие темы, чтобы дать толчок нашему путешествию по науке о данных, а затем и сопровождать его:

Часть 1: Типы данных | Меры центральной тенденции | Меры изменчивости
Часть 2: Распределение данных
Часть 3: Меры местоположения | Моменты
Часть 4: Ковариация | Корреляция
Часть 5: Условная вероятность | Теорема Байеса

Начнем с части 1️⃣…

Типы данных

Мы не можем пойти более базовым образом: данные разделены на три категории, на основании которых специалист по данным выбирает, как их анализировать и обрабатывать:

№1. Числовые данные представляют собой некоторую поддающуюся количественной оценке информацию, которая поддается измерению и делится на две подкатегории:

Дискретные данные, основанные на целых числах (например, количество людей).
Непрерывные данные в десятичном формате (например, цена, расстояние, температура).

№2. Категориальные данные - это качественные данные, которые используются для классификации данных по категориям (подумайте о перечислении в программировании). Например, пол, марки автомобилей, страна проживания и т. Д.
Иногда мы можем присвоить категориям числа, чтобы они были более компактными, но не имели никакого математического значения.

№3. Порядковые данные представляют собой дискретные и упорядоченные единицы, например ранг в лиге чемпионов (1-й, 2-й, 3-й), приоритет ошибок (низкий, критический или показушный) или рейтинг отеля (1–5 *).

Меры центральной тенденции

Предположим, у нас есть набор данных из 5 чисел:

{ 6, 3, 100, 3, 13 }

Иметь в виду

Среднее значение (представленное греческой буквой mu— μ) - это среднее для набора данных. Чтобы вычислить среднее значение, мы суммируем все значения и делим его на количество значений.

E.g. 6 + 3 + 100 + 3 + 13 = 125 →
     μ = 125 ÷ 5 = 25

Медиана

Медиана - это середина набора данных. Чтобы вычислить медиану, мы сортируем все значения (в порядке возрастания или убывания) и берем то, что находится посередине.

E.g. 3, 3, 6, 13, 100 → 6

Если имеется четное количество точек данных, мы вычисляем среднее из двух, которые попадают в середину.

Медиана менее восприимчива к выбросам, чем среднее значение, и поэтому нам необходимо принять во внимание, как выглядит распределение данных, чтобы выбрать, какое из них использовать.

Режим

Режим - это наиболее распространенное значение в наборе данных. Чтобы вычислить режим, мы находим число, которое встречается чаще.

E.g. 3:2, 6:1, 13:1, 100:1 → 3

Режим обычно применим только к дискретным числовым данным, но не к непрерывным данным.

Меры изменчивости

Диапазон

Диапазон - это разница между наименьшим и наибольшим номером набора данных. Для расчета диапазона мы вычитаем минимум из максимального значения.

E.g. 100 – 3 = 97

Он показывает нам, насколько разнообразен набор данных, то есть насколько он разброс, но опять же, как и среднее значение, он действительно чувствителен к выбросам.

Дисперсия

Дисперсия определяет, насколько разбросаны данные. Чтобы вычислить дисперсию, мы берем среднее значение квадратов разностей от среднего.

№1. Найдите среднее значение точек данных

From previous section it is 25

№2. Вычтите среднее значение из каждой точки данных.

6 - 25 = -19
3 - 25 = -22
100 - 25 = 75
3 - 25 = -22
13 - 25 = -12

№3. Возведите каждый результат в квадрат

(-19)^2 = 361
(-22)^2 = 484
(75)^2 = 5,625
(-22)^2 = 484
(-12)^2 = 144

№4. Найдите среднее значение результатов (т. е. просуммируйте и разделите на n)

361 + 484 + 5,625 + 484 + 144 = 7,098 →
7,098 ÷ 5 = 1,419.6

✏️ «Сумма квадратов»
На шаге № 3 мы используем квадрат разницы двояко:

отрицательные различия имеют такое же влияние, как и положительные, то есть они не отменяют друг друга
он усиливает влияние выбросов в наборе данных.

✏️ Полнота данных
Для шага 4 существует тонкое различие в зависимости от того, насколько полон наш набор данных:

Для полной генеральной совокупности мы делим ее на количество точек данных (n), то есть шаг 4 был правильным, так как в нашем случае у нас была полная популяция.
Для выборок мы делим на количество точек данных минус 1 (n - 1).

7,098 ÷ 4 = 1774.5

Среднеквадратичное отклонение

Стандартное отклонение (представленное греческой буквой сигма - σ) - это всего лишь квадратный корень из дисперсии.

E.g. σ = SQRT(1,419.6) = 37.68

Это мера дисперсии с точки зрения того, на сколько стандартных отклонений она отличается от среднего, и, как мы увидим в следующей статье, она используется для определения того, какая точка данных является выбросом.

100 was a rather big number in our example, let's see how many standard deviations it is away from the mean:
μ = 25
σ = 37.68
100 / 37.68 = 2.65

Спасибо за прочтение! Скоро Часть 2…

Я регулярно пишу о технологиях и данных на Medium - если вы хотите читать мои будущие сообщения, пожалуйста, Подписывайтесь на меня!

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning