Почему статистика
Статистика представляет информацию в простой форме.
Дает вам представление о данных, над которыми вы работаете.
В этом блоге мы будем работать с набором данных, чтобы понять несколько концепций статистики.
Набор данных представляет собой список полов, роста и веса.
Импортируйте необходимые библиотеки
import pandas as pd import numpy as np import matplotlib.pyplot as plt
Прочитайте данные и получите первые строки DataFrame
data = pd.read_csv(‘files/weight-height.csv’)
Подсчитать
- Количество является описательной статистикой и подсчитывает наблюдения.
- Число чаще всего используется в статистике и имеет большое значение для оценки результатов.
- Пример. Делается вывод о весе детей, а в исследовании было всего 12 детей (наблюдений). Это заслуживает доверия?
- Количество что-то говорит о качестве исследования.
- Подсчитайте группы, чтобы увидеть значимость результатов.
data.groupby(‘Gender’).count()
Среднее
Возвращает среднее значение значений по запрошенной оси.
data.groupby(‘Gender’).mean()
Стандартное отклонение
- Стандартное отклонение – это показатель того, насколько разбросаны (разбросаны) данные по отношению к среднему значению.
- Низкое стандартное отклонение означает, что данные близки к среднему значению.
- Высокое стандартное отклонение означает, что данные разбросаны.
data.groupby(‘Gender’).std()
На приведенной выше диаграмме мы можем наблюдать, если мы возьмем 3 образца самцов (несколько раз), 2 из них, вероятно, будут в пределах одного стандартного отклонения от среднего значения.
Описать
Описательная статистика включает те, которые обобщают центральную тенденцию, дисперсию и форму распределения набора данных, за исключением значений NaN.
data.describe()
Коробчатые диаграммы
- Блочные диаграммы — отличный способ визуализировать описательную статистику.
- Обратите внимание, что Q1: 25%, Q2: 50% и Q3: 75%.
- Блочные диаграммы также помогают нам идентифицировать выбросы.
- Создайте график типа «ящик с усами» из столбцов DataFrame, при необходимости сгруппированных по некоторым другим столбцам.
data[‘Weight’].plot.box(vert=False)
data[‘Height’].plot.box(vert=False)
Мы можем наблюдать несколько выбросов в приведенных выше BoxPlots (выбросы должны быть удалены для построения правильной модели).
data.boxplot(column=[‘Height’, ‘Weight’])
BoxPlot, сгруппированный по полу
data.boxplot(column=[‘Height’, ‘Weight’], by=’Gender’)
Теперь мы рассмотрим одно из наиболее важных статистических свойств.
Корреляция
- Можно сказать, что корреляция измеряет линейную зависимость между двумя измеряемыми переменными.
- Нелинейная связь может нейтрализовать положительные и отрицательные корреляции, что может привести к нулю (отсутствие связи между переменными).
- Измерьте взаимосвязь между двумя переменными в диапазоне от -1 до 1.
ДИАГРАММА РАСПРЕДЕЛЕНИЯ – отличный инструмент для определения корреляции.
data.plot.scatter(x=’Height’, y=’Weight’, alpha=.1)
data.corr()
Матрица корреляции
Матрица корреляции — это просто таблица, показывающая коэффициенты корреляции между переменными.
data.groupby('Gender').corr()
Использование тепловой карты могло бы быть более полезным.
import seaborn as sns axis_corr = sns.heatmap( correlation, vmin=-1, vmax=1, center=0, cmap=sns.diverging_palette(50, 500, n=500), square=True)
Спасибо, что дочитали до конца. Если вы найдете это полезным, похлопайте в ладоши.
Если вы найдете какие-либо ошибки, не стесняйтесь указывать их в комментариях.
Посмотрите другие мои блоги:
Свяжитесь со мной в Twitter.