Почему статистика

Статистика представляет информацию в простой форме.

Дает вам представление о данных, над которыми вы работаете.

В этом блоге мы будем работать с набором данных, чтобы понять несколько концепций статистики.

Набор данных представляет собой список полов, роста и веса.

Импортируйте необходимые библиотеки

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Прочитайте данные и получите первые строки DataFrame

data = pd.read_csv(‘files/weight-height.csv’)

Подсчитать

  • Количество является описательной статистикой и подсчитывает наблюдения.
  • Число чаще всего используется в статистике и имеет большое значение для оценки результатов.
  • Пример. Делается вывод о весе детей, а в исследовании было всего 12 детей (наблюдений). Это заслуживает доверия?
  • Количество что-то говорит о качестве исследования.
  • Подсчитайте группы, чтобы увидеть значимость результатов.
data.groupby(‘Gender’).count()

Среднее

Возвращает среднее значение значений по запрошенной оси.

data.groupby(‘Gender’).mean()

Стандартное отклонение

  • Стандартное отклонение – это показатель того, насколько разбросаны (разбросаны) данные по отношению к среднему значению.
  • Низкое стандартное отклонение означает, что данные близки к среднему значению.
  • Высокое стандартное отклонение означает, что данные разбросаны.
data.groupby(‘Gender’).std()

На приведенной выше диаграмме мы можем наблюдать, если мы возьмем 3 образца самцов (несколько раз), 2 из них, вероятно, будут в пределах одного стандартного отклонения от среднего значения.

Описать

Описательная статистика включает те, которые обобщают центральную тенденцию, дисперсию и форму распределения набора данных, за исключением значений NaN.

data.describe()

Коробчатые диаграммы

  • Блочные диаграммы — отличный способ визуализировать описательную статистику.
  • Обратите внимание, что Q1: 25%, Q2: 50% и Q3: 75%.
  • Блочные диаграммы также помогают нам идентифицировать выбросы.
  • Создайте график типа «ящик с усами» из столбцов DataFrame, при необходимости сгруппированных по некоторым другим столбцам.

data[‘Weight’].plot.box(vert=False)

data[‘Height’].plot.box(vert=False)

Мы можем наблюдать несколько выбросов в приведенных выше BoxPlots (выбросы должны быть удалены для построения правильной модели).

data.boxplot(column=[‘Height’, ‘Weight’])

BoxPlot, сгруппированный по полу

data.boxplot(column=[‘Height’, ‘Weight’], by=’Gender’)

Теперь мы рассмотрим одно из наиболее важных статистических свойств.

Корреляция

  • Можно сказать, что корреляция измеряет линейную зависимость между двумя измеряемыми переменными.
  • Нелинейная связь может нейтрализовать положительные и отрицательные корреляции, что может привести к нулю (отсутствие связи между переменными).
  • Измерьте взаимосвязь между двумя переменными в диапазоне от -1 до 1.

ДИАГРАММА РАСПРЕДЕЛЕНИЯ – отличный инструмент для определения корреляции.

data.plot.scatter(x=’Height’, y=’Weight’, alpha=.1)

data.corr()

Матрица корреляции

Матрица корреляции — это просто таблица, показывающая коэффициенты корреляции между переменными.

data.groupby('Gender').corr()

Использование тепловой карты могло бы быть более полезным.

import seaborn as sns
axis_corr = sns.heatmap(
correlation,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True)

Спасибо, что дочитали до конца. Если вы найдете это полезным, похлопайте в ладоши.

Если вы найдете какие-либо ошибки, не стесняйтесь указывать их в комментариях.

Посмотрите другие мои блоги:







Свяжитесь со мной в Twitter.