Стройте гистограммы рядом, сравнивая пропорции, слои разных групп населения. Подпишитесь на нас, чтобы получить удобные для начинающих и краткие, готовые к использованию руководства, подобные этому. Получите премиум-интервью и полный курс на uniqtech.substack.com.
В этой статье предполагается, что вы знакомы с основными визуализациями данных, такими как гистограмма и точечная диаграмма. В этом руководстве используется дополнительное третье измерение: оттенок для создания параллельного графика. Эта визуализация отображает несколько вертикальных полос из двух или более популяций на одном графике.
На этой странице StackOverflow вы можете увидеть классический набор данных Titantic, визуализированный по классам и полу. Источник здесь
Во-первых, это данные пропорции или отношения, которые мы будем использовать в этом уроке.
Есть две популяции с заранее рассчитанными пропорциями. Реальным сценарием может быть количество учащихся мужского и женского пола на уроках информатики в группе 1 и на уроках экономики в группе 2. Немного подсчитав в уме и сравнив, читателю нужен всего один дополнительный шаг, чтобы понять, что существует несоответствие. . Мы можем сделать это очевидным, используя визуализацию Seaborn.
Обратите внимание, что приведенная выше диаграмма уже является сводной таблицей. Часто вам нужно будет рассчитать собственные пропорции и сводную таблицу из тысяч и даже миллионов строк. Обратите внимание, что если вы используете счетную диаграмму для этой задачи, пропорция не получится правильной, если вы не выполните некоторую предварительную обработку. Студенты, изучающие нанодиплом машинного обучения в Udacity, могут столкнуться с этой задачей в своем окончательном проекте по сегментации клиентов. Этот график очень полезен для сегментации клиентов. Для предварительной обработки используйте анализ Pandas.
В этом уроке мы сосредоточимся на части визуализации. Давайте переведем эту диаграмму в фрейм данных Pandas, что значительно упростит построение диаграмм оттенков.
На самом деле нам пришлось расширить таблицу, сделав ее немного более сложной и избыточной, чтобы API-интерфейс Seaborn Barplot с оттенком работал без проблем. Мы предпочитаем предварительно рассчитывать пропорции, потому что знаем, что можем доверять числу. Агрегация с использованием программного языка хороша в теории, но подвержена ошибкам. Однако всегда можно использовать агрегатные функции для перепроверки работы.
Эта избыточность позволяет нам использовать группу в качестве оси x и пол в качестве оттенка.
Импортировать библиотеки
import pandas as pd import seaborn
Преобразовать таблицу в Pandas Series и DataFrame
df = pd.DataFrame() df['percent'] = pd.Series([0.64, 0.36, 0.49, 0.51]) df['gender'] = pd.Series(['M','F','M','F']) df['group'] =pd.Series([1,1,2,2])
Сюжет с гистограммой Seaborn с оттенком пола
Первые два измерения наших данных — это оси x и y. В данном случае X — это группа, а y — процент. Оттенок, третье измерение, это пол.
seaborn.barplot(x='group',y='percent',data=df, hue='gender')
Конечный результат: график Seaborn