Встречайте самые сложные функции Pandas, часть II

ИЗМЕНЕНИЕ ФРАМОВ ДАННЫХ С PANDAS

Встречайте самые сложные функции Pandas, часть II

Узнайте, когда и как `crosstab()`

Вступление

Я помню, как мне нравился курс под названием «Промежуточная визуализация данных с помощью Seaborn» на DataCamp. Он обучал довольно крутым сюжетам и методам для DV. Когда дело дошло до тепловых карт, инструктор внезапно представил совершенно новую pandas функцию crosstab(). Затем быстро сказал: «crosstab() - полезная функция, которая вычисляет таблицы кросс-табуляции ...»

Я заблудился прямо здесь. Очевидно, моим первым побуждением было проверить документацию по функции. Я только начинал чувствовать, что могу обрабатывать любую документацию после Matplotlib, и ... я ошибался. Даже примеры были приведены на numpy массивах, а я должен был создавать тепловые карты, используя чертову функцию🤦‍♂️.

После того, как я попрактиковался в этом, я понял, что другие тоже будут бороться с этим. Итак, здесь я пишу об этом целую статью.

В последней части этой статьи я рассказал о том, почему на некоторых курсах не обучают продвинутым функциям, таким как crosstab(). Просто сложно создать контекст, в котором будут полезны такие функции, сохранив уровень примеров для новичка. Кроме того, в большинстве курсов используются небольшие или игрушечные наборы данных. Преимущества таких функций более очевидны в более сложных средах обработки данных и часто используются более опытными pandas пользователями.

В этом посте я научу вас использовать crosstab() и случаи, когда вы выбираете его по сравнению с другими аналогичными функциями. Наслаждаться!

Интерактивное оглавление (только в Интернете)

∘ Введение
∘ Настройка
∘ Pandas crossstab (), основы
∘ Сравнение Pandas crossstab () с pivot_table () и groupby ()
∘ Pandas crossstab (), настройка еще больше
∘ Pandas crossstab (), множественные группировки

Вы можете скачать блокнот этой статьи на этом репозитории GitHub.

Настраивать

В качестве примера данных я буду использовать набор данных diamonds, встроенный в Seaborn. Он достаточно большой и содержит переменные, которые можно суммировать с помощью crosstab():

С этого момента я сделал гиперссылку на документацию каждой функции при их первом появлении.

Панды `crosstab()`, основы

Как и многие функции, вычисляющие сгруппированную сводную статистику, crosstab() работает с категориальными данными. Его можно использовать для группировки двух или более переменных и выполнения вычислений для заданного значения для каждой группы. Конечно, такие операции возможны с использованием groupby() или pivot_table(), но, как мы увидим позже, crosstab() привносит ряд преимуществ в ваш повседневный рабочий процесс.

Функция crosstab() принимает два или более списков, pandas рядов или столбцов фрейма данных и по умолчанию возвращает частоту каждой комбинации. Мне всегда нравится начинать с примера, чтобы вы могли лучше понять определение, а затем я перейду к объяснению синтаксиса.

crosstab() всегда возвращает фрейм данных, и ниже приведен пример. Фрейм данных представляет собой перекрестную таблицу двух переменных из diamonds: cut и color. Кросс-табуляция означает просто взять одну переменную, отобразив ее группы в виде индексов, и взять другую, отобразив ее группы в виде столбцов.

Синтаксис довольно прост. index используется для группировки переменных и отображения их в виде индексов (строк) и то же самое для columns. Если функция агрегирования не указана, каждая ячейка будет вычислять количество наблюдений в каждой комбинации. Например, левая верхняя ячейка сообщает нам о 2834 идеально ограненных алмазах с цветовым кодом D. .

Затем для каждой комбинации мы хотим увидеть их среднюю цену. crosstab() предоставляет параметр values для введения третьей числовой переменной для агрегирования:

Теперь каждая ячейка содержит среднюю цену для каждой комбинации огранки и цвета. Чтобы сказать, что мы хотим вычислить среднюю цену, мы передаем столбец price в values. Обратите внимание, что вы всегда должны использовать values и aggfunc вместе. В противном случае вы получите ошибку. Я также использовал round(), чтобы округлить ответы.

Несмотря на то, что он немного продвинут, вы сможете полностью использовать преимущества crosstab() таблиц, когда вы передадите их в seaborn тепловые карты. Давайте посмотрим на приведенную выше таблицу на тепловой карте:

seaborn может автоматически преобразовывать crosstab() таблицы в тепловые карты. Я установил аннотации на True и отобразил тепловую карту с цветной полосой. seaborn также добавляет стиль к именам столбцов и индексов (fmt = 'g' отображает числа как целые, а не в экспоненциальной нотации).

Тепловые карты намного проще интерпретировать. Вы же не хотите, чтобы глаза ваших конечных пользователей кровоточили, глядя на таблицу, полную чисел. Итак, я буду помещать каждый результат crosstab() в тепловую карту всякий раз, когда мне нужно. Чтобы избежать повторения, я создал полезную функцию:

Сравнение Pandas crossstab () с pivot_table () и groupby ()

Прежде чем мы перейдем к более интересным вещам, я думаю, мне нужно прояснить различия между тремя функциями, которые вычисляют сгруппированную сводную статистику.

О различиях pivot_table() и groupby() я рассказывал в первой части статьи. Для crosstab() разница между ними заключается в синтаксисе и форме результатов. Давайте вычислим последнюю crosstab() таблицу, используя все три:

Думаю, ты уже знаешь своего любимца. groubpy() возвращает серию, в то время как два других возвращают в результате идентичные фреймы данных. Однако можно превратить серию groupby в тот же фрейм данных следующим образом:

Если вы не понимаете синтаксис pivot_table() и unstack(), я настоятельно рекомендую вам прочитать первую часть статьи.

Что касается скорости, crosstab() быстрее, чем pivot_table(), но оба они намного медленнее, чем groupby():

Как видите, даже при соединении с unstack(), groupby() в 3 раза быстрее, чем два других. Это говорит о том, что если вы просто хотите сгруппировать и вычислить сводную статистику, вам следует использовать тот же старый groupby(). Разница в скорости была еще больше, когда я связал другие методы, например простой round().

Остальное сравнение будет касаться в основном pivot_table() и crosstab(). Как вы видели, форма результатов двух функций одинакова. Первое различие между ними состоит в том, что crosstab() может работать с любым типом данных.

Он может принимать любые объекты, подобные массивам, такие как списки, numpy массивы, столбцы фрейма данных (которые относятся к серии pandas). Напротив, pivot_table() работает только с фреймами данных. В полезном потоке StackOverflow я обнаружил, что если вы используете crosstab() на фрейме данных, он вызывает pivot_table() под капотом.

Далее идут параметры. Есть параметры, которые существуют только в одном и наоборот. Первый, который является самым популярным, - это crosstab()'s normalize. normalize принимает эти параметры (из документации):

Если передано all или True, нормализуется по всем значениям.
Если передано index, нормализуется по каждой строке.
Если передано columns, нормализуется по каждому столбцу.

Давайте посмотрим на простой пример:

Если передано all, для каждой ячейки pandas вычисляет процент от общей суммы:

Если передано index или columns, та же операция выполняется по столбцам или по строкам:

В crosstab() вы также можете изменять имена индексов и столбцов непосредственно в функции, используя rownames и colnames. После этого вам не нужно делать это вручную. Эти два аргумента очень полезны, когда мы группируем по нескольким переменным одновременно, как вы увидите позже.

Параметр fill_value существует только в pivot_table(). Иногда, когда вы группируете по многим переменным, неизбежно будет NaNs. В pivot_table() вы можете изменить их на пользовательское значение, используя fill_value:

Но вы можете добиться того же, связав fillna() в фрейме данных, если вы используете crosstab():

Pandas crossstab (), дальнейшая настройка

Два других полезных параметра для crosstab() - это margins и margins_name (оба существуют и в pivot_table()). Если установлено значение True, margins вычисляет промежуточные итоги для каждой строки и столбца. Посмотрим на пример:

pandas автоматически добавляет последнюю строку и последний столбец с именем по умолчанию All. margins_name управляет этим поведением:

Правая нижняя ячейка всегда будет содержать общее количество наблюдений или 1, если, например, для normalize установлено значение True:

Обратите внимание, что тепловые карты бесполезны, если вы установите margins на True.

Панды `crosstab()`, несколько группировок

Для аргументов index и columns вы можете передать несколько переменных. Результатом будет фрейм данных с многоуровневыми индексами. Давайте на этот раз подключим все категориальные переменные:

Для индекса я прошел color и cut. Если бы я передал их columns, результатом был бы фрейм данных с 40 столбцами. Если вы обратите внимание, многоуровневые индексы называются cut и clarity, как и ожидалось. Для таких ситуаций, когда есть многоуровневые индексы или имена столбцов, crosstab() имеет удобные параметры для изменения их имени:

Вы передаете список соответствующих имен, чтобы изменить имена индексов на rownames. То же самое и для colnames, который управляет именами столбцов.

Одна вещь, которая меня удивила, заключалась в том, что если вы передадите несколько функций в aggfunc, pandas выдаст ошибку. Опять же, парни из StackOverflow думают, что это ошибка, и она не решается уже более 6 лет. Если у вас есть какие-то идеи, оставляйте их в комментариях, чтобы мы все могли узнать их ».

В заключение, в pivot_table() и crosstab() есть параметр dropna, который отбрасывает столбцы или строки со всеми NaN, если он установлен на True.

Если вам понравилась статья, поделитесь ею и оставьте отзыв. Ваша поддержка как писателя значит для меня весь мир!

Прочтите больше статей по теме:

Встречайте самые сложные функции Pandas, часть I
Узнайте, когда и как использовать pivot_table (), stack (), unstack () в сторонуdatascience.com

Знакомство с самыми сложными функциями Pandas, часть II
Узнайте, когда и как использовать crossstab () todatascience.com

Встречайте самые сложные функции Pandas, Часть III
Формируйте таблицы, такие как JELLY, с Pandas pivot () и melt () в сторонуdatascience.com

Освоение объединений: методы Pandas merge, concat, append
От полу / анти-соединений до проверки слияния данных в сторонуdatascience.com

Как я обычно собираю данные с помощью Pandas
Возможно, вы использовали только значения по умолчанию в отношенииdatascience.com

От Kagglers: Лучшая настройка проекта для DS и ML
Сборник лучших практик от лучших Kagglers для успеха проекта в сторонуdatascience.com

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning

Встречайте самые сложные функции Pandas, часть II

ИЗМЕНЕНИЕ ФРАМОВ ДАННЫХ С PANDAS