Правильный способ выбора данных в пандах с примерами кодов Python!

Этот блог - первая статья из серии исчерпывающих введений в пакет pandas на Python. В основном он содержит следующие темы.

  1. Базовое введение и методы исследования данных для pandas.
  2. Как выбрать одно значение в пандах?
  3. Резюме и сравнение между iloc[] и loc[].

Что такое панды?

Pandas - это пакет, который используется в Python для обработки и анализа данных. Пока вы собираетесь делать что-либо, связанное с данными, pandas является одним из пакетов, которые вы можете использовать.

Вот ссылка на официальную документацию панд, здесь вы можете найти все функции и способы их использования.

Введение и основные функции для Pandas

Самая простая форма для хранения данных в пандах называется DataFrame.. Она похожа на Excel, в котором есть столбцы и строки. Каждому столбцу соответствует имя столбца, а каждой строке - соответствующий индекс строки. Большинство функций pandas основаны на DataFrame.

Есть несколько способов получить общее представление о том, как выглядит набор данных.

А полные коды вы можете проверить на моем Github.

DataFrame.head(n) позволяет исследовать первые n строк (значение по умолчанию - 5 строк) набора данных.

DataFrame.tail(n) позволяет просмотреть последние n строк (значение по умолчанию - 5 строк) набора данных.

DataFrame.info() позволяет получить общее представление об общей информации об этом наборе данных и о том, как выглядит каждый столбец, включая их типы значений, общее количество и т. Д.

DataFrame.describe() позволяет получить статистическую сводку для числовых столбцов.

DataFrame.columns позволяет вам исследовать столбцы набора данных.

DataFrame.index позволяет вам исследовать индексы строк набора данных.

Как выбрать одно значение с помощью панд?

Некоторые люди могут спросить: насколько сложно выбрать одну точку данных из Dataframe? Ну, по крайней мере, в питоне это может быть довольно сложно.

Вы можете выбрать определенные данные, указав их позиции в Dataframe, или вы можете сделать это, вызвав метки (названия столбцов или индексы строк), или вы можете использовать логическое значение для выбора набор данных.

Выберите отдельную точку данных по ее положению

В пандах DataFrame.iloc[] можно использовать для выбора данных по их позициям.

iloc[] получает два параметра (разделенных ,), которые являются целыми числами. Параметры могут быть одним целым числом или индексом диапазона, например [1:3], или списком целых чисел, например [1,3,5]..

Обратите внимание, что для iloc[], индекс диапазона включает только начальный индекс и исключает конечный индекс и начинается с 0. Таким образом, в iloc[], [1:3] включает только второй и третьи строки или столбцы.

Диапазон index[1:2] включает только начальный индекс 1 и исключает конечный индекс 2.

Обратите внимание, что хотя значения результата одинаковы, их типы отличаются друг от друга (как вы можете видеть, второй результат немного отличается). Используйте type(object) в Python для проверки типа определенного объекта.

Выберите отдельную точку данных по ее меткам (названиям столбцов и индексы строк)

В пандах DataFrame.loc[] можно использовать для выбора данных по их меткам.

loc[] получает два параметра (разделенных ,). Первый параметр - это индекс строки, а второй параметр - имена столбцов.

Обратите внимание, что индексы строк по умолчанию - это последовательные числа, но имейте в виду, что даже при использовании чисел в качестве входных данных для loc[] именно индекс строки действительно работает!

Также для iloc[], индекс диапазона включает как начальный индекс, так и конечный индекс и начинается с 0.

Выберите одну точку данных с помощью сочетания позиции и меток

Комбинация loc[] и iloc[] (DataFrame.loc[].iloc[]) или наоборот позволяет нам выбирать точки данных по сочетанию позиций и меток.

Просто имейте в виду, что iloc[] получает на вход целые числа, а loc[] получает метки в качестве входных данных.

Постарайтесь НЕ делать этого!

Некоторые из вас могут обнаружить, что DataFrame[column_name][row_number] также можно использовать для выбора данных.

Это называется цепной индексацией, и старайтесь не делать этого, если вы хотите выбрать определенные точки данных, даже если это работает. Вот - официальное объяснение, почему это не рекомендуется.

Если вы не хотите просматривать файлы, просто запомните описанные выше методы с использованием loc[] и iloc[].. Их должно быть достаточно для выбора одной точки данных.

Резюме и сравнение между "loc" и "iloc"

Различия между loc и iloc

loc[] получает метки в качестве входных данных, которые представляют собой имена столбцов и индексы строк, а iloc[] получает в качестве входных данных целые числа, которые представляют собой порядковые номера столбцов и строк.

Индекс диапазона в loc[] включает как начальный, так и конечный индексы, тогда как индекс диапазона в iloc[] включает только начальный индекс и исключает конечный индекс.

Сходства между «loc» и «iloc»

Оба loc[] и iloc[] могут получать логическое значение (будет рассмотрено в моей следующей статье) в качестве входных данных.

Оба loc[] и iloc[] получают два параметра, первый указывает строки, а второй указывает столбцы.

Оба loc[] и iloc[] содержат loc. LOL.

Резюме

Подводя итог, loc[] и iloc[] могут выбирать определенные точки данных из фрейма данных. Вы должны выбрать подходящий вариант в зависимости от контекста.

Я расскажу больше советов и функций использования панд для манипулирования данными и анализа данных. Пожалуйста, не стесняйтесь обращаться ко мне, если у вас есть что-то, что вы хотите обсудить по связанным темам!

Кроме того, вы можете проверить мой следующий блог: Введение в Pandas в Python - Выбор данных и обработка отсутствующих значений для получения дальнейшего руководства по использованию pandas для выбора нескольких значений и работы с отсутствующими данными.