Правильный способ выбора данных в пандах с примерами кодов Python!
Этот блог - первая статья из серии исчерпывающих введений в пакет pandas на Python. В основном он содержит следующие темы.
- Базовое введение и методы исследования данных для pandas.
- Как выбрать одно значение в пандах?
- Резюме и сравнение между
iloc[]
иloc[]
.
Что такое панды?
Pandas - это пакет, который используется в Python для обработки и анализа данных. Пока вы собираетесь делать что-либо, связанное с данными, pandas является одним из пакетов, которые вы можете использовать.
Вот ссылка на официальную документацию панд, здесь вы можете найти все функции и способы их использования.
Введение и основные функции для Pandas
Самая простая форма для хранения данных в пандах называется DataFrame.
. Она похожа на Excel, в котором есть столбцы и строки. Каждому столбцу соответствует имя столбца, а каждой строке - соответствующий индекс строки. Большинство функций pandas основаны на DataFrame.
Есть несколько способов получить общее представление о том, как выглядит набор данных.
А полные коды вы можете проверить на моем Github.
DataFrame.head(n)
позволяет исследовать первые n строк (значение по умолчанию - 5 строк) набора данных.
DataFrame.tail(n)
позволяет просмотреть последние n строк (значение по умолчанию - 5 строк) набора данных.
DataFrame.info()
позволяет получить общее представление об общей информации об этом наборе данных и о том, как выглядит каждый столбец, включая их типы значений, общее количество и т. Д.
DataFrame.describe()
позволяет получить статистическую сводку для числовых столбцов.
DataFrame.columns
позволяет вам исследовать столбцы набора данных.
DataFrame.index
позволяет вам исследовать индексы строк набора данных.
Как выбрать одно значение с помощью панд?
Некоторые люди могут спросить: насколько сложно выбрать одну точку данных из Dataframe? Ну, по крайней мере, в питоне это может быть довольно сложно.
Вы можете выбрать определенные данные, указав их позиции в Dataframe, или вы можете сделать это, вызвав метки (названия столбцов или индексы строк), или вы можете использовать логическое значение для выбора набор данных.
Выберите отдельную точку данных по ее положению
В пандах DataFrame.iloc[]
можно использовать для выбора данных по их позициям.
iloc[]
получает два параметра (разделенных ,
), которые являются целыми числами. Параметры могут быть одним целым числом или индексом диапазона, например [1:3]
, или списком целых чисел, например [1,3,5].
.
Обратите внимание, что для iloc[],
индекс диапазона включает только начальный индекс и исключает конечный индекс и начинается с 0. Таким образом, в iloc[]
, [1:3]
включает только второй и третьи строки или столбцы.
Диапазон index[1:2]
включает только начальный индекс 1
и исключает конечный индекс 2
.
Обратите внимание, что хотя значения результата одинаковы, их типы отличаются друг от друга (как вы можете видеть, второй результат немного отличается). Используйте type(object)
в Python для проверки типа определенного объекта.
Выберите отдельную точку данных по ее меткам (названиям столбцов и индексы строк)
В пандах DataFrame.loc[]
можно использовать для выбора данных по их меткам.
loc[]
получает два параметра (разделенных ,
). Первый параметр - это индекс строки, а второй параметр - имена столбцов.
Обратите внимание, что индексы строк по умолчанию - это последовательные числа, но имейте в виду, что даже при использовании чисел в качестве входных данных для loc[]
именно индекс строки действительно работает!
Также для iloc[],
индекс диапазона включает как начальный индекс, так и конечный индекс и начинается с 0.
Выберите одну точку данных с помощью сочетания позиции и меток
Комбинация loc[]
и iloc[]
(DataFrame.loc[].iloc[]
) или наоборот позволяет нам выбирать точки данных по сочетанию позиций и меток.
Просто имейте в виду, что iloc[]
получает на вход целые числа, а loc[]
получает метки в качестве входных данных.
Постарайтесь НЕ делать этого!
Некоторые из вас могут обнаружить, что DataFrame[column_name][row_number]
также можно использовать для выбора данных.
Это называется цепной индексацией, и старайтесь не делать этого, если вы хотите выбрать определенные точки данных, даже если это работает. Вот - официальное объяснение, почему это не рекомендуется.
Если вы не хотите просматривать файлы, просто запомните описанные выше методы с использованием loc[]
и iloc[].
. Их должно быть достаточно для выбора одной точки данных.
Резюме и сравнение между "loc" и "iloc"
Различия между loc и iloc
loc[]
получает метки в качестве входных данных, которые представляют собой имена столбцов и индексы строк, а iloc[]
получает в качестве входных данных целые числа, которые представляют собой порядковые номера столбцов и строк.
Индекс диапазона в loc[]
включает как начальный, так и конечный индексы, тогда как индекс диапазона в iloc[]
включает только начальный индекс и исключает конечный индекс.
Сходства между «loc» и «iloc»
Оба loc[]
и iloc[]
могут получать логическое значение (будет рассмотрено в моей следующей статье) в качестве входных данных.
Оба loc[]
и iloc[]
получают два параметра, первый указывает строки, а второй указывает столбцы.
Оба loc[]
и iloc[]
содержат loc.
LOL.
Резюме
Подводя итог, loc[]
и iloc[]
могут выбирать определенные точки данных из фрейма данных. Вы должны выбрать подходящий вариант в зависимости от контекста.
Я расскажу больше советов и функций использования панд для манипулирования данными и анализа данных. Пожалуйста, не стесняйтесь обращаться ко мне, если у вас есть что-то, что вы хотите обсудить по связанным темам!
Кроме того, вы можете проверить мой следующий блог: Введение в Pandas в Python - Выбор данных и обработка отсутствующих значений для получения дальнейшего руководства по использованию pandas для выбора нескольких значений и работы с отсутствующими данными.