Исчерпывающее введение в Pandas на Python

Правильный способ выбора данных в пандах с примерами кодов Python!

Этот блог - первая статья из серии исчерпывающих введений в пакет pandas на Python. В основном он содержит следующие темы.

Базовое введение и методы исследования данных для pandas.
Как выбрать одно значение в пандах?
Резюме и сравнение между iloc[] и loc[].

Что такое панды?

Pandas - это пакет, который используется в Python для обработки и анализа данных. Пока вы собираетесь делать что-либо, связанное с данными, pandas является одним из пакетов, которые вы можете использовать.

Вот ссылка на официальную документацию панд, здесь вы можете найти все функции и способы их использования.

Введение и основные функции для `Pandas`

Самая простая форма для хранения данных в пандах называется DataFrame.. Она похожа на Excel, в котором есть столбцы и строки. Каждому столбцу соответствует имя столбца, а каждой строке - соответствующий индекс строки. Большинство функций pandas основаны на DataFrame.

Есть несколько способов получить общее представление о том, как выглядит набор данных.

А полные коды вы можете проверить на моем Github.

DataFrame.head(n) позволяет исследовать первые n строк (значение по умолчанию - 5 строк) набора данных.

DataFrame.tail(n) позволяет просмотреть последние n строк (значение по умолчанию - 5 строк) набора данных.

DataFrame.info() позволяет получить общее представление об общей информации об этом наборе данных и о том, как выглядит каждый столбец, включая их типы значений, общее количество и т. Д.

DataFrame.describe() позволяет получить статистическую сводку для числовых столбцов.

DataFrame.columns позволяет вам исследовать столбцы набора данных.

DataFrame.index позволяет вам исследовать индексы строк набора данных.

Как выбрать одно значение с помощью панд?

Некоторые люди могут спросить: насколько сложно выбрать одну точку данных из Dataframe? Ну, по крайней мере, в питоне это может быть довольно сложно.

Вы можете выбрать определенные данные, указав их позиции в Dataframe, или вы можете сделать это, вызвав метки (названия столбцов или индексы строк), или вы можете использовать логическое значение для выбора набор данных.

Выберите отдельную точку данных по ее положению

В пандах DataFrame.iloc[] можно использовать для выбора данных по их позициям.

iloc[] получает два параметра (разделенных ,), которые являются целыми числами. Параметры могут быть одним целым числом или индексом диапазона, например [1:3], или списком целых чисел, например [1,3,5]..

Обратите внимание, что для iloc[], индекс диапазона включает только начальный индекс и исключает конечный индекс и начинается с 0. Таким образом, в iloc[], [1:3] включает только второй и третьи строки или столбцы.

Диапазон index[1:2] включает только начальный индекс 1 и исключает конечный индекс 2.

Обратите внимание, что хотя значения результата одинаковы, их типы отличаются друг от друга (как вы можете видеть, второй результат немного отличается). Используйте type(object) в Python для проверки типа определенного объекта.

Выберите отдельную точку данных по ее меткам (названиям столбцов и индексы строк)

В пандах DataFrame.loc[] можно использовать для выбора данных по их меткам.

loc[] получает два параметра (разделенных ,). Первый параметр - это индекс строки, а второй параметр - имена столбцов.

Обратите внимание, что индексы строк по умолчанию - это последовательные числа, но имейте в виду, что даже при использовании чисел в качестве входных данных для loc[] именно индекс строки действительно работает!

Также для iloc[], индекс диапазона включает как начальный индекс, так и конечный индекс и начинается с 0.

Выберите одну точку данных с помощью сочетания позиции и меток

Комбинация loc[] и iloc[] (DataFrame.loc[].iloc[]) или наоборот позволяет нам выбирать точки данных по сочетанию позиций и меток.

Просто имейте в виду, что iloc[] получает на вход целые числа, а loc[] получает метки в качестве входных данных.

Постарайтесь НЕ делать этого!

Некоторые из вас могут обнаружить, что DataFrame[column_name][row_number] также можно использовать для выбора данных.

Это называется цепной индексацией, и старайтесь не делать этого, если вы хотите выбрать определенные точки данных, даже если это работает. Вот - официальное объяснение, почему это не рекомендуется.

Если вы не хотите просматривать файлы, просто запомните описанные выше методы с использованием loc[] и iloc[].. Их должно быть достаточно для выбора одной точки данных.

Резюме и сравнение между "loc" и "iloc"

Различия между loc и iloc

loc[] получает метки в качестве входных данных, которые представляют собой имена столбцов и индексы строк, а iloc[] получает в качестве входных данных целые числа, которые представляют собой порядковые номера столбцов и строк.

Индекс диапазона в loc[] включает как начальный, так и конечный индексы, тогда как индекс диапазона в iloc[] включает только начальный индекс и исключает конечный индекс.

Сходства между «loc» и «iloc»

Оба loc[] и iloc[] могут получать логическое значение (будет рассмотрено в моей следующей статье) в качестве входных данных.

Оба loc[] и iloc[] получают два параметра, первый указывает строки, а второй указывает столбцы.

Оба loc[] и iloc[] содержат loc. LOL.

Резюме

Подводя итог, loc[] и iloc[] могут выбирать определенные точки данных из фрейма данных. Вы должны выбрать подходящий вариант в зависимости от контекста.

Я расскажу больше советов и функций использования панд для манипулирования данными и анализа данных. Пожалуйста, не стесняйтесь обращаться ко мне, если у вас есть что-то, что вы хотите обсудить по связанным темам!

Кроме того, вы можете проверить мой следующий блог: Введение в Pandas в Python - Выбор данных и обработка отсутствующих значений для получения дальнейшего руководства по использованию pandas для выбора нескольких значений и работы с отсутствующими данными.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning