Панды — это просто — 2023 г.

Pandas имеет функции для анализа, очистки, исследования и манипулирования данными.

Импортируйте Pandas, а затем прочитайте данные
(в зависимости от формата файла используйте соответствующий формат для read_):

import pandas as pd
import numpy as np
d= pd.read_csv("/content/test.csv")

Начало и конец:
при чтении больших наборов данных вместо загрузки всего набора данных и бесконечной прокрутки
мы можем использовать .head() для получения 3/4 строк сверху набор данных, или
мы можем использовать .tail(), чтобы получить 3/4 строки снизу.

d.head()
d.tail()

Информация и описание :
.info() предоставит краткий обзор набора данных.
.describe() предоставит статистическую сводку по 5 пунктам набора данных.

d.info()
d.describe()

Dtypes & Shape and Size:
.dtypes предоставит типы данных для каждого из столбцов
.shape предоставит количество строк и столбцов в матрице
.size даст размер набора данных, который представляет собой произведение строк и столбцов.

d.dtypes 
d.shape
d.size

Приведение Dtype и преобразование даты и времени и преобразование строки в числовое:
.astype() используется для изменения типа данных любого столбца на желаемый тип данных.
.to_datetime будет измените любую запутанную таблицу даты и времени на идеальный формат даты и времени
.to_numeric изменит любой строковый столбец на int .

d['Annual wage']=d['Annual wage'].astype('float')
d['datetime column']=pd.to_datetime(d['datetime column'])
d['Edu']=pd.to_numeric(d['Edu'])

Столбцы и уникальные :
.columns предоставит имена столбцов в наборе данных
.nunique( ) предоставит количество уникальных значений столбцов в наборе данных.

d.columns
d.nunique()

Сортировка — «Сортировка индекса и сортировка по значению»:
.sort_index() будет сортировать по индексу , у него есть несколько осей параметров, на месте, по возрастанию внутри ( ).
. sort_values(by= ) будет сортировать в соответствии с указанным ярлыком/столбцом .
Используя параметр inplace = True, изменения можно сделать постоянными .

d.sort_index(axis=1,ascending=True)
d.sort_values(by='Annual wage')

Установить индекс:
.set_index() можно использовать для установки любого столбца в качестве индекса путем передачи имени столбца.

d.set_index('Age')

Slicing — loc , iloc :
они используются для выбора определенных строк и столбцов в наборе данных .
.loc() используется для выбора с использованием заданного количества строк с использованием имен столбцов .
.iloc() использует числа для выбора диапазона строк и столбцов .

d.loc[:4,['Pro','Edu']]
d.iloc[:2,:5]

Подсчет значений :
.value_counts() подсчитывает, сколько раз определенное значение присутствует в столбце .

d['Pro'].value_counts()

Concat:
Concat используется для соединения двух разных фреймов данных.

d=pd.read_csv("/content/train.csv")
f=pd.read_csv("/content/test.csv")
df=pd.concat([d,f])

Удалить и удалить дубликаты:
.drop() используется для удаления любых столбцов из набора данных.
.drop_duplicates() удалит все точные дубликаты из целых наборов данных.

d=d.drop(['Age'],axis=1)
d.drop_duplicates()

Поиск нулевых значений и удаление нулевых значений:
.isnull() будет выдавать логические значения с true для нулевых значений и false для ненулевых значений, но с использованием .isnull().sum() выдаст количество нулевых значений в каждом столбце.
.dropna() удалит все строки с нулевыми значениями в наборе данных.

d.isnull().sum()
d=d.dropna()

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning