Pandas имеет функции для анализа, очистки, исследования и манипулирования данными.
Импортируйте Pandas, а затем прочитайте данные
(в зависимости от формата файла используйте соответствующий формат для read_):
import pandas as pd import numpy as np d= pd.read_csv("/content/test.csv")
- Начало и конец:
при чтении больших наборов данных вместо загрузки всего набора данных и бесконечной прокрутки
мы можем использовать .head() для получения 3/4 строк сверху набор данных, или
мы можем использовать .tail(), чтобы получить 3/4 строки снизу.
d.head() d.tail()
- Информация и описание :
.info() предоставит краткий обзор набора данных.
.describe() предоставит статистическую сводку по 5 пунктам набора данных.
d.info() d.describe()
- Dtypes & Shape and Size:
.dtypes предоставит типы данных для каждого из столбцов
.shape предоставит количество строк и столбцов в матрице
.size даст размер набора данных, который представляет собой произведение строк и столбцов.
d.dtypes d.shape d.size
- Приведение Dtype и преобразование даты и времени и преобразование строки в числовое:
.astype() используется для изменения типа данных любого столбца на желаемый тип данных.
.to_datetime будет измените любую запутанную таблицу даты и времени на идеальный формат даты и времени
.to_numeric изменит любой строковый столбец на int .
d['Annual wage']=d['Annual wage'].astype('float') d['datetime column']=pd.to_datetime(d['datetime column']) d['Edu']=pd.to_numeric(d['Edu'])
- Столбцы и уникальные :
.columns предоставит имена столбцов в наборе данных
.nunique( ) предоставит количество уникальных значений столбцов в наборе данных.
d.columns d.nunique()
- Сортировка — «Сортировка индекса и сортировка по значению»:
.sort_index() будет сортировать по индексу , у него есть несколько осей параметров, на месте, по возрастанию внутри ( ).
. sort_values(by= ) будет сортировать в соответствии с указанным ярлыком/столбцом .
Используя параметр inplace = True, изменения можно сделать постоянными .
d.sort_index(axis=1,ascending=True) d.sort_values(by='Annual wage')
- Установить индекс:
.set_index() можно использовать для установки любого столбца в качестве индекса путем передачи имени столбца.
d.set_index('Age')
- Slicing — loc , iloc :
они используются для выбора определенных строк и столбцов в наборе данных .
.loc() используется для выбора с использованием заданного количества строк с использованием имен столбцов .
.iloc() использует числа для выбора диапазона строк и столбцов .
d.loc[:4,['Pro','Edu']] d.iloc[:2,:5]
- Подсчет значений :
.value_counts() подсчитывает, сколько раз определенное значение присутствует в столбце .
d['Pro'].value_counts()
- Concat:
Concat используется для соединения двух разных фреймов данных.
d=pd.read_csv("/content/train.csv") f=pd.read_csv("/content/test.csv") df=pd.concat([d,f])
- Удалить и удалить дубликаты:
.drop() используется для удаления любых столбцов из набора данных.
.drop_duplicates() удалит все точные дубликаты из целых наборов данных.
d=d.drop(['Age'],axis=1) d.drop_duplicates()
- Поиск нулевых значений и удаление нулевых значений:
.isnull() будет выдавать логические значения с true для нулевых значений и false для ненулевых значений, но с использованием .isnull().sum() выдаст количество нулевых значений в каждом столбце.
.dropna() удалит все строки с нулевыми значениями в наборе данных.
d.isnull().sum() d=d.dropna()