Pandas имеет функции для анализа, очистки, исследования и манипулирования данными.

Импортируйте Pandas, а затем прочитайте данные
(в зависимости от формата файла используйте соответствующий формат для read_):

import pandas as pd
import numpy as np
d= pd.read_csv("/content/test.csv")
  • Начало и конец:
    при чтении больших наборов данных вместо загрузки всего набора данных и бесконечной прокрутки
    мы можем использовать .head() для получения 3/4 строк сверху набор данных, или
    мы можем использовать .tail(), чтобы получить 3/4 строки снизу.
d.head()
d.tail()
  • Информация и описание :
    .info() предоставит краткий обзор набора данных.
    .describe() предоставит статистическую сводку по 5 пунктам набора данных.
d.info()
d.describe()
  • Dtypes & Shape and Size:
    .dtypes предоставит типы данных для каждого из столбцов
    .shape предоставит количество строк и столбцов в матрице
    .size даст размер набора данных, который представляет собой произведение строк и столбцов.
d.dtypes 
d.shape
d.size 

  • Приведение Dtype и преобразование даты и времени и преобразование строки в числовое:
    .astype() используется для изменения типа данных любого столбца на желаемый тип данных.
    .to_datetime будет измените любую запутанную таблицу даты и времени на идеальный формат даты и времени
    .to_numeric изменит любой строковый столбец на int .
d['Annual wage']=d['Annual wage'].astype('float')
d['datetime column']=pd.to_datetime(d['datetime column'])
d['Edu']=pd.to_numeric(d['Edu'])
  • Столбцы и уникальные :
    .columns предоставит имена столбцов в наборе данных
    .nunique( ) предоставит количество уникальных значений столбцов в наборе данных.
d.columns
d.nunique()

  • Сортировка  — «Сортировка индекса и сортировка по значению»:
    .sort_index() будет сортировать по индексу , у него есть несколько осей параметров, на месте, по возрастанию внутри ( ).
    . sort_values(by= ) будет сортировать в соответствии с указанным ярлыком/столбцом .
    Используя параметр inplace = True, изменения можно сделать постоянными .
d.sort_index(axis=1,ascending=True)
d.sort_values(by='Annual wage')

  • Установить индекс:
    .set_index() можно использовать для установки любого столбца в качестве индекса путем передачи имени столбца.
d.set_index('Age')
  • Slicing — loc , iloc :
    они используются для выбора определенных строк и столбцов в наборе данных .
    .loc() используется для выбора с использованием заданного количества строк с использованием имен столбцов .
    .iloc() использует числа для выбора диапазона строк и столбцов .
d.loc[:4,['Pro','Edu']]
d.iloc[:2,:5]

  • Подсчет значений :
    .value_counts() подсчитывает, сколько раз определенное значение присутствует в столбце .
d['Pro'].value_counts()

  • Concat:
    Concat используется для соединения двух разных фреймов данных.
d=pd.read_csv("/content/train.csv")
f=pd.read_csv("/content/test.csv")
df=pd.concat([d,f])
  • Удалить и удалить дубликаты:
    .drop() используется для удаления любых столбцов из набора данных.
    .drop_duplicates() удалит все точные дубликаты из целых наборов данных.
d=d.drop(['Age'],axis=1)
d.drop_duplicates()
  • Поиск нулевых значений и удаление нулевых значений:
    .isnull() будет выдавать логические значения с true для нулевых значений и false для ненулевых значений, но с использованием .isnull().sum() выдаст количество нулевых значений в каждом столбце.
    .dropna() удалит все строки с нулевыми значениями в наборе данных.
d.isnull().sum()
d=d.dropna()