Как работать с недостающими данными?

как нам определить все эти недостающие значения и справиться с ними?

Шаги для работы с отсутствующими данными:

Определить недостающие данные

Работа с отсутствующими данными

Правильный формат данных

Отсутствующие данные могут быть найдены как '?', 0 или Nan (не число), особенно в пандах, нам нужно преобразовать отсутствующие значения в NaN Итак, как мы можем это сделать, просто используя replace function(),

import numpy as np
df.replace(“?”,np.nan,inplace=True)
df.head(5)

Отсутствующие значения преобразуются по умолчанию. Мы используем следующие функции для определения этих пропущенных значений. Существует два метода обнаружения недостающих данных.

  1. .isnull()
  2. .notnull()

Подсчет пропущенных значений в каждом столбце

Используя цикл for в Python, мы можем быстро определить количество пропущенных значений в каждом столбце. Как упоминалось выше, «Истина» представляет отсутствующее значение, а «Ложь» означает, что значение присутствует в наборе данных. В теле цикла for метод «.value_counts()» подсчитывает количество «истинных» значений.

Что делать с отсутствующими данными? необходимо предпринять следующие шаги

  1. Удалить данные
    а. Удалить всю строку
    б. Удалить всю колонку
  2. Заменить данные
    а. Замените его на среднее
    b. Замените его частотой
    c. Замените его на основе других функций

Целые столбцы следует удалять только в том случае, если большинство записей в столбце пусты. У нас есть некоторая свобода выбора метода замены данных; однако некоторые методы могут показаться более разумными, чем другие. Мы будем применять каждый метод ко многим различным столбцам.

a.Заменить на среднее: здесь мы заменяем отсутствующее значение средним значением таких столбцов, как

df["нормализованные потери"].replace(np.nan,avg_normal_loss,inplace=True)

б. Замените его частотой:здесь мы заменяем отсутствующее значение режимом столбцов, таким как значение, которое чаще всего встречается в столбце

Есть много других важных шагов, которые нам необходимо предпринять для улучшения качества данных.

здесь я сделал ОБРАБОТКУ ДАННЫХ, например, включил все основные этапы

Очистка данных

Стандартизация данных

Нормализация данных

Биннинг и т. д.

взгляните на мою блокнот Kaggle. Чтобы узнать больше об аналитике данных, следуйте за мной здесь. Я делюсь своими знаниями здесь