Как работать с недостающими данными?
как нам определить все эти недостающие значения и справиться с ними?
Шаги для работы с отсутствующими данными:
Определить недостающие данные
Работа с отсутствующими данными
Правильный формат данных
Отсутствующие данные могут быть найдены как '?', 0 или Nan (не число), особенно в пандах, нам нужно преобразовать отсутствующие значения в NaN Итак, как мы можем это сделать, просто используя replace function(),
import numpy as np df.replace(“?”,np.nan,inplace=True) df.head(5)
Отсутствующие значения преобразуются по умолчанию. Мы используем следующие функции для определения этих пропущенных значений. Существует два метода обнаружения недостающих данных.
- .isnull()
- .notnull()
Подсчет пропущенных значений в каждом столбце
Используя цикл for в Python, мы можем быстро определить количество пропущенных значений в каждом столбце. Как упоминалось выше, «Истина» представляет отсутствующее значение, а «Ложь» означает, что значение присутствует в наборе данных. В теле цикла for метод «.value_counts()» подсчитывает количество «истинных» значений.
Что делать с отсутствующими данными? необходимо предпринять следующие шаги
- Удалить данные
а. Удалить всю строку
б. Удалить всю колонку - Заменить данные
а. Замените его на среднее
b. Замените его частотой
c. Замените его на основе других функций
Целые столбцы следует удалять только в том случае, если большинство записей в столбце пусты. У нас есть некоторая свобода выбора метода замены данных; однако некоторые методы могут показаться более разумными, чем другие. Мы будем применять каждый метод ко многим различным столбцам.
a.Заменить на среднее: здесь мы заменяем отсутствующее значение средним значением таких столбцов, как
df["нормализованные потери"].replace(np.nan,avg_normal_loss,inplace=True)
б. Замените его частотой:здесь мы заменяем отсутствующее значение режимом столбцов, таким как значение, которое чаще всего встречается в столбце
Есть много других важных шагов, которые нам необходимо предпринять для улучшения качества данных.
здесь я сделал ОБРАБОТКУ ДАННЫХ, например, включил все основные этапы
Очистка данных
Стандартизация данных
Нормализация данных
Биннинг и т. д.
взгляните на мою блокнот Kaggle. Чтобы узнать больше об аналитике данных, следуйте за мной здесь. Я делюсь своими знаниями здесь