Повысьте производительность своей модели, удалив недостающие данные

Очистка данных - важный процесс моделирования машинного обучения. Точность алгоритма машинного обучения может быть снижена из-за отсутствия значений в наших данных. Поэтому перед обучением модели машинного обучения необходимо очистить данные.

В Python есть различные методы работы с недостающими данными. Используя эти методы, мы можем удалить недостающие значения из наших данных, а затем использовать эти данные для дальнейшего машинного обучения или процессов анализа данных.

В этой статье будет рассказано, как можно справиться с отсутствующими значениями с помощью различных методов в Python. Давайте начнем!

1. fillna ()

Эта fillna() функция доступна в пакете pandas. Эта функция используется для заполнения значений NULL (NA / NaN), присутствующих в данных / наборе данных, с использованием указанного метода. Вы также можете «заполнить» или «заполнить» свои строки другими значениями из данных.

Он возвращает объект в качестве вывода, в котором заполнены пустые / пропущенные значения.

Синтаксис: Series.fillna(value=None, method=None, axis=None, inplace=False, **kwargs)

Здесь мы видим, что в столбце Number наших данных отсутствуют значения / NaN. Мы будем использовать функцию thefillna() для очистки этих данных.

Выход:

2. dropna ()

Эта dropna() функция используется для удаления или удаления нулевых значений из данных различными способами (в зависимости от данных). Эта функция анализирует и удаляет строки / столбцы из данных, которые содержат отсутствующие значения / NaN.

Синтаксис: DataFrame.dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)

Здесь мы будем использовать функцию dropna(), чтобы удалить все строки с отсутствующими значениями / NaN.

Выход:

Здесь мы удалили все строки, содержащие пропущенные значения. Параметр axis=0 указывает, что мы должны отбросить строки, содержащие пропущенные значения, а axis=1 используется для удаления столбца.

3. интерполировать ()

interpolate() - мощная функция, доступная в Python. Эта функция используется для заполнения отсутствующих значений / NaN, присутствующих в данных. Он использует различные методы интерполяции для заполнения недостающих данных.

Согласно The Education, Интерполяция - это процесс нахождения значения между двумя точками на линии или кривой. Эта функция находит подходящие значения на основе указанного метода, а затем заменяет их отсутствующими значениями данных.

Синтаксис: DataFrame.interpolate(method=’linear’, axis=0, limit=None, inplace=False, limit_direction=’forward’, limit_area=None, downcast=None, **kwargs)

Выход:

Заключение

Это все для этой статьи. Мы обсудили различные методы, которые можно использовать для обработки отсутствующих значений / NaN, присутствующих в данных.

Эти методы можно в основном использовать перед процессами моделирования и анализа данных с помощью машинного обучения, чтобы очистить данные и получить на их основе лучшее понимание.

Спасибо за прочтение!