Повысьте производительность своей модели, удалив недостающие данные
Очистка данных - важный процесс моделирования машинного обучения. Точность алгоритма машинного обучения может быть снижена из-за отсутствия значений в наших данных. Поэтому перед обучением модели машинного обучения необходимо очистить данные.
В Python есть различные методы работы с недостающими данными. Используя эти методы, мы можем удалить недостающие значения из наших данных, а затем использовать эти данные для дальнейшего машинного обучения или процессов анализа данных.
В этой статье будет рассказано, как можно справиться с отсутствующими значениями с помощью различных методов в Python. Давайте начнем!
1. fillna ()
Эта fillna() функция доступна в пакете pandas. Эта функция используется для заполнения значений NULL (NA / NaN), присутствующих в данных / наборе данных, с использованием указанного метода. Вы также можете «заполнить» или «заполнить» свои строки другими значениями из данных.
Он возвращает объект в качестве вывода, в котором заполнены пустые / пропущенные значения.
Синтаксис: Series.fillna(value=None, method=None, axis=None, inplace=False, **kwargs)

Здесь мы видим, что в столбце Number наших данных отсутствуют значения / NaN. Мы будем использовать функцию thefillna() для очистки этих данных.
Выход:

2. dropna ()
Эта dropna() функция используется для удаления или удаления нулевых значений из данных различными способами (в зависимости от данных). Эта функция анализирует и удаляет строки / столбцы из данных, которые содержат отсутствующие значения / NaN.
Синтаксис: DataFrame.dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)

Здесь мы будем использовать функцию dropna(), чтобы удалить все строки с отсутствующими значениями / NaN.
Выход:

Здесь мы удалили все строки, содержащие пропущенные значения. Параметр axis=0 указывает, что мы должны отбросить строки, содержащие пропущенные значения, а axis=1 используется для удаления столбца.
3. интерполировать ()
interpolate() - мощная функция, доступная в Python. Эта функция используется для заполнения отсутствующих значений / NaN, присутствующих в данных. Он использует различные методы интерполяции для заполнения недостающих данных.
Согласно The Education, Интерполяция - это процесс нахождения значения между двумя точками на линии или кривой. Эта функция находит подходящие значения на основе указанного метода, а затем заменяет их отсутствующими значениями данных.
Синтаксис: DataFrame.interpolate(method=’linear’, axis=0, limit=None, inplace=False, limit_direction=’forward’, limit_area=None, downcast=None, **kwargs)

Выход:

Заключение
Это все для этой статьи. Мы обсудили различные методы, которые можно использовать для обработки отсутствующих значений / NaN, присутствующих в данных.
Эти методы можно в основном использовать перед процессами моделирования и анализа данных с помощью машинного обучения, чтобы очистить данные и получить на их основе лучшее понимание.
Спасибо за прочтение!