Повысьте производительность своей модели, удалив недостающие данные
Очистка данных - важный процесс моделирования машинного обучения. Точность алгоритма машинного обучения может быть снижена из-за отсутствия значений в наших данных. Поэтому перед обучением модели машинного обучения необходимо очистить данные.
В Python есть различные методы работы с недостающими данными. Используя эти методы, мы можем удалить недостающие значения из наших данных, а затем использовать эти данные для дальнейшего машинного обучения или процессов анализа данных.
В этой статье будет рассказано, как можно справиться с отсутствующими значениями с помощью различных методов в Python. Давайте начнем!
1. fillna ()
Эта fillna()
функция доступна в пакете pandas. Эта функция используется для заполнения значений NULL (NA / NaN), присутствующих в данных / наборе данных, с использованием указанного метода. Вы также можете «заполнить» или «заполнить» свои строки другими значениями из данных.
Он возвращает объект в качестве вывода, в котором заполнены пустые / пропущенные значения.
Синтаксис: Series.fillna(value=None, method=None, axis=None, inplace=False, **kwargs)
Здесь мы видим, что в столбце Number
наших данных отсутствуют значения / NaN. Мы будем использовать функцию thefillna()
для очистки этих данных.
Выход:
2. dropna ()
Эта dropna()
функция используется для удаления или удаления нулевых значений из данных различными способами (в зависимости от данных). Эта функция анализирует и удаляет строки / столбцы из данных, которые содержат отсутствующие значения / NaN.
Синтаксис: DataFrame.dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)
Здесь мы будем использовать функцию dropna()
, чтобы удалить все строки с отсутствующими значениями / NaN.
Выход:
Здесь мы удалили все строки, содержащие пропущенные значения. Параметр axis=0
указывает, что мы должны отбросить строки, содержащие пропущенные значения, а axis=1
используется для удаления столбца.
3. интерполировать ()
interpolate()
- мощная функция, доступная в Python. Эта функция используется для заполнения отсутствующих значений / NaN, присутствующих в данных. Он использует различные методы интерполяции для заполнения недостающих данных.
Согласно The Education, Интерполяция - это процесс нахождения значения между двумя точками на линии или кривой. Эта функция находит подходящие значения на основе указанного метода, а затем заменяет их отсутствующими значениями данных.
Синтаксис: DataFrame.interpolate(method=’linear’, axis=0, limit=None, inplace=False, limit_direction=’forward’, limit_area=None, downcast=None, **kwargs)
Выход:
Заключение
Это все для этой статьи. Мы обсудили различные методы, которые можно использовать для обработки отсутствующих значений / NaN, присутствующих в данных.
Эти методы можно в основном использовать перед процессами моделирования и анализа данных с помощью машинного обучения, чтобы очистить данные и получить на их основе лучшее понимание.
Спасибо за прочтение!