От беспорядка к великолепию: руководство по предварительной обработке данных для машинного обучения в Python

Данные — это жизненная сила алгоритмов машинного обучения, но реальные данные часто беспорядочны и требуют тщательной подготовки, прежде чем их можно будет использовать в моделях. Предварительная обработка данных — важнейший первый шаг, который очищает, преобразовывает и подготавливает необработанные данные для задач машинного обучения. В этом подробном руководстве мы рассмотрим основные этапы предварительной обработки данных с использованием библиотек Python, таких как Pandas, NumPy и Scikit-Learn.

Предпосылки

Прежде чем погрузиться в предварительную обработку данных, полезно иметь базовое представление о программировании на Python и знакомство с библиотеками Pandas, NumPy и Scikit-Learn. Если вы новичок в этих концепциях, рассмотрите возможность изучения вводных руководств по Python, чтобы понять основы.

Понимание предварительной обработки данных

Представьте, что вы шеф-повар, готовящий ингредиенты для изысканного блюда. Точно так же, как вы очищаете, нарезаете и измеряете ингредиенты, предварительная обработка данных включает в себя ряд важных шагов, обеспечивающих качество, согласованность и совместимость данных для машинного обучения. Мы совершим это кулинарное путешествие по предварительной обработке данных с Python в качестве нашего верного су-шефа.

1. Обработка недостающих данных:

Подобно поиску недостающих частей головоломки, обработка недостающих данных жизненно важна для завершения картины и создания точных прогнозов. В реальных наборах данных пропущенные значения являются обычным явлением и могут отрицательно сказаться на производительности модели. Мы раскроем различные стратегии для работы с пропущенными значениями, такие как вменение данных, удаление и интерполяция, используя функции Pandas и NumPy.

Вменение данных с помощью Pandas

import pandas as pd

# Load the dataset with missing values
data = pd.read_csv('data.csv')

# Check for missing values
print(data.isnull().sum())

# Impute missing values with mean
data.fillna(data.mean(), inplace=True)

# Check missing values after imputation
print(data.isnull().sum())

2. Масштабирование функций

В мире машинного обучения функции с совершенно разными масштабами могут ввести алгоритмы в заблуждение. Чтобы уравнять игровое поле, мы рассмотрим методы масштабирования функций, такие как масштабирование Min-Max и стандартизацию, гарантируя, что функции находятся на одной странице, прежде чем добавлять их в модели.

Мин-макс масштабирование с помощью Scikit-learn

from sklearn.preprocessing import MinMaxScaler

# Sample data
data = [[10], [20], [30], [40], [50]]

# Create the scaler
scaler = MinMaxScaler()

# Fit and transform the data
scaled_data = scaler.fit_transform(data)

print(scaled_data)

3. Кодирование категориальных переменных

Категориальные переменные, такие как ингредиенты с разными вкусами, требуют осторожного обращения. Модели машинного обучения предпочитают числовые данные, поэтому мы узнаем, как преобразовывать категориальные данные в числовые представления с помощью таких методов, как горячее кодирование, преобразуя их в удобные для машин форматы.

Горячее кодирование с помощью Pandas

import pandas as pd

# Sample data with categorical variable 'Color'
data = pd.DataFrame({'Fruit': ['Apple', 'Banana', 'Orange', 'Apple', 'Orange']})

# Perform one-hot encoding
encoded_data = pd.get_dummies(data, columns=['Fruit'])

print(encoded_data)

4. Преобразование и сокращение данных

Данные часто могут быть раздуты чрезмерными размерами или шумом. С помощью методов уменьшения размерности, таких как анализ основных компонентов (PCA), мы извлекаем суть данных, уменьшая их сложность и сохраняя при этом важную информацию.

Уменьшение размерности с помощью PCA

from sklearn.decomposition import PCA
import numpy as np

# Sample data
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# Create the PCA object
pca = PCA(n_components=2)

# Fit and transform the data
reduced_data = pca.fit_transform(data)

print(reduced_data)

Собираем все вместе: полный конвейер предварительной обработки

Точно так же, как своевременный кулинарный шедевр, эффективный конвейер предварительной обработки данных имеет решающее значение. Мы объединим все этапы предварительной обработки в единый рабочий процесс, используя мощные инструменты Scikit-learn для оптимизации процесса подготовки данных.

Завершить конвейер предварительной обработки данных

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Sample data with different types of features
data = pd.DataFrame({'Age': [25, 30, np.nan, 22, 35],
                     'Income': [50000, 60000, 75000, np.nan, 80000],
                     'Gender': ['Male', 'Female', 'Male', 'Female', 'Male']})

# Define preprocessing steps
numeric_features = ['Age', 'Income']
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

categorical_features = ['Gender']
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder())
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Fit and transform the data with the preprocessor
transformed_data = preprocessor.fit_transform(data)

print(transformed_data)

Заключение

Предварительная обработка данных — это секретный соус, который превращает модели машинного обучения из посредственных в великолепные. Вооружившись Python Pandas, NumPy и Scikit-learn, вы теперь обладаете кулинарными навыками для эффективной подготовки данных для машинного обучения.

Отправляясь в путешествие по науке о данных, помните, что продуманная предварительная обработка данных закладывает основу для успешного обучения модели и точности прогнозов. Обладая этими знаниями, вы хорошо подготовлены к разгадке тайн данных и раскрытию истинной силы машинного обучения.

Продолжая свое путешествие в области предварительной обработки данных для машинного обучения, помните, что ни один подход не подходит для всех сценариев. Представленные здесь методы служат важными инструментами в вашем арсенале науки о данных, но для каждого набора данных могут потребоваться специальные методы предварительной обработки.

Всегда начинайте с понимания ваших данных, визуализации их шаблонов и выявления потенциальных проблем. Поэкспериментируйте с различными методами предварительной обработки и оцените их влияние на производительность модели. Итеративный характер предварительной обработки данных позволяет совершенствовать ваши стратегии до тех пор, пока вы не достигнете оптимальных результатов.

Кроме того, будьте в курсе достижений в области предварительной обработки данных и изучайте другие библиотеки и инструменты, отвечающие конкретным потребностям предварительной обработки. В динамичной экосистеме Python постоянно появляются инновационные решения, отвечающие растущим требованиям науки о данных.

Наконец, предостережение: помните об утечке данных во время предварительной обработки. Утечка данных происходит, когда информация из тестового набора непреднамеренно влияет на процесс обучения, что приводит к чрезмерно оптимистичной работе модели. Чтобы предотвратить это, всегда выполняйте предварительную обработку обучающих и тестовых наборов данных отдельно, следя за тем, чтобы решения о предварительной обработке основывались исключительно на обучающих данных.

Теперь, обладая всесторонним пониманием методов предварительной обработки данных, вы готовы приступить к более сложным проектам по науке о данных, от прогнозного моделирования до кластеризации и т. д. Принимайте вызовы, повторяйте свои решения и позвольте своему мастерству предварительной обработки данных направить вас к эффективным приложениям машинного обучения.

Спасибо, что присоединились к нам в этом ярком путешествии по предварительной обработке данных для машинного обучения в Python. Пусть ваши будущие усилия в области науки о данных будут богаты идеями и открытиями.

Удачной предварительной обработки, и пусть ваши модели машинного обучения процветают!

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning