Полное руководство по алгоритмам повышения

AdaBoost, повышение градиента, стохастическое повышение градиента и CatBoost

Введение

Повышение — это мощный метод машинного обучения, который объединяет слабых учеников для создания надежной прогностической модели. В этой статье мы рассмотрим четыре популярных алгоритма повышения: AdaBoost (адаптивное повышение), градиентное повышение, стохастическое градиентное повышение и CatBoost. Мы рассмотрим их пошаговые процедуры, предоставим примеры реализации кода, обсудим их преимущества и недостатки, сравним их в табличном формате, объясним их части и предоставим практические примеры их применения.

AdaBoost (адаптивное повышение):

AdaBoost — это ансамблевый метод, который итеративно объединяет слабые классификаторы для создания сильного классификатора.

Вот пошаговая процедура:

Шаг 1. Равномерно инициализируйте веса обучающих выборок.
Шаг 2.Обучите слабый классификатор на обучающих данных.
Шаг 3.Рассчитайте взвешенную долю ошибок слабого классификатора.
Шаг 4. Обновите веса неправильно классифицированных образцов, чтобы сосредоточиться на сложных примерах.
Шаг 5. Повторяйте шаги 2–4 для предопределенного количества итераций или до тех пор, пока не будет выполнен критерий остановки.
Шаг 6. Объедините слабые классификаторы, присвоив им веса в зависимости от их эффективности.
Шаг 7. Сделайте прогнозы, объединив прогнозы слабых классификаторов.

Преимущества АдаБуст:

Устойчив к выбросам и шуму.
Может обрабатывать многомерные наборы данных.
Относительно прост в реализации.

Недостатки AdaBoost:

Чувствителен к неправильной маркировке или выбросам.
Может быть вычислительно затратным.
Уязвим к переоснащению, если слабые классификаторы слишком сложны.

Пример кода (Python — с использованием scikit-learn):

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

# Initialize AdaBoost classifier with Decision Trees as weak learners
adaboost = AdaBoostClassifier(base_estimator=DecisionTreeClassifier(), n_estimators=50)

# Train the classifier
adaboost.fit(X_train, y_train)

# Make predictions
predictions = adaboost.predict(X_test)

Повышение градиента:

Gradient Boosting поэтапно строит ансамбль моделей слабого прогнозирования.

Пройдемся по шагам:

Шаг 1. Инициализируйте модель с постоянным значением (например, средним значением целевой переменной).
Шаг 2. Рассчитайте отрицательный градиент функции потерь по отношению к предсказаниям текущей модели.
Шаг 3. Подгонка слабого обучаемого (например, дерева решений) к отрицательному градиенту.
Шаг 4. Обновите модель, добавив прогнозы слабого ученика, взвешенные по скорости обучения.
Шаг 5. Повторите шаги 2–4 для заданного количества итераций.
Шаг 6. Сделайте прогнозы, просуммировав прогнозы всех слабых учащихся.

Преимущества повышения градиента:

Обрабатывает различные типы данных и функции потерь.
Может фиксировать сложные отношения между функциями.
Менее склонен к переоснащению по сравнению с AdaBoost.

Недостатки повышения градиента:

Чувствителен к настройке гиперпараметров.
Требует больших вычислительных ресурсов и времени.
Может потребоваться больше данных для хорошего обобщения.

Пример кода (Python — с использованием библиотеки XGBoost):

import xgboost as xgb

# Initialize gradient boosting classifier
gbm = xgb.XGBClassifier(n_estimators=100, learning_rate=0.1)

# Train the classifier
gbm.fit(X_train, y_train)

# Make predictions
predictions = gbm.predict(X_test)

Стохастическое повышение градиента:

Стохастическое повышение градиента, также известное как повышение градиента с подвыборкой, вводит случайность, обучая каждого слабого ученика на случайно выбранном подмножестве обучающих данных.

Вот шаги:

Шаг 1. Произведите выборку случайного подмножества обучающих данных.
Шаг 2. Сопоставьте слабого учащегося с выбранным подмножеством.
Шаг 3. Обновите модель, добавив прогнозы слабого ученика, взвешенные по скорости обучения.
Шаг 4.Повторите шаги 1–3 для предопределенного количества итераций.
Шаг 5. Сделайте прогнозы, суммируя прогнозы всех слабых учащихся.

Преимущества стохастического повышения градиента:

Уменьшает переоснащение за счет введения случайности.
Подходит для больших наборов данных.
Может ускорить процесс обучения.

Недостатки стохастического повышения градиента:

Случайность может привести к тому, что в каждом прогоне будут разные модели.
Требуется тщательная настройка параметров субдискретизации.
Может быть чувствителен к зашумленным данным.

Пример кода (Python — с использованием библиотеки LightGBM):

import lightgbm as lgb

# Define parameters for the gradient boosting model
params = {'boosting_type': 'gbdt', 'objective': 'binary', 'metric': 'binary_logloss'}

# Create dataset
train_data = lgb.Dataset(X_train, label=y_train)

# Train the model
gbm = lgb.train(params, train_data, num_boost_round=100)

# Make predictions
predictions = gbm.predict(X_test)

CatBoost

CatBoost — это алгоритм повышения градиента, который легко обрабатывает категориальные функции. Он сочетает в себе аспекты AdaBoost и Gradient Boosting.

Давайте рассмотрим его шаги:

Шаг 1. Предварительно обработайте категориальные признаки с помощью прямого кодирования или других методов.
Шаг 2. Инициализируйте модель с гиперпараметрами по умолчанию.
Шаг 3. Повторите предопределенное количество этапов повышения.
Шаг 4. Постройте дерево на подмножестве обучающих данных, используя оптимизацию на основе градиента.
Шаг 5. Примените вычисление конечного значения на основе градиента, чтобы улучшить дерево.
Шаг 6. Объедините деревья, чтобы делать прогнозы.

Преимущества CatBoost:

Обрабатывает категориальные функции без предварительной обработки.
Обеспечивает лучшую точность с гиперпараметрами по умолчанию.
Предлагает встроенные инструменты для анализа важности функций и моделей.

Недостатки CatBoost:

Более медленное время обучения по сравнению с другими алгоритмами.
Требует больше памяти из-за внутренней индексации.
Ограниченная интерпретируемость по сравнению с более простыми моделями.

Пример кода (Python — с использованием библиотеки CatBoost):

from catboost import CatBoostClassifier

# Initialize CatBoost classifier
catboost = CatBoostClassifier(iterations=100, learning_rate=0.1, depth=6, loss_function='Logloss')

# Train the classifier
catboost.fit(X_train, y_train)

# Make predictions
predictions = catboost.predict(X_test)

Сравнение алгоритмов повышения

Примеры из практической жизни:

AdaBoost: распознавание лиц, категоризация текста.
Повышение градиента: проблемы регрессии, обнаружение аномалий.
Stochastic Gradient Boosting: системы рекомендаций, обнаружение мошенничества.
CatBoost: прогнозирование рейтинга кликов, прогнозирование оттока клиентов.

Заключение

Алгоритмы повышения, в том числе AdaBoost, Gradient Boosting, Stochastic Gradient Boosting и CatBoost, являются мощными инструментами для построения прогностических моделей. У каждого алгоритма есть свои сильные и слабые стороны, что делает их подходящими для разных сценариев. Понимая их пошаговые процедуры, преимущества, недостатки и практические примеры, вы можете выбрать наиболее подходящий алгоритм для вашего конкретного случая использования. Не забывайте экспериментировать и настраивать гиперпараметры для достижения наилучшей производительности.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning