В области машинного обучения одним из наиболее эффективных способов повышения точности прогностических моделей является ансамблевое обучение.
Ансамбльное обучение — это мощный метод, который объединяет прогнозы нескольких моделей для повышения общей точности системы машинного обучения. В этой статье мы рассмотрим различные типы ансамблевого обучения и некоторые популярные модели в каждом типе.

Проблемы машинного обучения, такие как классификация, регрессия и кластеризация, могут быть решены с помощью ансамблевого обучения.Бэггинг и ускорение — два основных подхода, используемых в ансамблевом обучении.

1- Упаковка

что упаковывается?

Бэгинг означает «Агрегация начальной загрузки». Это метод, при котором несколько экземпляров одной и той же модели обучаются на разных подмножествах обучающих данных. Подмножества создаются путем выборки обучающих данных с заменой, что означает, что некоторые выборки могут появляться в нескольких подмножествах, а другие могут вообще не появляться. Этот процесс называется загрузкой.

После того, как модели обучены на соответствующих подмножествах, они объединяются для создания ансамбля. Есть два способа объединить прогнозы моделей:

1- Голосование: каждая модель прогнозирует класс данной выборки, и класс, набравший наибольшее количество голосов, становится окончательным прогнозом. Например, если есть 3модели, и 2 модели предсказывают класс «Яблоко», а 1модель предсказывает класс «Апельсин», то окончательный прогноз будет класс «Яблоко».

2-усреднение: каждая модель прогнозирует распределение вероятностей по классам, и вероятности усредняются по всем моделям. Класс с наибольшей средней вероятностью становится окончательным прогнозом.

Некоторые популярные алгоритмы ансамбля, основанные на этом подходе?

  1. Случайный лес: объединяет несколько деревьев решений, каждое из которых обучено случайному подмножеству функций и образцов данных. Затем окончательный прогноз определяется путем объединения прогнозов всех отдельных деревьев.
  2. Сгруппированные деревья решений: базовая реализация пакетирования, при которой несколько деревьев решений обучаются на разных подмножествах обучающих данных. Окончательный прогноз определяется путем объединения прогнозов всех отдельных деревьев.
  3. Дополнительные деревья. Аналогично Random Forest, но вместо начальной загрузки для создания обучающих подмножеств используются случайные разбиения.

Когда мы должны использовать мешки?

Бэггинг особенно полезен, когда отдельные модели имеют высокую дисперсию, что означает, что они чувствительны к шуму в обучающих данных.

2- Повышение

что такое бустинг?

Повышение – это метод, при котором несколько моделей обучаются последовательно, при этом каждая новая модель пытается исправить ошибки предыдущих моделей, сосредотачиваясь на примерах, которые были неправильно классифицированы. . Процесс является итеративным, и каждая модель обучается на одних и тех же обучающих данных, но с разными весами, присвоенными каждой выборке.

На первой итерации всем образцам присваиваются одинаковые веса, и модель обучается на обучающих данных. В последующих итерациях веса неправильно классифицированных образцов увеличиваются, а веса правильно классифицированных образцов уменьшаются. Этот процесс помогает моделям больше сосредоточиться на образцах, которые трудно классифицировать.

Процесс обучения повторяется в течение фиксированного количества итераций или до тех пор, пока производительность не перестанет улучшаться. Когда все модели обучены, они объединяются в ансамбль. Наиболее распространенным способом объединения прогнозов моделей является взвешенное голосование, при котором прогноз каждой модели взвешивается по его точности на данных проверки.

Некоторые популярные алгоритмы ансамбля, основанные на этом подходе?

  1. Машины повышения градиента (GBM). Он последовательно обучает несколько деревьев решений, при этом каждое новое дерево пытается исправить ошибки предыдущих деревьев. Затем окончательный прогноз определяется путем объединения прогнозов всех отдельных деревьев.
  2. AdaBoost: классический алгоритм повышения, который присваивает более высокие веса ошибочно классифицированным образцам и обучает последующие модели на взвешенных образцах. Во время обучения алгоритм начинает с присвоения равных весов всем обучающим выборкам. Затем он обучает базовую модель на взвешенных выборках и корректирует веса на основе ошибок базовой модели. Затем алгоритм обучает новую модель обновленным весам и повторяет процесс до тех пор, пока не будет обучено нужное количество моделей. Затем окончательный прогноз определяется путем объединения прогнозов всех отдельных моделей.
  3. XGBoost : оптимизированная реализация повышения градиента, использующая регуляризацию и параллельную обработку для ускорения обучения и повышения точности. Во время обучения алгоритм использует тот же подход, что и GBM, где он последовательно обучает несколько деревьев решений, при этом каждое новое дерево пытается исправить ошибки предыдущих деревьев.
  4. CatBoost :алгоритм ансамблевого обучения на основе повышения градиента, который использует оптимизацию на основе градиента для деревьев решений. Во время обучения алгоритм использует тот же подход, что и другие алгоритмы на основе повышения градиента, где он последовательно обучает несколько деревьев решений, чтобы минимизировать ошибки прогнозирования.

Когда мы должны использовать Boosting?

Повышение особенно полезно, когда отдельные модели страдают большим смещением, что означает, что они не могут отразить сложность базовых данных. Повышение может помочь уменьшить систематическую ошибку, позволяя моделям больше сосредоточиться на сложных выборках.

3- Другие подходы к ансамблевому обучению

  1. Наложение: метод метамоделирования, который включает в себя обучение нескольких базовых моделей, а затем обучение модели более высокого уровня для объединения их прогнозов. Идея состоит в том, чтобы использовать прогнозы базовых моделей в качестве входных данных для модели более высокого уровня.
  2. Группа моделей . Метод, который включает в себя обучение нескольких моделей с различными конфигурациями и выбор лучшей модели на основе их производительности по проверочным данным. Этот метод может быть полезен, когда набор данных большой, а время обучения для отдельных моделей велико.
  3. Усреднение байесовской модели. Вероятностный метод, включающий усреднение прогнозов нескольких моделей, взвешенных по их апостериорной вероятности. Этот метод может быть полезен, когда есть неопределенность в параметрах модели.

Краткое содержание

Таким образом, ансамблевое обучение — это метод, который объединяет прогнозы нескольких моделей для создания более точного прогноза. Это может помочь преодолеть ограничения отдельных моделей и повысить точность моделей машинного обучения. Бэггинг и бустинг — два основных подхода к ансамблевому обучению. Используя ансамблевое обучение, мы можем добиться лучших результатов в решении широкого круга задач машинного обучения.