Алгоритм машинного обучения, изначально поддерживающий пропущенные значения

Нет необходимости явно обрабатывать отсутствующие значения

Реальный набор данных часто содержит много пропущенных значений, которые могут быть вызваны повреждением данных или невозможностью записи данных. Наличие пропущенных значений в данных может повлиять на надежность обученной модели. Исследователь данных должен явно обрабатывать отсутствующие значения во время конвейера предварительной обработки.

Существуют различные методы явной обработки отсутствующих значений в данных. В одной из моих предыдущих статей мы обсудили 7 методов обработки пропущенных значений в конвейере предварительной обработки:

7 способов обработки пропущенных значений в машинном обучении
Популярные стратегии обработки пропущенных значений в наборе данныхtowardsdatascience.com

Большинство алгоритмов машинного обучения не могут обрабатывать пропущенные значения в наборе данных, поэтому их необходимо обрабатывать до конвейера моделирования. В этой статье мы обсудим алгоритмы машинного обучения, которые не требуют явной обработки пропущенных значений:

Классификатор / регрессор с усилением градиента на основе гистограммы

Вышеупомянутые оценщики могут изначально поддерживать отсутствующие значения в наборе данных и не требуют явной обработки NaN перед моделированием.

Повышение градиента на основе гистограммы:

Повышение градиента — это метод ансамблевого машинного обучения, который использует обобщение алгоритмов повышения, таких как AdaBoost, для статистической структуры, которая рассматривает процесс обучения как аддитивную модель, повторно использующую произвольные потери предыдущей сети для улучшения возможностей оценщика.

Gradient Boosting последовательно добавляет древовидные модели в ансамбль, где каждая из древовидных моделей пытается исправить ошибки предыдущей модели.

Библиотека Scikit-learn предлагает экспериментальную реализацию повышения градиента, которая поддерживает технику гистограммы. Он предлагает классы HistGradientBoostingClassifier и HistGradientBoostingRegressor, реализующие задачи классификации и регрессии соответственно.

Согласно документации scikit-learn:

Этот оценщик имеет встроенную поддержку пропущенных значений (NaN). Во время обучения модели дерево учится при каждом разбиении, должны ли отсутствующие образцы следовать за левым или правым дочерним элементом, в зависимости от потенциального выигрыша. Во время вывода отсутствующие записи выборки последовательно назначаются левому или правому дочернему элементу. Если для признака обучающей выборки не обнаружено отсутствующих записей, то эти выборки сопоставляются с дочерним элементом с наибольшим количеством выборок.

Алгоритмы повышения градиента требуют больших вычислительных ресурсов, поскольку каждое из деревьев обучается и объединяется последовательно, поэтому не может обучаться параллельно. Реализация Gradient Boosting на основе гистограммы сравнительно намного быстрее, чем GradientBoostingClassifier для больших наборов данных.

Выполнение:

Источник набора данных: я буду использовать титанический набор данных с открытым исходным кодом, загруженный с openml.org, чтобы продемонстрировать реализацию. Набор данных публично и свободно доступен в соответствии с юридическими условиями Creative Commons.

Пакет Scikit-learn предлагает класс HistGradientBoostingClassifier, реализующий классификатор Gradient Boosting на основе гистограммы. Титанический набор данных содержит много пропущенных значений, которые не требуют вменения или обработки в явном виде.

Титанический набор данных содержит 891 экземпляр, а функции: «Возраст», «Посадка» имеют пропущенные значения.

После кодирования категориальных признаков и разделения выборки данных на обучающую и тестовую выборки.

Обратите внимание, что мы не обработали пропущенные значения на этапах предварительной обработки, а данные обучения и тестирования уже имеют пропущенные значения.

Теперь давайте реализуем алгоритм HistGradientBoostingClassifier.

Scikit-learn также предлагает регрессионную реализацию повышения градиента на основе гистограммы с классом HistGradientBoostingRegressor..

Другие алгоритмы, изначально поддерживающие пропущенные значения:

Алгоритмы k-NN и Random Forest также могут поддерживать пропущенные значения. алгоритм k-NN рассматривает пропущенные значения, беря большинство K ближайших значений. К сожалению, реализация k-NN и RandomForest в библиотеке scikit-learn не поддерживает наличие пропущенных значений.

Заключение:

В этой статье мы обсудили алгоритмы повышения градиента на основе гистограмм, вдохновленные LightGBM и намного быстрее, чем GradientBoostingClassifier для больших наборов данных.

В моей предыдущей статье мы обсудили 7 методов явной обработки пропущенных значений:

Если в выборке данных много пропущенных значений, мы можем предсказать пропущенные записи, используя оставшиеся данные. Я кратко обсуждал это в одной из моих предыдущих статей:

Использованная литература:

[1] Документация Scikit-learn: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingClassifier.html

[2] Набор данных Titanic (Общедоступно): https://www.openml.org/d/40945

Спасибо за чтение

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning