Плюсы и минусы популярных алгоритмов контролируемого обучения

Все мы использовали один из следующих алгоритмов контролируемого обучения для прогнозного анализа:

Логистическая регрессия
Хребтовая регрессия
Регрессия ЛАССО
Линейный дискриминантный анализ (LDA)
K Ближайшие соседи (KNN)
Наивный байесовский (NB)
Машина опорных векторов (SVM)
Древо решений
Случайный лес (РФ)
Повышение градиента

Но задумывались ли вы об их плюсах или минусах? Здесь я перечислил несколько:

1. Логистическая регрессия:

Плюсы:

а) Используется, когда данные линейно разделимы.

б) Его легче реализовать, интерпретировать и очень эффективно обучать.

c) Он дает меру того, насколько важен прогнозирующий фактор как в положительном, так и в отрицательном направлении.

Минусы:

a) Он может превосходно соответствовать объемным наборам данных.

б) Не поддерживает нелинейную связь между предсказателем и результатом.

2. Регрессия хребта:

Плюсы:

а) Предотвращает переоснащение при больших размерах.

б) Уравновешивает компромисс между отклонением и отклонением. Иногда смещение выше нуля может дать лучшее соответствие, чем высокая дисперсия и нулевое смещение.

Минусы:

а) Это увеличивает предвзятость.

б) Нам нужно выбрать оптимальную альфа (гиперпараметр)

в) Интерпретируемость модели низкая.

3. Регрессия ЛАССО:

Плюсы:

а) Выполняет выбор характеристик, уменьшая коэффициенты до нуля.

б) Избегает чрезмерной подгонки.

Минусы:

а) Выбранные функции могут быть сильно предвзятыми.

b) Для n ‹

c) Для разных данных начальной загрузки выбранные функции могут сильно отличаться.

4. Линейный дискриминантный анализ (LDA):

Плюсы:

а) Это простой, быстрый и портативный алгоритм. Он по-прежнему превосходит некоторые алгоритмы (логистическая регрессия), когда его предположения выполняются.

Минусы:

a) Требуется предположение о нормальном распределении функций / предикторов.

б) Иногда не подходит для переменных нескольких категорий.

5. K Ближайшие соседи (KNN)

Плюсы:

а) Это самый простой алгоритм для реализации с одним параметром no. е соседи к.

б) Можно подключить любую метрику расстояния, даже определенную пользователем. Это позволяет работать со сложными объектами, такими как временные ряды, графики, географические координаты и практически все, для чего вы можете определить метрику расстояния.

c) Эти алгоритмы могут использоваться для классификации, ранжирования, регрессии (с использованием среднего или средневзвешенного значения соседей), рекомендаций, вменения отсутствующих значений и т. д.

Минусы:

а) KNN - ленивый ученик, потому что он не изучает веса модели или функцию из обучающих данных, а вместо этого «запоминает» обучающий набор данных. Следовательно, для вывода требуется больше времени, чем для обучения.

б) Это дистанционный подход, поэтому на модель могут сильно повлиять выбросы, другими словами, она склонна к переобучению.

c) Размер модели увеличивается с добавлением новых данных.

г) Модель страдает проклятием размерности.

6. Наивный Байес (NB)

Плюсы:

а) Легко и быстро предсказать класс набора тестовых данных. Он также хорошо работает при прогнозировании нескольких классов.

б) Когда выполняется предположение о независимости, классификатор NB работает лучше по сравнению с другими моделями, такими как логистическая регрессия, и вам нужно меньше данных для обучения.

Минусы:

a) Если категориальная переменная имеет категорию (в наборе тестовых данных), которая не наблюдалась в наборе обучающих данных, то модель присваивает вероятность 0 (ноль) и не сможет сделать прогноз. Это часто называют «нулевой частотой». Чтобы решить эту проблему, мы можем использовать технику сглаживания. Один из простейших методов сглаживания называется оценкой Лапласа.

б) Существует строгий набор допущений о распределении признаков, таких как нормальное, полиномиальное и т. д.

c) Существует также предположение о независимости предикторов. В реальной жизни получить полностью независимые предсказатели практически невозможно.

7. Машина опорных векторов (SVM):

Плюсы:

а) Он действительно хорошо работает с четким разделением

б) Это эффективно в пространствах большой размерности.

c) Он использует подмножество обучающих точек в функции принятия решения (называемых опорными векторами), поэтому он также эффективен с точки зрения памяти.

г) Он также эффективен при подгонке нелинейных моделей.

Минусы:

а) Он не работает, когда у нас большой набор данных, потому что обучение отнимает много времени.

б) Он также не работает очень хорошо, когда в наборе данных больше шума, т. е. целевые классы перекрываются.

c) SVM не выводит вероятность напрямую. Для преобразования вывода SVM в вероятность необходимо использовать другие методы.

8. Дерево решений:

Плюсы:

а) Легко понять и интерпретировать, идеально подходит для визуального представления.

б) Он требует небольшой предварительной обработки данных, т.е.нет необходимости в однократном кодировании, стандартизации и т. д.

в) Это непараметрическая модель. Следовательно, никаких предположений относительно распределения данных не требуется.

г) Выбор характеристик происходит автоматически. Так что неважные особенности не повлияют на результат.

Минусы:

а) Имеет тенденцию к переобучению.

б) Очень чувствительна. Небольшие изменения в данных могут сильно повлиять на прогноз (высокая дисперсия).

9. Случайный лес (РФ):

Плюсы:

а) Устойчив к выбросам. Это снижает риск переобучения.

б) Он также хорошо работает с нелинейными данными.

c) Он эффективно работает с большим набором данных.

г) Обычно он дает лучшую точность, чем другие алгоритмы классификации.

Минусы:

a) Случайные леса оказываются необъективными при работе с категориальными переменными.

б) Медленное обучение.

c) Он не подходит для линейных методов с большим количеством разреженных функций.

10. Повышение градиента:

Плюсы:

а) Повышение имеет простой для чтения и интерпретации алгоритм, что упрощает обработку его интерпретаций прогнозов.

б) Повышение давления - это надежный метод, позволяющий легко обуздать чрезмерную подгонку.

Минусы:

а) Он чувствителен к выбросам, поскольку каждый классификатор обязан исправлять ошибки в своих предшественниках. Таким образом, метод слишком зависим от выбросов.

б) Повышение практически невозможно масштабировать. Это связано с тем, что каждый оценщик основывает свою правильность на предыдущих предикторах, что затрудняет оптимизацию процедуры.

Надеюсь, вам понравилась эта статья. Пожалуйста, хлопайте в ладоши, пишите свои комментарии и подписывайтесь на меня, чтобы увидеть больше таких статей, связанных с наукой о данных.

Спасибо за чтение и до скорой встречи!

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning