Все мы использовали один из следующих алгоритмов контролируемого обучения для прогнозного анализа:
- Логистическая регрессия
- Хребтовая регрессия
- Регрессия ЛАССО
- Линейный дискриминантный анализ (LDA)
- K Ближайшие соседи (KNN)
- Наивный байесовский (NB)
- Машина опорных векторов (SVM)
- Древо решений
- Случайный лес (РФ)
- Повышение градиента
Но задумывались ли вы об их плюсах или минусах? Здесь я перечислил несколько:
1. Логистическая регрессия:
Плюсы:
а) Используется, когда данные линейно разделимы.
б) Его легче реализовать, интерпретировать и очень эффективно обучать.
c) Он дает меру того, насколько важен прогнозирующий фактор как в положительном, так и в отрицательном направлении.
Минусы:
a) Он может превосходно соответствовать объемным наборам данных.
б) Не поддерживает нелинейную связь между предсказателем и результатом.
2. Регрессия хребта:
Плюсы:
а) Предотвращает переоснащение при больших размерах.
б) Уравновешивает компромисс между отклонением и отклонением. Иногда смещение выше нуля может дать лучшее соответствие, чем высокая дисперсия и нулевое смещение.
Минусы:
а) Это увеличивает предвзятость.
б) Нам нужно выбрать оптимальную альфа (гиперпараметр)
в) Интерпретируемость модели низкая.
3. Регрессия ЛАССО:
Плюсы:
а) Выполняет выбор характеристик, уменьшая коэффициенты до нуля.
б) Избегает чрезмерной подгонки.
Минусы:
а) Выбранные функции могут быть сильно предвзятыми.
b) Для n ‹
c) Для разных данных начальной загрузки выбранные функции могут сильно отличаться.
4. Линейный дискриминантный анализ (LDA):
Плюсы:
а) Это простой, быстрый и портативный алгоритм. Он по-прежнему превосходит некоторые алгоритмы (логистическая регрессия), когда его предположения выполняются.
Минусы:
a) Требуется предположение о нормальном распределении функций / предикторов.
б) Иногда не подходит для переменных нескольких категорий.
5. K Ближайшие соседи (KNN)
Плюсы:
а) Это самый простой алгоритм для реализации с одним параметром no. е соседи к.
б) Можно подключить любую метрику расстояния, даже определенную пользователем. Это позволяет работать со сложными объектами, такими как временные ряды, графики, географические координаты и практически все, для чего вы можете определить метрику расстояния.
c) Эти алгоритмы могут использоваться для классификации, ранжирования, регрессии (с использованием среднего или средневзвешенного значения соседей), рекомендаций, вменения отсутствующих значений и т. д.
Минусы:
а) KNN - ленивый ученик, потому что он не изучает веса модели или функцию из обучающих данных, а вместо этого «запоминает» обучающий набор данных. Следовательно, для вывода требуется больше времени, чем для обучения.
б) Это дистанционный подход, поэтому на модель могут сильно повлиять выбросы, другими словами, она склонна к переобучению.
c) Размер модели увеличивается с добавлением новых данных.
г) Модель страдает проклятием размерности.
6. Наивный Байес (NB)
Плюсы:
а) Легко и быстро предсказать класс набора тестовых данных. Он также хорошо работает при прогнозировании нескольких классов.
б) Когда выполняется предположение о независимости, классификатор NB работает лучше по сравнению с другими моделями, такими как логистическая регрессия, и вам нужно меньше данных для обучения.
Минусы:
a) Если категориальная переменная имеет категорию (в наборе тестовых данных), которая не наблюдалась в наборе обучающих данных, то модель присваивает вероятность 0 (ноль) и не сможет сделать прогноз. Это часто называют «нулевой частотой». Чтобы решить эту проблему, мы можем использовать технику сглаживания. Один из простейших методов сглаживания называется оценкой Лапласа.
б) Существует строгий набор допущений о распределении признаков, таких как нормальное, полиномиальное и т. д.
c) Существует также предположение о независимости предикторов. В реальной жизни получить полностью независимые предсказатели практически невозможно.
7. Машина опорных векторов (SVM):
Плюсы:
а) Он действительно хорошо работает с четким разделением
б) Это эффективно в пространствах большой размерности.
c) Он использует подмножество обучающих точек в функции принятия решения (называемых опорными векторами), поэтому он также эффективен с точки зрения памяти.
г) Он также эффективен при подгонке нелинейных моделей.
Минусы:
а) Он не работает, когда у нас большой набор данных, потому что обучение отнимает много времени.
б) Он также не работает очень хорошо, когда в наборе данных больше шума, т. е. целевые классы перекрываются.
c) SVM не выводит вероятность напрямую. Для преобразования вывода SVM в вероятность необходимо использовать другие методы.
8. Дерево решений:
Плюсы:
а) Легко понять и интерпретировать, идеально подходит для визуального представления.
б) Он требует небольшой предварительной обработки данных, т.е.нет необходимости в однократном кодировании, стандартизации и т. д.
в) Это непараметрическая модель. Следовательно, никаких предположений относительно распределения данных не требуется.
г) Выбор характеристик происходит автоматически. Так что неважные особенности не повлияют на результат.
Минусы:
а) Имеет тенденцию к переобучению.
б) Очень чувствительна. Небольшие изменения в данных могут сильно повлиять на прогноз (высокая дисперсия).
9. Случайный лес (РФ):
Плюсы:
а) Устойчив к выбросам. Это снижает риск переобучения.
б) Он также хорошо работает с нелинейными данными.
c) Он эффективно работает с большим набором данных.
г) Обычно он дает лучшую точность, чем другие алгоритмы классификации.
Минусы:
a) Случайные леса оказываются необъективными при работе с категориальными переменными.
б) Медленное обучение.
c) Он не подходит для линейных методов с большим количеством разреженных функций.
10. Повышение градиента:
Плюсы:
а) Повышение имеет простой для чтения и интерпретации алгоритм, что упрощает обработку его интерпретаций прогнозов.
б) Повышение давления - это надежный метод, позволяющий легко обуздать чрезмерную подгонку.
Минусы:
а) Он чувствителен к выбросам, поскольку каждый классификатор обязан исправлять ошибки в своих предшественниках. Таким образом, метод слишком зависим от выбросов.
б) Повышение практически невозможно масштабировать. Это связано с тем, что каждый оценщик основывает свою правильность на предыдущих предикторах, что затрудняет оптимизацию процедуры.
Надеюсь, вам понравилась эта статья. Пожалуйста, хлопайте в ладоши, пишите свои комментарии и подписывайтесь на меня, чтобы увидеть больше таких статей, связанных с наукой о данных.
Спасибо за чтение и до скорой встречи!