Все мы использовали один из следующих алгоритмов контролируемого обучения для прогнозного анализа:

  1. Логистическая регрессия
  2. Хребтовая регрессия
  3. Регрессия ЛАССО
  4. Линейный дискриминантный анализ (LDA)
  5. K Ближайшие соседи (KNN)
  6. Наивный байесовский (NB)
  7. Машина опорных векторов (SVM)
  8. Древо решений
  9. Случайный лес (РФ)
  10. Повышение градиента

Но задумывались ли вы об их плюсах или минусах? Здесь я перечислил несколько:

1. Логистическая регрессия:

Плюсы:

а) Используется, когда данные линейно разделимы.

б) Его легче реализовать, интерпретировать и очень эффективно обучать.

c) Он дает меру того, насколько важен прогнозирующий фактор как в положительном, так и в отрицательном направлении.

Минусы:

a) Он может превосходно соответствовать объемным наборам данных.

б) Не поддерживает нелинейную связь между предсказателем и результатом.

2. Регрессия хребта:

Плюсы:

а) Предотвращает переоснащение при больших размерах.

б) Уравновешивает компромисс между отклонением и отклонением. Иногда смещение выше нуля может дать лучшее соответствие, чем высокая дисперсия и нулевое смещение.

Минусы:

а) Это увеличивает предвзятость.

б) Нам нужно выбрать оптимальную альфа (гиперпараметр)

в) Интерпретируемость модели низкая.

3. Регрессия ЛАССО:

Плюсы:

а) Выполняет выбор характеристик, уменьшая коэффициенты до нуля.

б) Избегает чрезмерной подгонки.

Минусы:

а) Выбранные функции могут быть сильно предвзятыми.

b) Для n ‹

c) Для разных данных начальной загрузки выбранные функции могут сильно отличаться.

4. Линейный дискриминантный анализ (LDA):

Плюсы:

а) Это простой, быстрый и портативный алгоритм. Он по-прежнему превосходит некоторые алгоритмы (логистическая регрессия), когда его предположения выполняются.

Минусы:

a) Требуется предположение о нормальном распределении функций / предикторов.

б) Иногда не подходит для переменных нескольких категорий.

5. K Ближайшие соседи (KNN)

Плюсы:

а) Это самый простой алгоритм для реализации с одним параметром no. е соседи к.

б) Можно подключить любую метрику расстояния, даже определенную пользователем. Это позволяет работать со сложными объектами, такими как временные ряды, графики, географические координаты и практически все, для чего вы можете определить метрику расстояния.

c) Эти алгоритмы могут использоваться для классификации, ранжирования, регрессии (с использованием среднего или средневзвешенного значения соседей), рекомендаций, вменения отсутствующих значений и т. д.

Минусы:

а) KNN - ленивый ученик, потому что он не изучает веса модели или функцию из обучающих данных, а вместо этого «запоминает» обучающий набор данных. Следовательно, для вывода требуется больше времени, чем для обучения.

б) Это дистанционный подход, поэтому на модель могут сильно повлиять выбросы, другими словами, она склонна к переобучению.

c) Размер модели увеличивается с добавлением новых данных.

г) Модель страдает проклятием размерности.

6. Наивный Байес (NB)

Плюсы:

а) Легко и быстро предсказать класс набора тестовых данных. Он также хорошо работает при прогнозировании нескольких классов.

б) Когда выполняется предположение о независимости, классификатор NB работает лучше по сравнению с другими моделями, такими как логистическая регрессия, и вам нужно меньше данных для обучения.

Минусы:

a) Если категориальная переменная имеет категорию (в наборе тестовых данных), которая не наблюдалась в наборе обучающих данных, то модель присваивает вероятность 0 (ноль) и не сможет сделать прогноз. Это часто называют «нулевой частотой». Чтобы решить эту проблему, мы можем использовать технику сглаживания. Один из простейших методов сглаживания называется оценкой Лапласа.

б) Существует строгий набор допущений о распределении признаков, таких как нормальное, полиномиальное и т. д.

c) Существует также предположение о независимости предикторов. В реальной жизни получить полностью независимые предсказатели практически невозможно.

7. Машина опорных векторов (SVM):

Плюсы:

а) Он действительно хорошо работает с четким разделением

б) Это эффективно в пространствах большой размерности.

c) Он использует подмножество обучающих точек в функции принятия решения (называемых опорными векторами), поэтому он также эффективен с точки зрения памяти.

г) Он также эффективен при подгонке нелинейных моделей.

Минусы:

а) Он не работает, когда у нас большой набор данных, потому что обучение отнимает много времени.

б) Он также не работает очень хорошо, когда в наборе данных больше шума, т. е. целевые классы перекрываются.

c) SVM не выводит вероятность напрямую. Для преобразования вывода SVM в вероятность необходимо использовать другие методы.

8. Дерево решений:

Плюсы:

а) Легко понять и интерпретировать, идеально подходит для визуального представления.

б) Он требует небольшой предварительной обработки данных, т.е.нет необходимости в однократном кодировании, стандартизации и т. д.

в) Это непараметрическая модель. Следовательно, никаких предположений относительно распределения данных не требуется.

г) Выбор характеристик происходит автоматически. Так что неважные особенности не повлияют на результат.

Минусы:

а) Имеет тенденцию к переобучению.

б) Очень чувствительна. Небольшие изменения в данных могут сильно повлиять на прогноз (высокая дисперсия).

9. Случайный лес (РФ):

Плюсы:

а) Устойчив к выбросам. Это снижает риск переобучения.

б) Он также хорошо работает с нелинейными данными.

c) Он эффективно работает с большим набором данных.

г) Обычно он дает лучшую точность, чем другие алгоритмы классификации.

Минусы:

a) Случайные леса оказываются необъективными при работе с категориальными переменными.

б) Медленное обучение.

c) Он не подходит для линейных методов с большим количеством разреженных функций.

10. Повышение градиента:

Плюсы:

а) Повышение имеет простой для чтения и интерпретации алгоритм, что упрощает обработку его интерпретаций прогнозов.

б) Повышение давления - это надежный метод, позволяющий легко обуздать чрезмерную подгонку.

Минусы:

а) Он чувствителен к выбросам, поскольку каждый классификатор обязан исправлять ошибки в своих предшественниках. Таким образом, метод слишком зависим от выбросов.

б) Повышение практически невозможно масштабировать. Это связано с тем, что каждый оценщик основывает свою правильность на предыдущих предикторах, что затрудняет оптимизацию процедуры.

Надеюсь, вам понравилась эта статья. Пожалуйста, хлопайте в ладоши, пишите свои комментарии и подписывайтесь на меня, чтобы увидеть больше таких статей, связанных с наукой о данных.

Спасибо за чтение и до скорой встречи!