Алгоритмы классификации: параметрические против. Непараметрический

В моем последнем сообщении в блоге я обсуждал линейную регрессию, мощный инструмент, используемый специалистами по обработке и анализу данных, чтобы получить представление о взаимосвязи между непрерывными переменными. Например, прогнозирование продаж в зависимости от расходов на маркетинг. Но что, если вместо прогнозирования продаж вы хотите предсказать непостоянную переменную, такую как отток клиентов. Остался ли клиент у поставщика услуг или ушел? Это пример задачи бинарной классификации, цель которой состоит в том, чтобы предсказать вероятность дискретного результата, такого как «да» или «нет», «истина» или «ложь». В задаче классификации с несколькими классами точки данных можно разделить на несколько дискретных классов, таких как синий, зеленый или красный. Линейная регрессия бесполезна для задач классификации, но, к счастью, набор инструментов для обработки и анализа данных включает ряд альтернативных алгоритмов машинного обучения, предназначенных для решения подобных задач. Цель этого блога — предоставить обзор трех мощных алгоритмов классификации, что значит быть параметрическим или непараметрическим алгоритмом, а также помочь вам понять различные сценарии, которые заставят вас выбрать одну модель вместо другой.

Логистическая регрессия — один из самых популярных алгоритмов параметрической классификации, который используется для определения вероятности определенного результата при заданном наборе входных данных. Он основан на модели линейной регрессии и использует уравнение для расчета выходной вероятности на основе входных переменных. Выходная вероятность затем подвергается сигмовидной функции для определения бинарного результата. Логистическая регрессия особенно полезна для прогнозирования бинарных результатов, таких как «да» или «нет», «истина» или «ложь».

Деревья решений — популярный алгоритм непараметрической классификации. Этот алгоритм использует древовидную структуру для разделения данных на разные ветви. Затем каждая ветвь делится на основе данных до тех пор, пока не будет принято окончательное решение. Деревья решений полезны для классификации данных по нескольким категориям и могут использоваться для построения сложных моделей.

K-ближайшие соседи (KNN) — еще один непараметрический алгоритм, используемый для классификации. Этот алгоритм использует меру расстояния для определения k ближайших соседей точки данных. Затем точка данных присваивается классу ее ближайших соседей. KNN часто используется для классификации данных по нескольким категориям и особенно полезен для работы с большими наборами данных.

В конечном счете выбор между параметрическим алгоритмом, таким как логистическая регрессия, и непараметрическими алгоритмами, такими как деревья решений и KNN, зависит от данных, с которыми вы имеете дело, и типа проблемы, которую вы пытаетесь решить.

Алгоритмы параметрического машинного обучения — это алгоритмы, которые делают предположения о данных, которые они анализируют. Предположения называются параметрами, отсюда и название «параметрический». Эти алгоритмы предполагают, что данные имеют определенную структуру, такую как линейная зависимость или нормальное распределение. Предположения могут упростить процесс обучения на основе данных, поскольку структуру данных можно использовать для более точных прогнозов. Однако это также означает, что если данные не соответствуют предполагаемой структуре, то прогнозы, сделанные алгоритмом, могут быть неточными.

С другой стороны, непараметрические алгоритмы машинного обучения не делают никаких предположений о данных. Вместо этого они используют представления данных, которые не зависят от какой-либо конкретной структуры. Это означает, что непараметрические алгоритмы могут учиться на данных, даже если данные не соответствуют какому-либо определенному шаблону, что делает их более гибкими и способными обрабатывать более широкий диапазон данных. Однако компромисс заключается в том, что им может потребоваться больше данных для точных прогнозов.

Вывод здесь заключается в том, что машинное обучение — это разнообразный набор инструментов, способный решать широкий спектр задач. Как только вы поймете свои данные и проблему, есть большая вероятность, что нужный вам инструмент уже ждет вас. Спасибо за прочтение!

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning