В моем последнем сообщении в блоге я обсуждал линейную регрессию, мощный инструмент, используемый специалистами по обработке и анализу данных, чтобы получить представление о взаимосвязи между непрерывными переменными. Например, прогнозирование продаж в зависимости от расходов на маркетинг. Но что, если вместо прогнозирования продаж вы хотите предсказать непостоянную переменную, такую как отток клиентов. Остался ли клиент у поставщика услуг или ушел? Это пример задачи бинарной классификации, цель которой состоит в том, чтобы предсказать вероятность дискретного результата, такого как «да» или «нет», «истина» или «ложь». В задаче классификации с несколькими классами точки данных можно разделить на несколько дискретных классов, таких как синий, зеленый или красный. Линейная регрессия бесполезна для задач классификации, но, к счастью, набор инструментов для обработки и анализа данных включает ряд альтернативных алгоритмов машинного обучения, предназначенных для решения подобных задач. Цель этого блога — предоставить обзор трех мощных алгоритмов классификации, что значит быть параметрическим или непараметрическим алгоритмом, а также помочь вам понять различные сценарии, которые заставят вас выбрать одну модель вместо другой.
Логистическая регрессия — один из самых популярных алгоритмов параметрической классификации, который используется для определения вероятности определенного результата при заданном наборе входных данных. Он основан на модели линейной регрессии и использует уравнение для расчета выходной вероятности на основе входных переменных. Выходная вероятность затем подвергается сигмовидной функции для определения бинарного результата. Логистическая регрессия особенно полезна для прогнозирования бинарных результатов, таких как «да» или «нет», «истина» или «ложь».
Деревья решений — популярный алгоритм непараметрической классификации. Этот алгоритм использует древовидную структуру для разделения данных на разные ветви. Затем каждая ветвь делится на основе данных до тех пор, пока не будет принято окончательное решение. Деревья решений полезны для классификации данных по нескольким категориям и могут использоваться для построения сложных моделей.
K-ближайшие соседи (KNN) — еще один непараметрический алгоритм, используемый для классификации. Этот алгоритм использует меру расстояния для определения k ближайших соседей точки данных. Затем точка данных присваивается классу ее ближайших соседей. KNN часто используется для классификации данных по нескольким категориям и особенно полезен для работы с большими наборами данных.
В конечном счете выбор между параметрическим алгоритмом, таким как логистическая регрессия, и непараметрическими алгоритмами, такими как деревья решений и KNN, зависит от данных, с которыми вы имеете дело, и типа проблемы, которую вы пытаетесь решить.
Алгоритмы параметрического машинного обучения — это алгоритмы, которые делают предположения о данных, которые они анализируют. Предположения называются параметрами, отсюда и название «параметрический». Эти алгоритмы предполагают, что данные имеют определенную структуру, такую как линейная зависимость или нормальное распределение. Предположения могут упростить процесс обучения на основе данных, поскольку структуру данных можно использовать для более точных прогнозов. Однако это также означает, что если данные не соответствуют предполагаемой структуре, то прогнозы, сделанные алгоритмом, могут быть неточными.
С другой стороны, непараметрические алгоритмы машинного обучения не делают никаких предположений о данных. Вместо этого они используют представления данных, которые не зависят от какой-либо конкретной структуры. Это означает, что непараметрические алгоритмы могут учиться на данных, даже если данные не соответствуют какому-либо определенному шаблону, что делает их более гибкими и способными обрабатывать более широкий диапазон данных. Однако компромисс заключается в том, что им может потребоваться больше данных для точных прогнозов.
Вывод здесь заключается в том, что машинное обучение — это разнообразный набор инструментов, способный решать широкий спектр задач. Как только вы поймете свои данные и проблему, есть большая вероятность, что нужный вам инструмент уже ждет вас. Спасибо за прочтение!