Как выбрать лучшую регрессионную модель для вашего ML-приложения?

Имея в своем распоряжении множество алгоритмов машинного обучения, таких как простая линейная регрессия, полиномиальная линейная регрессия, модели классификации, такие как логистическая регрессия, вам может быть сложно выбрать наиболее подходящий для вашего конкретного приложения ML. В этой статье обсуждаются шаги по выбору идеальной модели на основе интуиции R-квадрата и скорректированного R-квадрата.

Интуиция в квадрате

Рассмотрим модель линейной регрессии с набором точек данных. Черная линия на диаграмме ниже обозначает линию регрессии. Пунктирные зеленые линии указывают остаточное расстояние между точкой данных и линией регрессии.

Теперь сумму квадратов остаточного расстояния от точки данных до линии регрессии можно обозначить следующим уравнением.

Теперь приступим к рисованию средней линии по оси Y графика, которая указывает среднее значение всех точек данных по оси Y.

Сумма квадрата расстояния от точки данных до средней линии по оси Y может быть обозначена как

Обсуждаемая нами величина R-квадрата представлена как

Здесь главное понимать, что сумма квадратов расстояния между точками данных и линией регрессии (SS res) должна быть минимальной. Другими словами, значение R-квадрата должно быть ближе всего к 1. Значение R-квадрата является показателем того, насколько хороша ваша линия по сравнению со средним значением. В идеальном сценарии ваша линия регрессии будет идеально проходить через все точки данных, в результате чего сумма квадратов остатков равна 0, следовательно, результирующее значение R-квадрата равно 1. Кроме того, значение R-квадрата также может быть отрицательным. Однако в большинстве случаев значение находится в диапазоне от 0 до 1.

Скорректированная интуиция в квадрате R

Теперь давайте рассмотрим уравнение множественной линейной регрессии, в котором есть более одной переменной, влияющей на результат.

Цель здесь состоит в том, чтобы сделать сумму квадратов остатка, ближайшую к 0, поскольку мы ожидаем, что значение R-квадрата будет больше (ближе всего к 1). Здесь мы исследуем, сделает ли добавление этой дополнительной переменной к нашей модели прогноз более точным или нет. В идеале, когда вы добавляете дополнительную переменную, значение R-квадрат не должно уменьшаться. Мы можем добавить в нашу модель столько переменных, сколько захотим, но трудно сказать, как это повлияет на нашу модель. Поэтому нам нужна другая формула, чтобы решить, подходит модель или нет. Здесь используется интуиция скорректированного R-квадрата.

Здесь «p» указывает количество регрессоров (независимых переменных), а «n» указывает размер выборки. Если добавленная вами переменная «p» (также называемая штрафным коэффициентом) уменьшает скорректированное значение R-квадрата, то модель не подходит для вашего приложения. Однако, если регрессор «p» приводит к увеличению скорректированного значения R-квадрата, то можно сделать вывод, что модель хорошо подходит для вашего приложения ML.

Как найти скорректированное значение R-квадрат в Python?

Python, являющийся одним из наиболее распространенных языков, используемых в машинном обучении, имеет API, который помогает вам решить, подходит ли конкретная модель или нет. Однако существуют определенные предпосылки, которые необходимо выполнить, прежде чем вы сможете сделать вывод о том, подходит ли конкретная модель для данного приложения. Во-первых, данные должны быть в формате .csv. Он должен содержать характеристики в первом столбце и зависимую переменную в последнем столбце. Недостающие данные необходимо предварительно обработать, категориальных данных не должно быть (должна быть выполнена предварительная обработка данных).

Чтобы найти любую функцию, включая скорректированное значение R-квадрата, мы можем получить доступ к Scikit-learn Python API и выполнить поиск по «метрикам регрессии». API оценки R-квадрата помогает нам определить скорректированное значение R-квадрата для конкретной модели.

Чтобы оценить модель, которая лучше всего подходит для приложения, примените указанный выше API Scikit learn на Python, чтобы получить скорректированное значение R-квадрата, и выберите модель, которая имеет значение, наиболее близкое к 1.

Плюсы и минусы различных регрессионных моделей

У каждой регрессионной модели есть свои плюсы и минусы, которые необходимо учитывать, прежде чем применять их в приложении машинного обучения. Некоторые из них перечислены в таблице ниже.

Вывод

Теперь мы знаем, как значения R-квадрат и скорректированный R-квадрат влияют на пригодность регрессионной модели для вашего приложения машинного обучения. Также мы обсудили, как Scikit learn API в Python можно использовать для нахождения этих значений, которые можно использовать для сравнения различных моделей, а затем прийти к выводу, подходит ли он для вашего приложения машинного обучения.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning