Имея в своем распоряжении множество алгоритмов машинного обучения, таких как простая линейная регрессия, полиномиальная линейная регрессия, модели классификации, такие как логистическая регрессия, вам может быть сложно выбрать наиболее подходящий для вашего конкретного приложения ML. В этой статье обсуждаются шаги по выбору идеальной модели на основе интуиции R-квадрата и скорректированного R-квадрата.
Интуиция в квадрате
Рассмотрим модель линейной регрессии с набором точек данных. Черная линия на диаграмме ниже обозначает линию регрессии. Пунктирные зеленые линии указывают остаточное расстояние между точкой данных и линией регрессии.
Теперь сумму квадратов остаточного расстояния от точки данных до линии регрессии можно обозначить следующим уравнением.
Теперь приступим к рисованию средней линии по оси Y графика, которая указывает среднее значение всех точек данных по оси Y.
Сумма квадрата расстояния от точки данных до средней линии по оси Y может быть обозначена как
Обсуждаемая нами величина R-квадрата представлена как
Здесь главное понимать, что сумма квадратов расстояния между точками данных и линией регрессии (SS res) должна быть минимальной. Другими словами, значение R-квадрата должно быть ближе всего к 1. Значение R-квадрата является показателем того, насколько хороша ваша линия по сравнению со средним значением. В идеальном сценарии ваша линия регрессии будет идеально проходить через все точки данных, в результате чего сумма квадратов остатков равна 0, следовательно, результирующее значение R-квадрата равно 1. Кроме того, значение R-квадрата также может быть отрицательным. Однако в большинстве случаев значение находится в диапазоне от 0 до 1.
Скорректированная интуиция в квадрате R
Теперь давайте рассмотрим уравнение множественной линейной регрессии, в котором есть более одной переменной, влияющей на результат.
Цель здесь состоит в том, чтобы сделать сумму квадратов остатка, ближайшую к 0, поскольку мы ожидаем, что значение R-квадрата будет больше (ближе всего к 1). Здесь мы исследуем, сделает ли добавление этой дополнительной переменной к нашей модели прогноз более точным или нет. В идеале, когда вы добавляете дополнительную переменную, значение R-квадрат не должно уменьшаться. Мы можем добавить в нашу модель столько переменных, сколько захотим, но трудно сказать, как это повлияет на нашу модель. Поэтому нам нужна другая формула, чтобы решить, подходит модель или нет. Здесь используется интуиция скорректированного R-квадрата.
Здесь «p» указывает количество регрессоров (независимых переменных), а «n» указывает размер выборки. Если добавленная вами переменная «p» (также называемая штрафным коэффициентом) уменьшает скорректированное значение R-квадрата, то модель не подходит для вашего приложения. Однако, если регрессор «p» приводит к увеличению скорректированного значения R-квадрата, то можно сделать вывод, что модель хорошо подходит для вашего приложения ML.
Как найти скорректированное значение R-квадрат в Python?
Python, являющийся одним из наиболее распространенных языков, используемых в машинном обучении, имеет API, который помогает вам решить, подходит ли конкретная модель или нет. Однако существуют определенные предпосылки, которые необходимо выполнить, прежде чем вы сможете сделать вывод о том, подходит ли конкретная модель для данного приложения. Во-первых, данные должны быть в формате .csv. Он должен содержать характеристики в первом столбце и зависимую переменную в последнем столбце. Недостающие данные необходимо предварительно обработать, категориальных данных не должно быть (должна быть выполнена предварительная обработка данных).
Чтобы найти любую функцию, включая скорректированное значение R-квадрата, мы можем получить доступ к Scikit-learn Python API и выполнить поиск по «метрикам регрессии». API оценки R-квадрата помогает нам определить скорректированное значение R-квадрата для конкретной модели.
Чтобы оценить модель, которая лучше всего подходит для приложения, примените указанный выше API Scikit learn на Python, чтобы получить скорректированное значение R-квадрата, и выберите модель, которая имеет значение, наиболее близкое к 1.
Плюсы и минусы различных регрессионных моделей
У каждой регрессионной модели есть свои плюсы и минусы, которые необходимо учитывать, прежде чем применять их в приложении машинного обучения. Некоторые из них перечислены в таблице ниже.
Вывод
Теперь мы знаем, как значения R-квадрат и скорректированный R-квадрат влияют на пригодность регрессионной модели для вашего приложения машинного обучения. Также мы обсудили, как Scikit learn API в Python можно использовать для нахождения этих значений, которые можно использовать для сравнения различных моделей, а затем прийти к выводу, подходит ли он для вашего приложения машинного обучения.