Как обучить свою первую регрессионную модель.

В этой статье я предоставлю пошаговый метод построения регрессионной модели с использованием линейной регрессии sklearn.

Регрессионная модель — это контролируемая модель машинного обучения, которая прогнозирует значения на основе числовых или логических входных данных и предоставленных данных.

В этой статье мы будем использовать набор данных, полученный от Kaggle по адресу https://www.kaggle.com/datasets/mirichoi0218/insurance.

и я объясню, как работает модель.

ПРИМЕЧАНИЕ. Это чистый набор данных, полученный от kaggle. Повторная очистка не требуется для построения этой модели.

Во-первых, вы импортируете полезные функции, которые мы будем использовать, и читаете файл CSV с помощью pandas.

Вы можете узнать больше о данных, проверив первые 5 строк с помощью метода data.head().

Вы также можете получить столбцы, используя df.columns.

Статистика берется с помощью df.describe(), который показывает статистические наблюдения из числовых наборов данных.

Я дам более подробное объяснение этого в будущей статье об EDA (объяснительный анализ данных).

Чтобы обучить вашу модель, вам нужно преобразовать некоторые строки в категориальные переменные. Вы можете создать функцию, которая берет данные и столбец, а затем получает назначенный номер для конкретной категории. Затем вы можете вычислить каждое значение до и после изменения, используя df.value_counts.

Как только это будет сделано, вы разделите свои данные на x и y, где y является целевой переменной.

X использует остальные функции, поскольку мы используем все функции для прогнозирования целевой переменной y, которая будет содержать только целевой столбец.

Затем мы разделяем наши значения x и y на обучающий набор и тестовый набор, обучающий набор — это набор, используемый для обучения модели, а тестовый набор используется для оценки модели на основе того, что она узнала в обучающем наборе.

Затем мы следуем этим простым шагам, чтобы обучить модель, подгоняя ее к тренировочному набору и оценивая с помощью тестового набора.

И вот оно, точность 76,9%, использование model.score — это базовый способ оценки точности, хотя в следующих статьях я напишу о многом другом.

Но вот и все, вы только что обучили свою первую модель, чувствуете себя прекрасно?

Вот что происходит внизу.

Линейная регрессия использует алгоритм, аналогичный уравнению прямой.

Y=mx+c

C — точка пересечения, x — функция, m — градиент, а y — цель.

Мы можем найти, как они соотносятся, используя model.coef_ и model.intercept_

Перехват дается как -12364,39

А коэффициенты давались в виде массива

Тогда проще представить уравнение, сгенерированное компьютером, как это

сборы=-12364,39+(возраст*261,63)+(пол*109,65)+(ИМТ*344,54)+(дети*424,37)+(курильщик*23620,80)+(регион*-326,46)

Таким образом, для каждого из предоставленных значений он вычисляет числовую вероятность.
Надеюсь, вам понравилась эта статья, ставьте лайки, делитесь и комментируйте свои мысли, спасибо.