Как обучить свою первую регрессионную модель.
В этой статье я предоставлю пошаговый метод построения регрессионной модели с использованием линейной регрессии sklearn.
Регрессионная модель — это контролируемая модель машинного обучения, которая прогнозирует значения на основе числовых или логических входных данных и предоставленных данных.
В этой статье мы будем использовать набор данных, полученный от Kaggle по адресу https://www.kaggle.com/datasets/mirichoi0218/insurance.
и я объясню, как работает модель.
ПРИМЕЧАНИЕ. Это чистый набор данных, полученный от kaggle. Повторная очистка не требуется для построения этой модели.
Во-первых, вы импортируете полезные функции, которые мы будем использовать, и читаете файл CSV с помощью pandas.
Вы можете узнать больше о данных, проверив первые 5 строк с помощью метода data.head().
Вы также можете получить столбцы, используя df.columns.
Статистика берется с помощью df.describe(), который показывает статистические наблюдения из числовых наборов данных.
Я дам более подробное объяснение этого в будущей статье об EDA (объяснительный анализ данных).
Чтобы обучить вашу модель, вам нужно преобразовать некоторые строки в категориальные переменные. Вы можете создать функцию, которая берет данные и столбец, а затем получает назначенный номер для конкретной категории. Затем вы можете вычислить каждое значение до и после изменения, используя df.value_counts.
Как только это будет сделано, вы разделите свои данные на x и y, где y является целевой переменной.
X использует остальные функции, поскольку мы используем все функции для прогнозирования целевой переменной y, которая будет содержать только целевой столбец.
Затем мы разделяем наши значения x и y на обучающий набор и тестовый набор, обучающий набор — это набор, используемый для обучения модели, а тестовый набор используется для оценки модели на основе того, что она узнала в обучающем наборе.
Затем мы следуем этим простым шагам, чтобы обучить модель, подгоняя ее к тренировочному набору и оценивая с помощью тестового набора.
И вот оно, точность 76,9%, использование model.score — это базовый способ оценки точности, хотя в следующих статьях я напишу о многом другом.
Но вот и все, вы только что обучили свою первую модель, чувствуете себя прекрасно?
Вот что происходит внизу.
Линейная регрессия использует алгоритм, аналогичный уравнению прямой.
Y=mx+c
C — точка пересечения, x — функция, m — градиент, а y — цель.
Мы можем найти, как они соотносятся, используя model.coef_ и model.intercept_
Перехват дается как -12364,39
А коэффициенты давались в виде массива
Тогда проще представить уравнение, сгенерированное компьютером, как это
сборы=-12364,39+(возраст*261,63)+(пол*109,65)+(ИМТ*344,54)+(дети*424,37)+(курильщик*23620,80)+(регион*-326,46)
Таким образом, для каждого из предоставленных значений он вычисляет числовую вероятность.
Надеюсь, вам понравилась эта статья, ставьте лайки, делитесь и комментируйте свои мысли, спасибо.