Машинное обучение (МО) — это тип искусственного интеллекта (ИИ), который позволяет программным приложениям более точно прогнозировать результаты без явного программирования для этого. Алгоритмы машинного обучения используют исторические данные в качестве входных данных для прогнозирования новых выходных значений.

Существует 3 популярных типа машинного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением.

В этом случае мы узнаем о контролируемом обучении с помощью простого алгоритма линейной регрессии с языком программирования Python.

Линейная регрессия — это линейный подход к моделированию взаимосвязи между скалярным откликом и одной или несколькими независимыми переменными.

Простая линейная регрессия — это модель линейной регрессии с одной независимой переменной. То есть он касается двухмерных точек выборки с одной независимой переменной и одной зависимой переменной и находит линейную функцию, которая максимально точно предсказывает значения зависимой переменной как функцию независимой переменной. Прилагательное простой относится к тому факту, что переменная результата связана с одним предиктором.

что мы узнаем в этом руководстве:
1. Загрузите библиотеку Python
2. Загрузите набор данных
3. Создайте точечную диаграмму
4. Моделирование
5. Прогнозирование

  1. Загрузить библиотеки Python

Загрузите библиотеки Python, которые мы будем использовать в этом руководстве.

  • Мы будем использовать модуль LinearRegression для алгоритма линейной регрессии.
  • Модуль train_test_split используется для разделения наших данных на наборы для обучения и тестирования.

2. Загрузить набор данных

в этом руководстве мы будем использовать набор данных с этого URL-адреса: https://www.kaggle.com/datasets/carrie1/ecommerce-data.
позволяет импортировать набор данных с помощью библиотеки pandas

3. Создать точечную диаграмму

Далее мы создадим точечную диаграмму.

На точечной диаграмме мы видим, что данные имеют значительную положительную корреляцию.
Это означает, что с увеличением значения продолжительности членства значение годовой суммы, потраченной также будет увеличиваться.

4. Моделирование

Теперь у нас есть представления о деталях статистики данных. Следующим шагом является создание модели.

Прежде всего, мы должны разделить данные на «атрибуты» и «целевые метки». Атрибуты — это независимые переменные, а целевые метки — это зависимые переменные, значения которых нужно прогнозировать. В нашем наборе данных у нас есть только два столбца. Мы хотим предсказать годовую сумму, потраченную в зависимости от продолжительности членства.

Теперь, когда у нас есть атрибуты и метки, следующим шагом будет разделение этих данных на обучающие и тестовые наборы. Мы сделаем это с помощью встроенного в Scikit-Learn train_test_split()

Сценарий разбивает 80% данных на обучающий набор, а 20% данных — на тестовый набор. В переменной test_size мы фактически указываем пропорцию тестового набора.

последний шаг — обучить модель, вызвав метод fit.
lin_reg.fit(x_train, y_train)

5. Прогнозы

Теперь, когда мы обучили наш алгоритм, пришло время сделать некоторые прогнозы. Для этого мы будем использовать наши тестовые данные и посмотрим, насколько точно наш алгоритм предсказывает процентный балл.

Красная линия — это линия регрессии из ранее созданной модели.

теперь давайте предскажем ежегодную сумму расходов, когда продолжительность членства составляет 2 года.

Отличная работа! Мы завершили руководство по машинному обучению с использованием алгоритма простой линейной регрессии. Я надеюсь, что мы сможем научиться использовать простые методы линейной регрессии. Вы также можете найти полный проект в репозитории Github.

Спасибо, что прочитали эту статью. хлопайте в ладоши по этому посту, если он вам нравится.