Машинное обучение: простая линейная регрессия с Python

Машинное обучение (МО) — это тип искусственного интеллекта (ИИ), который позволяет программным приложениям более точно прогнозировать результаты без явного программирования для этого. Алгоритмы машинного обучения используют исторические данные в качестве входных данных для прогнозирования новых выходных значений.

Существует 3 популярных типа машинного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением.

В этом случае мы узнаем о контролируемом обучении с помощью простого алгоритма линейной регрессии с языком программирования Python.

Линейная регрессия — это линейный подход к моделированию взаимосвязи между скалярным откликом и одной или несколькими независимыми переменными.

Простая линейная регрессия — это модель линейной регрессии с одной независимой переменной. То есть он касается двухмерных точек выборки с одной независимой переменной и одной зависимой переменной и находит линейную функцию, которая максимально точно предсказывает значения зависимой переменной как функцию независимой переменной. Прилагательное простой относится к тому факту, что переменная результата связана с одним предиктором.

что мы узнаем в этом руководстве:
1. Загрузите библиотеку Python
2. Загрузите набор данных
3. Создайте точечную диаграмму
4. Моделирование
5. Прогнозирование

Загрузить библиотеки Python

Загрузите библиотеки Python, которые мы будем использовать в этом руководстве.

Мы будем использовать модуль LinearRegression для алгоритма линейной регрессии.
Модуль train_test_split используется для разделения наших данных на наборы для обучения и тестирования.

2. Загрузить набор данных

в этом руководстве мы будем использовать набор данных с этого URL-адреса: https://www.kaggle.com/datasets/carrie1/ecommerce-data.
позволяет импортировать набор данных с помощью библиотеки pandas

3. Создать точечную диаграмму

Далее мы создадим точечную диаграмму.

На точечной диаграмме мы видим, что данные имеют значительную положительную корреляцию.
Это означает, что с увеличением значения продолжительности членства значение годовой суммы, потраченной также будет увеличиваться.

4. Моделирование

Теперь у нас есть представления о деталях статистики данных. Следующим шагом является создание модели.

Прежде всего, мы должны разделить данные на «атрибуты» и «целевые метки». Атрибуты — это независимые переменные, а целевые метки — это зависимые переменные, значения которых нужно прогнозировать. В нашем наборе данных у нас есть только два столбца. Мы хотим предсказать годовую сумму, потраченную в зависимости от продолжительности членства.

Теперь, когда у нас есть атрибуты и метки, следующим шагом будет разделение этих данных на обучающие и тестовые наборы. Мы сделаем это с помощью встроенного в Scikit-Learn train_test_split()

Сценарий разбивает 80% данных на обучающий набор, а 20% данных — на тестовый набор. В переменной test_size мы фактически указываем пропорцию тестового набора.

последний шаг — обучить модель, вызвав метод fit.
lin_reg.fit(x_train, y_train)

5. Прогнозы

Теперь, когда мы обучили наш алгоритм, пришло время сделать некоторые прогнозы. Для этого мы будем использовать наши тестовые данные и посмотрим, насколько точно наш алгоритм предсказывает процентный балл.

Красная линия — это линия регрессии из ранее созданной модели.

теперь давайте предскажем ежегодную сумму расходов, когда продолжительность членства составляет 2 года.

Отличная работа! Мы завершили руководство по машинному обучению с использованием алгоритма простой линейной регрессии. Я надеюсь, что мы сможем научиться использовать простые методы линейной регрессии. Вы также можете найти полный проект в репозитории Github.

Спасибо, что прочитали эту статью. хлопайте в ладоши по этому посту, если он вам нравится.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning