Машинное обучение (МО) — это тип искусственного интеллекта (ИИ), который позволяет программным приложениям более точно прогнозировать результаты без явного программирования для этого. Алгоритмы машинного обучения используют исторические данные в качестве входных данных для прогнозирования новых выходных значений.
Существует 3 популярных типа машинного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением.
В этом случае мы узнаем о контролируемом обучении с помощью простого алгоритма линейной регрессии с языком программирования Python.
Линейная регрессия — это линейный подход к моделированию взаимосвязи между скалярным откликом и одной или несколькими независимыми переменными.
Простая линейная регрессия — это модель линейной регрессии с одной независимой переменной. То есть он касается двухмерных точек выборки с одной независимой переменной и одной зависимой переменной и находит линейную функцию, которая максимально точно предсказывает значения зависимой переменной как функцию независимой переменной. Прилагательное простой относится к тому факту, что переменная результата связана с одним предиктором.
что мы узнаем в этом руководстве:
1. Загрузите библиотеку Python
2. Загрузите набор данных
3. Создайте точечную диаграмму
4. Моделирование
5. Прогнозирование
- Загрузить библиотеки Python
Загрузите библиотеки Python, которые мы будем использовать в этом руководстве.
- Мы будем использовать модуль LinearRegression для алгоритма линейной регрессии.
- Модуль train_test_split используется для разделения наших данных на наборы для обучения и тестирования.
2. Загрузить набор данных
в этом руководстве мы будем использовать набор данных с этого URL-адреса: https://www.kaggle.com/datasets/carrie1/ecommerce-data.
позволяет импортировать набор данных с помощью библиотеки pandas
3. Создать точечную диаграмму
Далее мы создадим точечную диаграмму.
На точечной диаграмме мы видим, что данные имеют значительную положительную корреляцию.
Это означает, что с увеличением значения продолжительности членства значение годовой суммы, потраченной также будет увеличиваться.
4. Моделирование
Теперь у нас есть представления о деталях статистики данных. Следующим шагом является создание модели.
Прежде всего, мы должны разделить данные на «атрибуты» и «целевые метки». Атрибуты — это независимые переменные, а целевые метки — это зависимые переменные, значения которых нужно прогнозировать. В нашем наборе данных у нас есть только два столбца. Мы хотим предсказать годовую сумму, потраченную в зависимости от продолжительности членства.
Теперь, когда у нас есть атрибуты и метки, следующим шагом будет разделение этих данных на обучающие и тестовые наборы. Мы сделаем это с помощью встроенного в Scikit-Learn train_test_split()
Сценарий разбивает 80% данных на обучающий набор, а 20% данных — на тестовый набор. В переменной test_size
мы фактически указываем пропорцию тестового набора.
последний шаг — обучить модель, вызвав метод fit. lin_reg.fit(x_train, y_train)
5. Прогнозы
Теперь, когда мы обучили наш алгоритм, пришло время сделать некоторые прогнозы. Для этого мы будем использовать наши тестовые данные и посмотрим, насколько точно наш алгоритм предсказывает процентный балл.
Красная линия — это линия регрессии из ранее созданной модели.
теперь давайте предскажем ежегодную сумму расходов, когда продолжительность членства составляет 2 года.
Отличная работа! Мы завершили руководство по машинному обучению с использованием алгоритма простой линейной регрессии. Я надеюсь, что мы сможем научиться использовать простые методы линейной регрессии. Вы также можете найти полный проект в репозитории Github.
Спасибо, что прочитали эту статью. хлопайте в ладоши по этому посту, если он вам нравится.