Что нужно знать о логистической регрессии

Давайте рассмотрим сложную часть этого базового алгоритма машинного обучения.

Если вы начинаете заниматься аналитикой данных, вы, безусловно, пытаетесь ознакомиться со множеством различных стратегий и приложений, используемых в отрасли. Логистическая регрессия — это один из методов анализа, используемый аналитиками данных; однако, что именно это такое и каким целям оно служит?

В этой статье вы узнаете, что такое логистическая регрессия, и некоторые из наиболее важных общих тем, связанных с регрессионным анализом. К тому времени, когда вы закончите читать эту статью, у вас будет кристально ясное понимание того, что связано с логистической регрессией, и вы будете знакомы с типами логистической регрессии.

Что такое логистическая регрессия?

Логистическая регрессия — это контролируемый метод машинного обучения, используемый для выполнения задач бинарной классификации путем прогнозирования вероятности конкретных результатов, событий или наблюдений. Модель генерирует бинарный вывод: ответы да или нет, 0/1, истинные или ложные ответы.

Связь между независимыми переменными можно анализировать с помощью логической регрессии, которая классифицирует данные по дискретным группам. Он находит широкое применение в прогнозном моделировании, целью которого является определение математической вероятности того, подпадает ли данный случай под конкретную классификацию.

В качестве иллюстрации,

Чтобы определить, является ли электронное письмо спамом (1) или нет (0)
Имеет ли опухоль злокачественный потенциал (1) или нет (0).

Уравнение логистической регрессии

При отображении прогнозов и их вероятностей логистическая регрессия использует логистическую функцию, называемую сигмовидной функцией. Любое действительное число может быть преобразовано в диапазон от 0 до 1 с помощью кривой в форме буквы S. Это называется сигмовидной функцией.

Кроме того, модель предполагает, что экземпляр принадлежит к указанному классу, если предполагаемая вероятность, полученная с помощью сигмовидной функции, более значима, чем пороговое значение, ранее установленное на графике. Модель предполагает, что экземпляр не принадлежит классу, если оцениваемая вероятность ниже установленного ранее порога.

В контексте логистической регрессии сигмовидная функция называется функцией активации и может быть описана следующим образом:

График сигмовидной функции

Типы логистической регрессии

Ниже приведены три различных формы логистической регрессии.

Бинарная логистическая регрессия

Бинарная логистическая регрессия — это статистический подход, используемый для прогнозирования связи между зависимой переменной (Y) и независимой переменной (X), когда зависимая переменная является бинарной.

Этот метод используется, когда зависимая переменная является двоичной. Например, вывод может быть «Успех» или «Неудача», 0/1, «Истина» или «Ложь», «Да» или «Нет».

Что важно помнить при построении и развертывании модели? Понимание своей конечной цели. Прочитайте наше интервью с экспертами по машинному обучению из Стэнфорда, Google и HuggingFace, чтобы узнать больше.

Полиномиальная логистическая регрессия

При работе с одной категориальной зависимой переменной, которая содержит два или более неупорядоченных уровня, предпочтительным методом является полиномиальная логистическая регрессия (т. е. два или более дискретных результата). Его можно сравнить с логистической регрессией, с тем важным отличием, что в этом сценарии может быть более двух результатов.

Например, сценарий, в котором вы пытаетесь спрогнозировать вид транспорта, который будет наиболее широко использоваться в 2022 году. Вид транспорта будет служить зависимой переменной со следующими возможностями для выходных данных: автомобиль, грузовик, велосипед. , и поезд.

Порядковая логистическая регрессия

Когда зависимая переменная (Y) упорядочена, используется метод порядковой логистической регрессии (т. е. порядковый). Зависимая переменная организована разумным образом и содержит более двух различных категорий или уровней. Оценка за тест, варьирующаяся от «Плохо» до «Среднего» и «Хорошо», является одним из примеров такой переменной.

Реализация на Python

Ниже приведена реализация полиномиальной логистической регрессии с использованием scikit-learn для создания прогнозов для набора данных. Вы можете скачать набор данных здесь.

Код

#importing the libraries
import numpy as np
import pandas as pd
#importing the dataset
dataset = pd.read_csv(r’C:\Users\91977\Downloads\Data.csv’)
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values
#Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 2)
#feature scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
#Training the Logistic Regression (LR) Classification model on the Training set
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state = 0)
classifier.fit(X_train, y_train)
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
intercept_scaling=1, l1_ratio=None, max_iter=100,
multi_class=’warn’, n_jobs=None, penalty=’l2',
random_state=0, solver=’warn’, tol=0.0001, verbose=0,
warm_start=False)
#Display the results
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

Выход

Заключение

Когда выходные данные задачи классификации или зависимая переменная являются бинарными или категориальными, в качестве статистического метода используется логистическая регрессия. Существует несколько вариантов регрессионного анализа и логистической регрессии, каждый со своими характеристиками. Важно выбрать подходящую модель регрессии для ваших данных, учитывая как зависимые, так и независимые переменные.

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение нашего еженедельного информационного бюллетеня (Еженедельник глубокого обучения), заглянуть в блог Comet, присоединиться к нам в Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов и событий. и многое другое, что поможет вам быстрее создавать более качественные модели машинного обучения.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning