Давайте рассмотрим сложную часть этого базового алгоритма машинного обучения.
Если вы начинаете заниматься аналитикой данных, вы, безусловно, пытаетесь ознакомиться со множеством различных стратегий и приложений, используемых в отрасли. Логистическая регрессия — это один из методов анализа, используемый аналитиками данных; однако, что именно это такое и каким целям оно служит?
В этой статье вы узнаете, что такое логистическая регрессия, и некоторые из наиболее важных общих тем, связанных с регрессионным анализом. К тому времени, когда вы закончите читать эту статью, у вас будет кристально ясное понимание того, что связано с логистической регрессией, и вы будете знакомы с типами логистической регрессии.
Что такое логистическая регрессия?
Логистическая регрессия — это контролируемый метод машинного обучения, используемый для выполнения задач бинарной классификации путем прогнозирования вероятности конкретных результатов, событий или наблюдений. Модель генерирует бинарный вывод: ответы да или нет, 0/1, истинные или ложные ответы.
Связь между независимыми переменными можно анализировать с помощью логической регрессии, которая классифицирует данные по дискретным группам. Он находит широкое применение в прогнозном моделировании, целью которого является определение математической вероятности того, подпадает ли данный случай под конкретную классификацию.
В качестве иллюстрации,
- Чтобы определить, является ли электронное письмо спамом (1) или нет (0)
- Имеет ли опухоль злокачественный потенциал (1) или нет (0).
Уравнение логистической регрессии
При отображении прогнозов и их вероятностей логистическая регрессия использует логистическую функцию, называемую сигмовидной функцией. Любое действительное число может быть преобразовано в диапазон от 0 до 1 с помощью кривой в форме буквы S. Это называется сигмовидной функцией.
Кроме того, модель предполагает, что экземпляр принадлежит к указанному классу, если предполагаемая вероятность, полученная с помощью сигмовидной функции, более значима, чем пороговое значение, ранее установленное на графике. Модель предполагает, что экземпляр не принадлежит классу, если оцениваемая вероятность ниже установленного ранее порога.
В контексте логистической регрессии сигмовидная функция называется функцией активации и может быть описана следующим образом:
График сигмовидной функции
Типы логистической регрессии
Ниже приведены три различных формы логистической регрессии.
Бинарная логистическая регрессия
Бинарная логистическая регрессия — это статистический подход, используемый для прогнозирования связи между зависимой переменной (Y) и независимой переменной (X), когда зависимая переменная является бинарной.
Этот метод используется, когда зависимая переменная является двоичной. Например, вывод может быть «Успех» или «Неудача», 0/1, «Истина» или «Ложь», «Да» или «Нет».
Что важно помнить при построении и развертывании модели? Понимание своей конечной цели. Прочитайте наше интервью с экспертами по машинному обучению из Стэнфорда, Google и HuggingFace, чтобы узнать больше.
Полиномиальная логистическая регрессия
При работе с одной категориальной зависимой переменной, которая содержит два или более неупорядоченных уровня, предпочтительным методом является полиномиальная логистическая регрессия (т. е. два или более дискретных результата). Его можно сравнить с логистической регрессией, с тем важным отличием, что в этом сценарии может быть более двух результатов.
Например, сценарий, в котором вы пытаетесь спрогнозировать вид транспорта, который будет наиболее широко использоваться в 2022 году. Вид транспорта будет служить зависимой переменной со следующими возможностями для выходных данных: автомобиль, грузовик, велосипед. , и поезд.
Порядковая логистическая регрессия
Когда зависимая переменная (Y) упорядочена, используется метод порядковой логистической регрессии (т. е. порядковый). Зависимая переменная организована разумным образом и содержит более двух различных категорий или уровней. Оценка за тест, варьирующаяся от «Плохо» до «Среднего» и «Хорошо», является одним из примеров такой переменной.
Реализация на Python
Ниже приведена реализация полиномиальной логистической регрессии с использованием scikit-learn для создания прогнозов для набора данных. Вы можете скачать набор данных здесь.
Код
#importing the libraries import numpy as np import pandas as pd #importing the dataset dataset = pd.read_csv(r’C:\Users\91977\Downloads\Data.csv’) X = dataset.iloc[:, :-1].values y = dataset.iloc[:, -1].values #Splitting the dataset into the Training set and Test set from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 2) #feature scaling from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_train = sc.fit_transform(X_train) X_test = sc.transform(X_test) #Training the Logistic Regression (LR) Classification model on the Training set from sklearn.linear_model import LogisticRegression classifier = LogisticRegression(random_state = 0) classifier.fit(X_train, y_train) LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True, intercept_scaling=1, l1_ratio=None, max_iter=100, multi_class=’warn’, n_jobs=None, penalty=’l2', random_state=0, solver=’warn’, tol=0.0001, verbose=0, warm_start=False) #Display the results from sklearn.metrics import confusion_matrix, accuracy_score y_pred = classifier.predict(X_test) cm = confusion_matrix(y_test, y_pred) print(cm) accuracy_score(y_test, y_pred)
Выход
Заключение
Когда выходные данные задачи классификации или зависимая переменная являются бинарными или категориальными, в качестве статистического метода используется логистическая регрессия. Существует несколько вариантов регрессионного анализа и логистической регрессии, каждый со своими характеристиками. Важно выбрать подходящую модель регрессии для ваших данных, учитывая как зависимые, так и независимые переменные.
Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.
Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.
Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение нашего еженедельного информационного бюллетеня (Еженедельник глубокого обучения), заглянуть в блог Comet, присоединиться к нам в Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов и событий. и многое другое, что поможет вам быстрее создавать более качественные модели машинного обучения.