Давайте рассмотрим сложную часть этого базового алгоритма машинного обучения.

Если вы начинаете заниматься аналитикой данных, вы, безусловно, пытаетесь ознакомиться со множеством различных стратегий и приложений, используемых в отрасли. Логистическая регрессия — это один из методов анализа, используемый аналитиками данных; однако, что именно это такое и каким целям оно служит?

В этой статье вы узнаете, что такое логистическая регрессия, и некоторые из наиболее важных общих тем, связанных с регрессионным анализом. К тому времени, когда вы закончите читать эту статью, у вас будет кристально ясное понимание того, что связано с логистической регрессией, и вы будете знакомы с типами логистической регрессии.

Что такое логистическая регрессия?

Логистическая регрессия — это контролируемый метод машинного обучения, используемый для выполнения задач бинарной классификации путем прогнозирования вероятности конкретных результатов, событий или наблюдений. Модель генерирует бинарный вывод: ответы да или нет, 0/1, истинные или ложные ответы.

Связь между независимыми переменными можно анализировать с помощью логической регрессии, которая классифицирует данные по дискретным группам. Он находит широкое применение в прогнозном моделировании, целью которого является определение математической вероятности того, подпадает ли данный случай под конкретную классификацию.

В качестве иллюстрации,

  1. Чтобы определить, является ли электронное письмо спамом (1) или нет (0)
  2. Имеет ли опухоль злокачественный потенциал (1) или нет (0).

Уравнение логистической регрессии

При отображении прогнозов и их вероятностей логистическая регрессия использует логистическую функцию, называемую сигмовидной функцией. Любое действительное число может быть преобразовано в диапазон от 0 до 1 с помощью кривой в форме буквы S. Это называется сигмовидной функцией.

Кроме того, модель предполагает, что экземпляр принадлежит к указанному классу, если предполагаемая вероятность, полученная с помощью сигмовидной функции, более значима, чем пороговое значение, ранее установленное на графике. Модель предполагает, что экземпляр не принадлежит классу, если оцениваемая вероятность ниже установленного ранее порога.

В контексте логистической регрессии сигмовидная функция называется функцией активации и может быть описана следующим образом:

График сигмовидной функции

Типы логистической регрессии

Ниже приведены три различных формы логистической регрессии.

Бинарная логистическая регрессия

Бинарная логистическая регрессия — это статистический подход, используемый для прогнозирования связи между зависимой переменной (Y) и независимой переменной (X), когда зависимая переменная является бинарной.

Этот метод используется, когда зависимая переменная является двоичной. Например, вывод может быть «Успех» или «Неудача», 0/1, «Истина» или «Ложь», «Да» или «Нет».

Что важно помнить при построении и развертывании модели? Понимание своей конечной цели. Прочитайте наше интервью с экспертами по машинному обучению из Стэнфорда, Google и HuggingFace, чтобы узнать больше.

Полиномиальная логистическая регрессия

При работе с одной категориальной зависимой переменной, которая содержит два или более неупорядоченных уровня, предпочтительным методом является полиномиальная логистическая регрессия (т. е. два или более дискретных результата). Его можно сравнить с логистической регрессией, с тем важным отличием, что в этом сценарии может быть более двух результатов.

Например, сценарий, в котором вы пытаетесь спрогнозировать вид транспорта, который будет наиболее широко использоваться в 2022 году. Вид транспорта будет служить зависимой переменной со следующими возможностями для выходных данных: автомобиль, грузовик, велосипед. , и поезд.

Порядковая логистическая регрессия

Когда зависимая переменная (Y) упорядочена, используется метод порядковой логистической регрессии (т. е. порядковый). Зависимая переменная организована разумным образом и содержит более двух различных категорий или уровней. Оценка за тест, варьирующаяся от «Плохо» до «Среднего» и «Хорошо», является одним из примеров такой переменной.

Реализация на Python

Ниже приведена реализация полиномиальной логистической регрессии с использованием scikit-learn для создания прогнозов для набора данных. Вы можете скачать набор данных здесь.

Код

#importing the libraries
import numpy as np
import pandas as pd
#importing the dataset
dataset = pd.read_csv(r’C:\Users\91977\Downloads\Data.csv’)
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values
#Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 2)
#feature scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
#Training the Logistic Regression (LR) Classification model on the Training set
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state = 0)
classifier.fit(X_train, y_train)
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
intercept_scaling=1, l1_ratio=None, max_iter=100,
multi_class=’warn’, n_jobs=None, penalty=’l2',
random_state=0, solver=’warn’, tol=0.0001, verbose=0,
warm_start=False)
#Display the results
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

Выход

Заключение

Когда выходные данные задачи классификации или зависимая переменная являются бинарными или категориальными, в качестве статистического метода используется логистическая регрессия. Существует несколько вариантов регрессионного анализа и логистической регрессии, каждый со своими характеристиками. Важно выбрать подходящую модель регрессии для ваших данных, учитывая как зависимые, так и независимые переменные.

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение нашего еженедельного информационного бюллетеня (Еженедельник глубокого обучения), заглянуть в блог Comet, присоединиться к нам в Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов и событий. и многое другое, что поможет вам быстрее создавать более качественные модели машинного обучения.