Здравствуйте, меня зовут Маюр Гаргаде, я работаю специалистом по данным в VisionNLPhttps://medium.com/visionnlp

Я попытаюсь объяснить простую линейную регрессию довольно простым способом. Давайте разберемся, что такое модель линейной регрессии с прилагаемыми рукописными заметками с пояснением.

Я изучал линейную регрессию почти 4 года в своих академических кругах и теперь применяю ту же модель на реальных данных.

Что такое регрессионный анализ?

  • Статистический метод оценки неизвестного значения одной переменной (т.е. зависимой целевой переменной) по известному значению другой переменной (т.е. независимых переменных)
  • Другими словами, регрессионный анализ помогает нам понять, как зависимые переменные меняются при изменении независимых переменных.
  • В машинном обучении регрессионный анализ — это контролируемый метод обучения, который используется для прогнозирования числовых и непрерывных переменных.

Когда мы сможем использовать эту модель?

Модель линейной регрессии специально используется, когда ваша переменная ответа (т. е. выходная переменная) имеет числовой тип данных.

Примеры линейной регрессии:

  1. Прогноз цены дома (где цена указана в числовом выражении, т.е. 1000,5 $)
  2. Прогноз цен на автомобили и так далее.

Разница между корреляцией и регрессией:

Степень и характер взаимосвязи:
Корреляционная мера степени взаимосвязи между X и Y.
Регрессия изучает характер взаимосвязи между переменными, чтобы можно было чтобы предсказать значение одной переменной на основе других переменных.
Прогноз:
Корреляция не помогает делать прогнозы.
Регрессия позволяет нам делать прогнозы, используя линия регрессии.
Симметричный:
Коэффициенты корреляции симметричны rxy = ryx.
Коэффициенты регрессии несимметричны, т.е. bxy =! быкс.

Типы линейной регрессии

  • Простая линейная регрессия
  • Множественная линейная регрессия

Например. Если вы хотите увеличить продажи, вам нужно увеличить маркетинговые расходы как одну независимую переменную (X). Здесь продажи являются зависимой переменной (Y)

Простая линейная регрессия

Теперь давайте разберемся со мной в простой линейной регрессии. Линия регрессии.Линия регрессии показывает среднее соотношение между двумя переменными. Ее также называют линией наилучшего соответствия. Если заданы две числовые переменные X и Y, то есть две линии регрессии:

  • Линия регрессии X на Y
  • Линия регрессии Y на X.

На прикрепленном изображении видно, что линейная регрессия всегда прямая (не обязательно проходит через начало координат). Уравнение простой линейной регрессии (Y на X):

Y = b0 + b1x + e

Y — зависимая переменная
— X — независимая переменная
— b1 — коэффициент независимой переменной (коэффициент наклона)
— b0 — отрезок или смещенный член
— e - ошибочный термин

Обычный метод наименьших квадратов:

В линейной регрессии наша цель - найти наиболее подходящую линию. Внимательно прочитайте примечания к изображению, чтобы понять, как мы можем найти наиболее подходящую линию, используя функцию стоимости и обычный метод наименьших квадратов в линейной регрессии.

Производительность модели:

Теперь мы можем рассчитать нашу линию наилучшего соответствия, что означает, что мы подогнали нашу модель для заданных данных, мы должны протестировать наши модели с помощью матриц моделей (матриц производительности). Для линейной регрессии мы используем следующие матрицы, чтобы увидеть, хороша ли наша подобранная модель.

Дополнительные матрицы для оценки модели линейной регрессии.

  1. Средняя абсолютная ошибка (MAE). Это самая простая из всех метрик. Он измеряется путем получения среднего значения абсолютной разницы между фактическими значениями и прогнозами. Чем меньше значение MAE, тем лучше производительность вашей модели.

2. Среднеквадратическая ошибка (RMSE): Среднеквадратическая ошибка измеряется путем извлечения квадратного корня из среднего квадрата разницы между прогнозируемым и фактическим значением. RMSE — лучшая метрика производительности, поскольку она возводит в квадрат ошибки, прежде чем брать средние значения.

Предположения линейной регрессии:

Линейная связь: предполагается линейная связь между зависимой переменной и независимыми переменными.

Случайная ошибка (e):
ошибки/остатки должны быть нормально распределены со средним значением 0 и сигмой дисперсии. Случайные ошибки независимы.

Гомоскедастичность: дисперсия вокруг регрессии одинакова для всех прогнозируемых значений.

Мультиколлинеарность. В модели предполагается отсутствие мультиколлинеарности, что означает, что независимые переменные не слишком сильно коррелируют друг с другом.

Множественная линейная регрессия

Множественная линейная регрессия — это еще один тип линейной регрессии, который специально используется, когда у нас есть более 1 независимой переменной (т. е. входных переменных).

Обыкновенная оценка для множественной линейной регрессии

Оставайтесь с нами, чтобы узнать больше о ML.

Подпишитесь на https://medium.com/@mayur_ml