АЛГОРИТМЫ МАШИННОГО ОБУЧЕНИЯ №2
2. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
Что такое множественная линейная регрессия?
Множественная линейная регрессия (MLR), также известная как множественная регрессия, представляет собой статистический метод, который использует несколько независимых переменных для прогнозирования результата переменной отклика. Целью множественной линейной регрессии является моделирование линейной зависимости между независимыми переменными и переменными отклика (зависимыми). По сути, множественная регрессия является расширением обычной регрессии методом наименьших квадратов (OLS), поскольку она включает более одной объясняющей переменной. [2]
ТЕОРИЯ
- Ошибка возникает при попытке найти оценки коэффициентов, которые минимизируют сумму квадратов.
- Множественную линейную регрессию можно использовать для наборов данных с большим количеством наблюдений.
- Количество независимых переменных не имеет значения, но количество зависимых переменных должно быть равно 1 и переменные должны быть непрерывными.
УПРАЖНЕНИЕ
Изучение и манипулирование набором данных;
О наборе данных,
Набор данных, который мы видим здесь, содержит данные о 50 стартапах. Он состоит из 5 столбцов: «Расходы на НИОКР», «Администрирование», «Расходы на маркетинг», «Штат», «Прибыль».
Первые 3 столбца показывают, сколько каждый стартап тратит на исследования и разработки, сколько они тратят. по маркетингу и сколько они тратят на административные расходы, в столбце состояния указано, в каком штате находится стартап, а в последнем столбце указана прибыль, полученная стартапом.
Как мы видим, столбцы «Расходы на исследования и разработки» и «Расходы на маркетинг» показывают нечетные значения (нули) в наборе данных. Хотя это может показаться тривиальным, это действительно влияет на успех машинных алгоритмов. Мы можем изменить эту ситуацию следующим образом;
Мы видим низкую корреляцию между «Администрацией» и «Прибылью». Это рискованная ситуация в алгоритмах машинного обучения. Мы можем использовать методы исключения на этапе построения модели машинного обучения.
- Визуализируйте набор данных;
- Операции по настройке модели
Сводные значения модели здания с помощью Statsmodel указаны выше. Но в таблице выше есть кое-что интересное! Угадайте, что это? Да, p-значения. Если p-значение переменных выше 0,05, следует применить выбор признаков. Существует три типа выбора признаков:методы-обертки (прямой, обратный и пошаговый выбор), методы фильтрации (ANOVA, корреляция Пирсона, пороговая дисперсия) и встроенные методы. (Лассо, Ридж, Дерево решений). Для получения дополнительной информации об этом, вы должны посетить этот сайт.
Здесь следует использовать метод Обратный выбор. Модель следует реконструировать, исключив переменные с p-значением больше 0,05.
ЗАКЛЮЧЕНИЕ
В этом сообщении блога мы обсудили множественную линейную регрессию из моделей линейной регрессии. Изучив образец набора данных, мы сначала настроили Statsmodel, а затем несколько линейных моделей с помощью Scikit-Learn. После расчета показателей успешности созданных моделей мы сделали прогнозы и сравнили их с реальными значениями.
Я надеюсь, что вы получили полезную информацию в этом сообщении в блоге. Если вы считаете, что что-то отсутствует или неправильно, пожалуйста, свяжитесь со мной. Спасибо за ваше время.
"Для большего…"