В этой истории исследовательский и регрессионный анализ будут проводиться в базе данных счастья от Kaggle. Мы будем использовать показатель счастья в качестве нашей зависимой переменной, а все остальные переменные в наборе данных — в качестве независимых переменных. Ссылка указана, как показано ниже.

Сначала мы будем читать в базе данных в кадр даты

# Чтение данных
happy = read.csv("happiness.csv")

Структура данных состоит из числовых переменных, 156 строк и 7 признаков.

Первые пять строк можно посмотреть с помощью команды header

Сводная статистика показывает нам среднее значение, медиану, минимум, максимум и различные квартили значений.

Можно использовать функцию plot() с рамкой даты, чтобы просмотреть все диаграммы и различные точечные диаграммы, а также все переменные.

Как видно из приведенной ниже диаграммы, некоторые функции тесно связаны с высокой оценкой счастья, в то время как многие не имеют сильной связи между оценкой счастья, т.е. зависимой переменной, и другими независимыми переменными, такими как ВВП, социальная поддержка, здоровье, Свобода, великодушие и коррупция. Согласно графикам ВВП, социальная поддержка, здоровье имеют довольно сильную связь, однако значения свободы, щедрости и коррупции не имеют такой сильной связи, как ранее упомянутые переменные.

Матрица корреляции также показывает нам различные корреляции между всеми переменными. Как мы видим здесь количественно, этот показатель сильно коррелирует с ВВП, социальной поддержкой, здоровьем и в меньшей степени со свободой, коррупцией и довольно низок с щедростью, корреляция почти 0,0758.

Теперь мы запустим модель линейной регрессии и посмотрим, как мы можем увидеть различные показатели и увидеть, какие переменные являются значимыми на основе модели, где мы запускаем Score как зависимую переменную, а все остальные переменные как независимые переменные, т.е. ВВП , Социальная поддержка, здоровье, свобода, щедрость и коррупция.

Мы получаем очень сильные результаты модели, где значение R-квадрата равно 0,7792, а скорректированное значение R-квадрата равно 0,7703. Модель имеет высокую F-статистику, что также говорит о силе модели.

Результаты линейной регрессии говорят нам о том, что большинство моделей имеют очень значимые p-значения, за исключением Щедрости и Коррупции, которые мы также можем удалить из модели, чтобы увидеть результаты новой модели, поскольку они не кажутся оказывают очень большое влияние на модель и кажутся не очень значительными.

Однако, прежде чем удалять какие-либо переменные, давайте проверим мультиколлинеарность в модели, чтобы увидеть, коррелируют ли какие-либо переменные друг с другом и, следовательно, не показывают ли их правильные значения. Мы можем проверить это, используя функцию коэффициента инфляции дисперсии VIF() в R, и любое значение больше 5 или 10 должно быть удалено из модели.

Однако когда мы запускаем функцию VIF() на модели, мы не видим никаких признаков мультиколлинеарности, так как все значения VIF меньше 5.

Теперь давайте удалим из модели переменные «Коррупция» и «Щедрость» и снова запустим регрессионную модель. Теперь мы получаем новые результаты, которые показывают, что R в квадрате и скорректированный R в квадрате очень похожи и все еще довольно высоки, однако значения p стали намного более значительными после того, как мы удалили несущественные переменные, как показано ниже.

Использованная литература: