Коэффициент ранговой корреляции Спирмена

В корреляции Спирмена мы измеряем силу и направление монотонной связи между двумя ранжированными переменными по сравнению с корреляцией Пирсона, которая измеряет линейную связь между двумя переменными.

Итак, у нас есть монотонная ассоциация и ранжированные переменные.

Формула ранговой корреляции Спирмена

«di» — это разница в парных рангах (абсолютное значение) и n = количество случаев.

Что такое ранжированные переменные?

Значения внутри данных должны ранжироваться от 1 до x, где x — последний элемент набора данных.

В примере, который вы видите внизу, мы видим, что у нас есть оценка по биологии с рангом 1 для 10-го элемента, потому что это самая высокая оценка.

В этом случае у нас нет связанных рангов, мы будем использовать первую формулу, и результаты будут 0,9790209790209792.

Коэффициент ранговой корреляции Спирмена и P-значение:

  • P-значение Указывает результат статистического теста.
  • В примере, который мы видели, H0 будет означать отсутствие корреляции между результатами тестов по биологии и химии в общей популяции (Rs = 0).
  • Альтернативой может быть корреляция между переменными, поэтому Rs =/= 0
  • Для нашего примера значение p было очень маленьким, менее 0,0001.
  • Если альфа-уровень был установлен на 0,05, это означает, что мы принимаем H0 за истину, если p>0,05, или принимаем H1 за истину, если p<0,05.
  • Итак, в нашем примере это статистически значимая корреляция!

Как насчет монотонной ассоциации?

  • Монотонная связь возникает, когда одна переменная увеличивается, а другая уменьшается. Отношение может быть и отрицательным, когда другая переменная увеличивается, когда одна переменная увеличивается.
  • Линейная линия представляет собой монотонную ассоциацию.

Пример в Питоне:

import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as st

student_score = {"Biology" : [72,60,55,73,75,53,74,69,63,77,58,76],
                "Chemistry": [63,61,57,68,78,58,72,62,60,87,59,76]}

df = pd.DataFrame(student_score)

sns.scatterplot(x="Biology", y = "Chemistry", data = df)

st.spearmanr(df['Biology'],df['Chemistry'])

Предположения корреляционного теста Спирмена:

  • Случайная выборка (действительно случайная выборка, представляющая одну интересующую совокупность)
  • Существует монотонная ассоциация: между двумя переменными.
  • Переменные должны быть как минимум порядковыми (соотношение, интервал, непрерывный (без номинальных данных, таких как группа крови)
  • Данные содержат парные выборки; нужны переменные значения x и y, если есть отсутствующее значение, вам нужно удалить строку
  • Независимость наблюдений: x наблюдений в переменной x не должны зависеть от переменной y (нет брата и сестры) или (один и тот же субъект с несколькими записями)
  • Переменная не обязательно должна быть выбрана из нормального распределения.

Если у вас есть какие-либо вопросы, вы можете задать их мне в Linkedin, вот мой профиль: https://www.linkedin.com/in/oualid-soula/ Давайте свяжемся!

Ссылки:

1 — Ранговая корреляция Спирмена — Руководство о том, когда ее использовать, что она делает и каковы предположения. (н.д.). Статистика.Laerd.Com. https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php

Цифры:

Рис. 1. Формула ранговой корреляции Спирмена для несвязанных рангов.

Рис. 2. Формула ранговой корреляции Спирмена для несвязанных рангов.

Рис. 3. Пример монотонной ассоциации.

Таблицы:

Таблица 1: Рейтинг баллов по биологии и химии