Коэффициент ранговой корреляции Спирмена
В корреляции Спирмена мы измеряем силу и направление монотонной связи между двумя ранжированными переменными по сравнению с корреляцией Пирсона, которая измеряет линейную связь между двумя переменными.
Итак, у нас есть монотонная ассоциация и ранжированные переменные.
Формула ранговой корреляции Спирмена
«di» — это разница в парных рангах (абсолютное значение) и n = количество случаев.
Что такое ранжированные переменные?
Значения внутри данных должны ранжироваться от 1 до x, где x — последний элемент набора данных.
В примере, который вы видите внизу, мы видим, что у нас есть оценка по биологии с рангом 1 для 10-го элемента, потому что это самая высокая оценка.
В этом случае у нас нет связанных рангов, мы будем использовать первую формулу, и результаты будут 0,9790209790209792.
Коэффициент ранговой корреляции Спирмена и P-значение:
- P-значение Указывает результат статистического теста.
- В примере, который мы видели, H0 будет означать отсутствие корреляции между результатами тестов по биологии и химии в общей популяции (Rs = 0).
- Альтернативой может быть корреляция между переменными, поэтому Rs =/= 0
- Для нашего примера значение p было очень маленьким, менее 0,0001.
- Если альфа-уровень был установлен на 0,05, это означает, что мы принимаем H0 за истину, если p>0,05, или принимаем H1 за истину, если p<0,05.
- Итак, в нашем примере это статистически значимая корреляция!
Как насчет монотонной ассоциации?
- Монотонная связь возникает, когда одна переменная увеличивается, а другая уменьшается. Отношение может быть и отрицательным, когда другая переменная увеличивается, когда одна переменная увеличивается.
- Линейная линия представляет собой монотонную ассоциацию.
Пример в Питоне:
import pandas as pd import numpy as np import seaborn as sns import scipy.stats as st student_score = {"Biology" : [72,60,55,73,75,53,74,69,63,77,58,76], "Chemistry": [63,61,57,68,78,58,72,62,60,87,59,76]} df = pd.DataFrame(student_score) sns.scatterplot(x="Biology", y = "Chemistry", data = df) st.spearmanr(df['Biology'],df['Chemistry'])
Предположения корреляционного теста Спирмена:
- Случайная выборка (действительно случайная выборка, представляющая одну интересующую совокупность)
- Существует монотонная ассоциация: между двумя переменными.
- Переменные должны быть как минимум порядковыми (соотношение, интервал, непрерывный (без номинальных данных, таких как группа крови)
- Данные содержат парные выборки; нужны переменные значения x и y, если есть отсутствующее значение, вам нужно удалить строку
- Независимость наблюдений: x наблюдений в переменной x не должны зависеть от переменной y (нет брата и сестры) или (один и тот же субъект с несколькими записями)
- Переменная не обязательно должна быть выбрана из нормального распределения.
Если у вас есть какие-либо вопросы, вы можете задать их мне в Linkedin, вот мой профиль: https://www.linkedin.com/in/oualid-soula/ Давайте свяжемся!
Ссылки:
1 — Ранговая корреляция Спирмена — Руководство о том, когда ее использовать, что она делает и каковы предположения. (н.д.). Статистика.Laerd.Com. https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php
Цифры:
Рис. 1. Формула ранговой корреляции Спирмена для несвязанных рангов.
Рис. 2. Формула ранговой корреляции Спирмена для несвязанных рангов.
Рис. 3. Пример монотонной ассоциации.
Таблицы:
Таблица 1: Рейтинг баллов по биологии и химии