Коэффициенты Пирсона и Спирмена являются чрезвычайно важными понятиями для анализа данных, и знание того, как применять каждый из них, повысит эффективность ваших проектов по работе с данными. Часто задаваемые в интервью, они представляют фундаментальную тему данных: измерение корреляции. Если вы хотите изучить лежащую в их основе теорию и преуспеть на собеседованиях, просто прочтите эту статью!
Удобство использования
Пирсон и Спирман развиваются вокруг цели измерения корреляции между переменными. Допустим, во время работы над проектами у вас появился график, подобный приведенному ниже. Нетрудно сказать, что между этими двумя переменными существует корреляция. Но насколько сильна эта корреляция? Именно на этот вопрос ответят коэффициенты. Они скажут вам, коррелируют ли переменные и является ли корреляция слабой или значительной. Вот почему использование коэффициентов важно, особенно при принятии решений. Знание того, как переменные ведут себя и коррелируют, имеет основополагающее значение для понимания того, как одно связано с другим.
Пирсон
Коэффициент Пирсона используется для измерения линейной корреляции, поэтому, когда данные на вашем графике демонстрируют линейную закономерность, коэффициент Пирсона покажет вам, насколько хорошо они связаны. Точно так же, как на графике ниже. Вы видите, что можете легко проследить прямую линию, которая представляет собой структуру точек данных. Метрика Пирсона точнее описывает связь, поэтому у нас высокий коэффициент — 0,86.
Коэффициент Пирсона находится в диапазоне от -1 до 1, поэтому позвольте мне объяснить вам, как понимать полученный результат:
- Коэффициент равен 1 или близок к этому: сильная и положительная связь (по мере увеличения одного увеличивается другое).
- Коэффициент равен -1 или близок к этому: сильная и отрицательная связь (по мере того, как одно увеличивается, другое уменьшается).
- Коэффициент равен 0 или близок к этому: очень слабая связь между переменными или ее отсутствие.
Копейщик
Коэффициент Спирмена используется для измерения силы между ранжированными переменными. Он используется, когда данные не следуют линейному шаблону, также известному как монотонная зависимость. Монотонная функция - это функция, которая никогда не увеличивается или никогда не уменьшается по мере увеличения ее независимой переменной, и это главное отличие коэффициентов Пирсона и Спирмена в их удобстве использования. Взгляните на график ниже:
Легко понять, почему мы будем использовать Спирмена для расчета корреляции: в этом случае данные не образуют линейную картину и представляют собой монотонную функцию. Именно по этой причине коэффициент Спирмена равен 0,79, что является довольно сильной корреляцией между переменной А и переменной B.
- Коэффициент равен 1 или близок к этому: сильная и положительная ассоциация.
- Коэффициент равен -1 или около того: сильная и отрицательная ассоциация.
- Коэффициент равен 0 или близок к этому: очень слабая связь между переменными или ее отсутствие.
Выводы
Вы выбираете показатель корреляции на основе распределения и формы ваших данных. Коэффициент Пирсона даст вам отличные результаты, когда ваши данные следуют линейному шаблону, в то время как Спирмен используется, когда точки данных не следуют линейному шаблону, но могут быть описаны как монотонная функция.
Теперь вы знаете все, что новичку нужно знать о корреляции данных, чтобы повысить эффективность своих проектов или анализа данных.
Идите вперед и применяйте все, что вы узнали, на практике!
Если вам понравился этот пост, не забудьте подписаться на меня. Увидимся в следующей статье!
-Фернандо Дантас