공부/통계학

[기초통계학] 상관계수

Mosser 2021. 10. 17.
728x90
반응형

개요

왜 공분산과 상관관계가 관련이 있을까?

위 데이터에서 보면 편차 곱을 확인하면 양의 개수가 음의 개수보다 훨씬 많다.

즉 그렇기 때문에 이들의 평균인 공분산은 당연히 양이 되는 것이다.

상관계수(Correlation Coefficient)

이전 게시물에서 공분산은 단위에 의존한다고 하였다.

단위 때문에 공분산의 값이 0에 가까운지 판단하기가 쉽지 않다.

공분산의 값에 따라서 이게 얼마나 양의 관계인지 정확히 판단하기가 어렵다.

 

 

그렇기 때문에 단위에 의존하지 않고, 두 변량의 관계를 알아볼 수 있는 지표인

상관계수에 대해서 알아보자.

상관계수 식은 아래와 같이 쓸 수 있다.

 

 

위 그림만 보면 뭐가 뭔지 모를것이다. 하지만, 자세히보면 각 요소가 무엇인지 알 수 있다.

 

일단 분모부터 보자.

 

분모의 왼쪽 루트는 어디서 많이 본 식이다.

 

편차제곱의 합을 N-1로 나눴네? 그리고 루트를 썼네?

 

데이터셋 X의 표준편차다.

오른쪽 루트는?

 

데이터셋 Y의 표준편차다.

 

분자

분자도 우리가 공부했던 식이다.

 

바로 편차 곱의 합을 N으로 나눈 이 식은 공분산이다.

 

즉, 상관계수라는건 공분산을 각 변수의 표준편차로 나눠준것이다.

 

상관계수=데 산/  × Y 

 

 

공분산을 표준편차의 곱으로 나눠주면 귀신같이 상관계수는 -1=<0<=1 사이로 수렴한다.

 

그래서 우리는 상관계수의 값을 보고 이게, 강한 양의 상관관계인지 음의 상관관계인지 파악할 수 있다.

 

위에서 구한 상관계수를 피어슨 상관계수라고한다.

 

다른 상관계수들도 많다. 나중에 천천히 알아보자.

ex) 위 표에 있는 데이터를 예로 들자면,

특징

1. 상관계수는 분모와 분자의 단위가 같으므로 단위에 의존하지 않는다.

2. 분모가 표준편차여서 항상 양이므로 상관계수의 음양은 분자만으로 결정된다.

3. 상관계수의 음양과 공분산의 음양은 일치한다. -> 양의 상관일 때, 상관계수는 양

-> 음의 상관일 때, 상관계수는 음

반응형

댓글