공부/통계학

[기초통계학] 공분산(Covariance)

Mosser 2021. 10. 16.
728x90
반응형

공분산의 의미

공분산이라는 의미 자체가 생소하여 찾아본 결과 아래와 같은 의미를 가지고 있다.

둘 이상()의 변량이 서로 관련성()을 가지며 분포(分布) 하는 모양()을 전체적()으로 나타내는 분산

즉, 두 가지 변량의 상관관계를 나타내는 값이다.

 

공분산을 읽는 방법

양의 상관관계 <----> 공분산 > 0

음의 상관관계 <----> 공분산 < 0

p.s) 상관관계가 무엇인지 잘 모르시겠다면 아래 링크를 참고하시고 봐주세요.

https://develsw.tistory.com/102

 

[기초 통계학] 상관과 산점도

산점도 데이터를 2차원 평면의 점으로 표현한 것이다. ​ 양의 상관관계 한 변량의 증가가 다른 변량의 증가를 수반하는 것 위 그림을 보자. X축의 값이 증가할 수록 Y축의 값도 증가함을 볼 수

develsw.tistory.com

 

즉, 상관의 음양과 공분산의 음양은 일치한다.

양의 상관관계일 때는 공분산이 0보다 크고, 음의 상관관계일 때는 공분산이 0보다 작다.

공분산을 구하는 방법

편차 곱의 평균

위와 같이 설명하면 이해하기 어렵기 때문에 아래 예시를 통해 알아보자.

예시

번호 키(cm) 몸무게(kg) 편차 곱
1 111.6 20.1 -3.72
2 122.5 24.3 22.56
3 123.9 22.7 19.52
4 109.2 15.3 36.12
5 115.9 21.8 -4.37
6 128.3 23.2 38.85
7 115.3 19.1 1.00
8 111.4 12.8 42.88
9 121.7 19.7 0.78
10 118.6 16.2 -2.64
평균 117.8 19.5
표준편차 5.9 3.6

위와 같은 데이터가 있을 때 편차 곱을 각각 구해보자.

편차 곱은 (키-키의 평균)*(몸무게-몸무게의 평균) 값이다.

위와 같이 편차 곱의 평균(공분산) 은 15.1(cm*kg)이다.

공분산은 단위에 의존하기 때문에 단위가 중요하다. 만약 여기서 cm 단위를 m로 바꾸면 공분산은 0.01배가 된다.

여기서 공분산의 값은 양수이기 때문에 위 데이터의 키와 몸무게는 양의 상관관계를 가진다고 예측할 수 있다.

위 데이터를 그래프로 그려서 산점도를 확인해 보면 아래와 같이 양의 상관관계를 가지고 있음을 확인할 수 있다.

 

공분산은 단위에 의존하기 때문에, 단위에 따라서 크기에 따라서 이 공분산 값이 얼마나 높은지에 대한 마땅한 기준을 마련하기가 어렵다.

단위에 의존하지 않는 상관계수를 공부해야한다.

반응형

댓글