[기초통계학] 공분산(Covariance)
공분산의 의미
공분산이라는 의미 자체가 생소하여 찾아본 결과 아래와 같은 의미를 가지고 있다.
둘 이상(以上)의 변량이 서로 관련성(關聯性)을 가지며 분포(分布) 하는 모양(模樣)을 전체적(全體的)으로 나타내는 분산
즉, 두 가지 변량의 상관관계를 나타내는 값이다.
공분산을 읽는 방법
양의 상관관계 <----> 공분산 > 0
음의 상관관계 <----> 공분산 < 0
p.s) 상관관계가 무엇인지 잘 모르시겠다면 아래 링크를 참고하시고 봐주세요.
https://develsw.tistory.com/102
즉, 상관의 음양과 공분산의 음양은 일치한다.
양의 상관관계일 때는 공분산이 0보다 크고, 음의 상관관계일 때는 공분산이 0보다 작다.
공분산을 구하는 방법
편차 곱의 평균
위와 같이 설명하면 이해하기 어렵기 때문에 아래 예시를 통해 알아보자.
예시
번호 | 키(cm) | 몸무게(kg) | 편차 곱 |
1 | 111.6 | 20.1 | -3.72 |
2 | 122.5 | 24.3 | 22.56 |
3 | 123.9 | 22.7 | 19.52 |
4 | 109.2 | 15.3 | 36.12 |
5 | 115.9 | 21.8 | -4.37 |
6 | 128.3 | 23.2 | 38.85 |
7 | 115.3 | 19.1 | 1.00 |
8 | 111.4 | 12.8 | 42.88 |
9 | 121.7 | 19.7 | 0.78 |
10 | 118.6 | 16.2 | -2.64 |
평균 | 117.8 | 19.5 | |
표준편차 | 5.9 | 3.6 |
위와 같은 데이터가 있을 때 편차 곱을 각각 구해보자.
편차 곱은 (키-키의 평균)*(몸무게-몸무게의 평균) 값이다.
위와 같이 편차 곱의 평균(공분산) 은 15.1(cm*kg)이다.
공분산은 단위에 의존하기 때문에 단위가 중요하다. 만약 여기서 cm 단위를 m로 바꾸면 공분산은 0.01배가 된다.
여기서 공분산의 값은 양수이기 때문에 위 데이터의 키와 몸무게는 양의 상관관계를 가진다고 예측할 수 있다.
위 데이터를 그래프로 그려서 산점도를 확인해 보면 아래와 같이 양의 상관관계를 가지고 있음을 확인할 수 있다.
공분산은 단위에 의존하기 때문에, 단위에 따라서 크기에 따라서 이 공분산 값이 얼마나 높은지에 대한 마땅한 기준을 마련하기가 어렵다.
단위에 의존하지 않는 상관계수를 공부해야한다.
'공부 > 통계학' 카테고리의 다른 글
[기초통계학] 무작위 추출(Random sampling) (0) | 2021.10.19 |
---|---|
[기초통계학] 상관계수 (0) | 2021.10.17 |
[기초통계학] 표준편차(Standard deviation) (1) | 2021.10.16 |
[기초 통계학] 분산(Variance) (0) | 2021.10.15 |
[기초통계학] 평균 절대편차 (0) | 2021.10.14 |
댓글