공부/통계학
[기초 통계학] 박스 플랏이란?
728x90
반응형
박스 플랏(Box plot)이란?
변수가 단변위일때 데이터의 중앙값이나 데이터의 분포를 확인하기 위해서 사용한다.
Interquartile Range(IQR)
데이터에서 25% 부분에 해당하는 값과 75%에 해당하는 값의 차를 구하면 그 차가 바로 IQR이다.
즉, 75%-25% 값의 범위가 IQR이다. 대략적으로 데이터의 50%가 어느정도에 속해있는지 알 수 있다.
Median(중앙값)
위 그림에서 Median은 노란색 선이 있는데, 이 선이 바로 데이터에서의 중앙값이다. 박스 플랏에서는 Q2라고도 한다.
Minimum(최솟값)
Q1-1.5*IQR 로 구할 수 있다. 즉 25%에 해당하는 수에서 IQR*1.5를 빼면 최솟값이라고 한다.
Maximum(최댓값)
Q3+1.5*IQR 로 구할 수 있다. 즉 75%에 해당하는 수에서 IQR*1.5를 더하면 최댓값이라고 한다.
Otutlier(이상치)
이는 최솟값과 최댓값을 넘어가는 값들을 이상치라고 정의한다. 즉
Q1-1.5*IQR > 이상치
Q3+1.5*IQR < 이상치
라고 할 수 있다.
하지만, 여기서 의문인 점은 왜 1.5일까? 라는 의문이다.
1.5는 그동안 많은 학자들이 정의한 개념이므로, 이렇게 하자 라고 약속한 것이지 확정된 건 아니다.
우리가 데이터를 분석할 때, 분석의 목적에 따라서 1.5 값을 변화 해도 괜찮다.
중앙값, 평균에 대한 글또한 게시글로 정리해서 올리겠다.
반응형
'공부 > 통계학' 카테고리의 다른 글
[기초통계학] 중앙값(Median) (0) | 2021.10.14 |
---|---|
[기초통계학] 평균(Average) (0) | 2021.10.13 |
[기초 통계학] 상관과 산점도 (0) | 2021.10.12 |
표본집단과 모집단 (0) | 2021.09.30 |
통계학이란? (0) | 2021.09.27 |
댓글