공부/통계학

[기초 통계학] 박스 플랏이란?

Mosser 2021. 10. 12.
728x90
반응형

박스 플랏(Box plot)이란?

https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51

 

변수가 단변위일때 데이터의 중앙값이나 데이터의 분포를 확인하기 위해서 사용한다.

 

 

Interquartile Range(IQR)

데이터에서 25% 부분에 해당하는 값과 75%에 해당하는 값의 차를 구하면 그 차가 바로 IQR이다.

 

즉, 75%-25% 값의 범위가 IQR이다. 대략적으로 데이터의 50%가 어느정도에 속해있는지 알 수 있다.

 

Median(중앙값)

위 그림에서 Median은 노란색 선이 있는데, 이 선이 바로 데이터에서의 중앙값이다. 박스 플랏에서는 Q2라고도 한다.

 

Minimum(최솟값)

Q1-1.5*IQR 로 구할 수 있다. 즉 25%에 해당하는 수에서 IQR*1.5를 빼면 최솟값이라고 한다.

 

Maximum(최댓값)

Q3+1.5*IQR 로 구할 수 있다. 즉 75%에 해당하는 수에서 IQR*1.5를 더하면 최댓값이라고 한다.

 

 

Otutlier(이상치)

이는 최솟값과 최댓값을 넘어가는 값들을 이상치라고 정의한다. 즉

 

Q1-1.5*IQR > 이상치

Q3+1.5*IQR < 이상치

 

라고 할 수 있다.

 

하지만, 여기서 의문인 점은 왜 1.5일까? 라는 의문이다.

 

1.5는 그동안 많은 학자들이 정의한 개념이므로, 이렇게 하자 라고 약속한 것이지 확정된 건 아니다.

우리가 데이터를 분석할 때, 분석의 목적에 따라서 1.5 값을 변화 해도 괜찮다.

 

중앙값, 평균에 대한 글또한 게시글로 정리해서 올리겠다.

 

 

 

 

 

 

반응형

'공부 > 통계학' 카테고리의 다른 글

[기초통계학] 중앙값(Median)  (0) 2021.10.14
[기초통계학] 평균(Average)  (0) 2021.10.13
[기초 통계학] 상관과 산점도  (0) 2021.10.12
표본집단과 모집단  (0) 2021.09.30
통계학이란?  (0) 2021.09.27

댓글