brunch

You can make anything
by writing

C.S.Lewis

by 김광수 비에이티 Jun 26. 2018

기초통계학 - 분포의 특성(3)

비대칭도

피어슨의 비대칭도

피어슨의 비대칭도(Pearson's coefficient of skewness)는 비대칭도의 측정을 위해 사용된다. 먼저 비대칭도를 어떻게 하면 간단하게 살펴볼 수 있을지 잠시 생각해보면, 평균에서 중앙값을 빼보면 된다는 것을 쉽게 추정해볼 수 있다. 왜 그럴까? 이전 포스트에서 이야기 했던 것을 기억해보면 왼쪽으로 쏠려 있는 분포에서 평균, 중앙값, 최빈값의 순서는 최빈값 < 중앙값 < 평균 순서였다. 이러한 분포에서는 평균에서 중앙값을 빼면 양수가 나온다. 이러한 분포를 분포의 오른쪽에 꼬리가 있다고 하여 오른쪽 꼬리분포라고 한다. 이를 반대로 생각해보면, 왼쪽 꼬리분포에서는 평균에서 중앙값을 뺐을 때 음수가 나온다.


그림 1. 이전 포스팅에서 나왔던 그 그래프를 다시 가져왔다.

위 이미지를 다시 살펴보면 그 의미를 쉽게 알 수 있다. 피어슨의 비대칭도는 평균과 중앙값의 차이의 3배가 그 분포의 표준편차에 비해 얼마만큼 크거나 작은지를 보고자 한다. 말이 조금 어렵게 적혀 있지만, 피어슨의 비대칭도는 평균, 중앙값, 표준편차를 사용하여 하나의 요약된 정보를 찾아내는 과정이며 피어슨의 비대칭도를 통해 분포의 대략적인 모양을 추측해볼 수 있다.


그림 2. 분자는 3(평균-중앙값), 분모는 표준편차이다.


그렇다면 피어슨의 비대칭도가 크거나 작다는 것은 무엇을 의미할까? 피어슨의 비대칭도는 크게 보아 아래의 요소들로 쪼개어 생각해볼 수 있다.

부호(+,-): 부호가 +이면 평균보다 중앙값이 작다는 이야기 이다. 평균보다 중앙값이 작으려면 오른쪽 꼬리분포여야 한다. 부호가 -이면 왼쪽 꼬리분포가 된다.

크기(0인지, 0과 1사이인지, 1과 2사이인지 등): 크기가 0이면, 분자가 0이기 때문에 평균과 중앙값이 같다. 이는 어느쪽으로도 치우쳐져 있지 않은 대칭분포이다. 부호가 양이면서 0과 1사이라면, 평균에서 중앙값을 뺀 값의 3배가 1표준편차의 크기보다 작다는 이야기이다. 표준편차는 자료가 흩어져 있는 정도를 나타내는 것이고, 표준편차가 클수록 자료가 더 많이 흩어져 있다는 이야기이다. 그런데 3(평균-중앙값)이 1표준편차보다 작다는 것은 평균과 중앙값이 아주 가까이 붙어 있다는 이야기이며, 왼쪽으로 그렇게 많이 치우쳐 있지는 않다는 이야기 이다.


다음과 같은 예제를 살펴보자.

서울시 동대문구의 가구당 소득 평균이 200만원이고 중앙값이 190만원이라고 한다. 동대문구의 가구당 소득 표준편차는 5만원이라고 한다. 피어슨의 비대칭도를 구하고 대략적인 분포를 그려보시오.


위 예제에서 피어슨의 비대칭도는 3(200-190)/5 = 6이다. 평균에서 중앙값을 뺀 값의 3배가 표준편차의 6배만큼 크다는 이야기이다. 그리고 부호는 양수이다. 그렇다면 이 분포는 오른쪽 꼬리분포이다. 그리고 피어슨의 비대칭도가 0인 분포보다 왼쪽으로 많이 치우쳐져 있을 것으로 추정할 수 있다.


그림 3. 같은 평균과 중앙값을 가지는 두개의 분포가 서로 다른 표준편차를 가지고 있다면, 빨간 그래프가 더 작은 표준편차를 가진다. 따라서 피어슨의 비대칭도가 더 크다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari