brunch

You can make anything
by writing

C.S.Lewis

by 김광수 비에이티 Jun 24. 2018

기초통계학 - 분포의 특성(1)

집중화 경향이란?

집중화 경향(Central Tendency)

집중화 경향이란, 자료가 어디에 더 많이 모여 있는지를 나타내주는 용어이다. 대표적인 것은 평균, 중앙값, 최빈값이 있다.

평균: 값들의 무게 중심이 어디인지를 나타내는 값, 보통 산술평균을 칭한다.

중앙값: 값들을 순서대로 나열 했을 때 순서상 중앙에 위치하는 값

최빈값: 어떤 값이 가장 많이 관찰되는지 나타낸 값.


세부적인 계산은 그리 어렵지 않은 편이며 대신 평균, 중앙값, 최빈값 중 어떤 중심화 경향을 사용하여 분포의 특성을 요약할지가 더 중요하다고 할 수 있다. 일반적으로 우리가 접할 수 있는 상황은 월평균소득과 같은 것이 있다.(자료 출처: 더스코프) 가구당 월 평균 소득이 463만원 이상이라는 것은 사실상 말이 되지 않는 것처럼 보인다. 하지만 모든 값을 순서대로 정렬하고 중앙값이나 최빈값을 찾는 것이 상대적으로 더 어려운 경우가 있기 때문에 산술평균으로 자료를 요약하기도 한다. 


평균, 중앙값, 최빈값의 관계

출처: https://www.quora.com/How-is-the-gender-pay-gap-calculated-in-the-US

위 이미지는 평균(mean), 중앙값(median), 최빈값(mode)의 관계를 나타낸 그래프이다. 특정 값이 오른쪽으로 많이 쏠린 경우에는 좌측 이미지 처럼 각 값의 크기가 평균<중앙값<최빈값의 관계를 가진다. 값들이 적절하게 분산되어 있는 형태로 분포하는 경우 가운데 이미지 처럼 평균=중앙값=최빈값의 관계를 가진다. 값들이 왼쪽으로 쏠려있는 형태인 경우 평균>중앙값>최빈값의 형태를 나타내게 된다.


따라서 중심화 경향을 요약하는 경우 세 가지 중심화 경향을 모두 나타내 주는 것이 좋다. 만약 "우리나라 소득분포의 양극화 현상이 심각하다"는 기사를 본다면 우리가 추측해 볼 수 있는 소득분포의 형태는 어떨까? 그래프의 왼쪽과 오른쪽이 불룩하고 중앙이 움푹 패인 쌍봉형태의 그래프가 연상될 것이다. 

쌍봉낙타를 떠올려 보면 되겠다.

이러한 쌍봉형 그래프에서 평균, 중앙값, 최빈값은 어떻게 위치할까? 아래와 같을 것이다.


최빈값을 두 개 구하는 것이 최빈값의 정의에는 맞지 않지만, 가장 빈도수가 높은 두 개의 값을 찾고, 평균과 중앙값의 위치 찾으면 자료가 쌍봉형태라는 것을 쉽게 요약할 수 있다. 마지막으로, 평균은 양 꼬리 값의 크기가 변화할 때 영향을 크게 받지만 중앙값은 그러한 변화에 영향을 거의 받지 않는다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari