brunch

기초통계학 - 분포의 특성(1)

집중화 경향이란?

by 김광수 비에이티

집중화 경향(Central Tendency)

집중화 경향이란, 자료가 어디에 더 많이 모여 있는지를 나타내주는 용어이다. 대표적인 것은 평균, 중앙값, 최빈값이 있다.

평균: 값들의 무게 중심이 어디인지를 나타내는 값, 보통 산술평균을 칭한다.

중앙값: 값들을 순서대로 나열 했을 때 순서상 중앙에 위치하는 값

최빈값: 어떤 값이 가장 많이 관찰되는지 나타낸 값.


세부적인 계산은 그리 어렵지 않은 편이며 대신 평균, 중앙값, 최빈값 중 어떤 중심화 경향을 사용하여 분포의 특성을 요약할지가 더 중요하다고 할 수 있다. 일반적으로 우리가 접할 수 있는 상황은 월평균소득과 같은 것이 있다.(자료 출처: 더스코프) 가구당 월 평균 소득이 463만원 이상이라는 것은 사실상 말이 되지 않는 것처럼 보인다. 하지만 모든 값을 순서대로 정렬하고 중앙값이나 최빈값을 찾는 것이 상대적으로 더 어려운 경우가 있기 때문에 산술평균으로 자료를 요약하기도 한다.


평균, 중앙값, 최빈값의 관계

20180624_153326.png 출처: https://www.quora.com/How-is-the-gender-pay-gap-calculated-in-the-US

위 이미지는 평균(mean), 중앙값(median), 최빈값(mode)의 관계를 나타낸 그래프이다. 특정 값이 오른쪽으로 많이 쏠린 경우에는 좌측 이미지 처럼 각 값의 크기가 평균<중앙값<최빈값의 관계를 가진다. 값들이 적절하게 분산되어 있는 형태로 분포하는 경우 가운데 이미지 처럼 평균=중앙값=최빈값의 관계를 가진다. 값들이 왼쪽으로 쏠려있는 형태인 경우 평균>중앙값>최빈값의 형태를 나타내게 된다.


따라서 중심화 경향을 요약하는 경우 세 가지 중심화 경향을 모두 나타내 주는 것이 좋다. 만약 "우리나라 소득분포의 양극화 현상이 심각하다"는 기사를 본다면 우리가 추측해 볼 수 있는 소득분포의 형태는 어떨까? 그래프의 왼쪽과 오른쪽이 불룩하고 중앙이 움푹 패인 쌍봉형태의 그래프가 연상될 것이다.

그림2.png 쌍봉낙타를 떠올려 보면 되겠다.

이러한 쌍봉형 그래프에서 평균, 중앙값, 최빈값은 어떻게 위치할까? 아래와 같을 것이다.

그림3.png


최빈값을 두 개 구하는 것이 최빈값의 정의에는 맞지 않지만, 가장 빈도수가 높은 두 개의 값을 찾고, 평균과 중앙값의 위치 찾으면 자료가 쌍봉형태라는 것을 쉽게 요약할 수 있다. 마지막으로, 평균은 양 꼬리 값의 크기가 변화할 때 영향을 크게 받지만 중앙값은 그러한 변화에 영향을 거의 받지 않는다.

keyword
작가의 이전글디지털 노마드를 꿈꾸는 여행자를 위한 안내서(1)