평균값, 중앙값, 최빈값으로 들여다 본 오늘
어느날 기사에서 통계청 조사에 따른 우리나라 2023년 평균 가구 소득은 7,185만원이라고 전해 들었다. 외벌이 2년차에 접어드는 내 상황에서 스스로를 돌아보게 만드는 기사였다. '나는 평균보다 적게 버는건가? 내가 뒤처지고 있는 걸까?'
하지만 이때, 문득 생각이 들었다. 단순한 기사 문구가 아니라, 엑셀로 직접 통계청 자료를 들여다보고 싶었다. 과연 저 숫자가 우리 삶을 제대로 반영하고 있을까?
다음과 같은 월 소득 데이터가 있다고 해보자
엑셀에서 이 11명의 평균 소득을 구하는 함수는 아주 간단하다.
=AVERAGE(B1:B11)
그 결과는 419만원.
결과값만 보면 얼핏 "다들 419만원쯤 벌겠구나" 싶지만, 데이터를 다시 들여다보면 대부분은 2~300만원대의 범위 안에 있다. 그리고 광수와 영숙, 이 두명이 전체 평균을 끌어올린 것이다.
영수는 실제로는 꽤 고소득자이지만 정말 가까스로 평균이상을 하고 있구나 생각하고 있을테고, 영수, 광수, 영숙을 제외한 사람들은 평균에도 한참 못미치는 소득에 좌절감이 있을 것이다.
여기서 이 평균값의 문제는 극단값(Outlier)의 지나친 왜곡이다.
같은 데이터를 가지고 다른 통계 지표를 구해보자.
=MEDIAN(B1:B11), 중앙값 결과는 320만원
=MODE.SNGL(B1:B11), 최빈값 결과는 280만원
중앙값은 정렬했을 때 중앙에 위치한 값이다.
위 데이터의 중앙값은 320만원. 평균이 419만원인데 중앙값이 320만원이라는 건, 절반 이상의 사람들이 320만원 이하를 번다는 뜻이다. 그리고 최빈값 280만원은 그 중에서도 280만원을 버는 사람이 가장 많다는 뜻이다.
즉, 주변에서 가장 흔한 소득은 280만원이고, 절반은 320만원 이하를 벌고 있는데, 뉴스에도 보도하는건 419만원이라는 평균값이다.
이렇게 보면, 평균이야말로 때때로 현실을 가장 왜곡하는 숫자일 수 있다.
최근 몇년 사이, "MZ세대 자산 양극화"가 자주 언급되면서 "평균 자산은 5억원" 같은 자극적인 자료들이 보인다.
이런 종류의 실체를 조금 더 파보면 대부분 자산은 상위 10%가 보유하고 하위 50%의 자산은 그 수치에 한참 못 미친다.
실제로 통계청은 평균뿐만 아니라 '5분위별 분포', '중위소득', '지니계수' 등의 지표를 함께 제공하여이런 평균의 왜곡을 조정하는 자료들을 함께 제공하고 있다.
하지만 사람들은 자극적인 '평균'만 보고 비교하고, 상대적 박탈감을 느끼기 쉽다.
엑셀은 계산 도구지만, 동시에 생각을 열어주는 도구다.
=AVERAGE()만 쓸 것이 아니라, 아래와 같은 함수들도 함께 써보자.
단순히 "얼마나 버는가?"에서 끝나지 않고, "대부분의 사람들이 실제로 얼마나 버는가?", "나와 같은 사람이 더 많은가, 적은가?", "왜 이 숫자가 평균이 되었는가?" 라는 질문을 던져야 한다.
우리는 수많은 통계 지표 속에 살고 있다. 하지만 그 숫자들이 내 삶을 정확히 대변해주지 않을 수도 있다.
평균은 우리에게 숫자를 주지만, 현실을 보여주진 않는다.
진실은 평균이 아니라, 그 속에 숨어 있는 분포에 있다.