brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Mar 02. 2020

세상의 중심에서데이터를 외치다 #2

내가 평균 이상은 하지!!

http://www.yes24.com/Product/Goods/71859635?scode=032&OzSrank=1


2017년 한국경제연구원에서 고용노동부에서 제공한 ‘고용 형태별 근로실태 조사’를 분석한 결과 2016년 대한민국 근로자의 평균 연봉은 3,387만 원이라고 한다. 여기서 질문. 여러분은 연봉을 평균 이상을 받고 있는가? 참으로 슬픈 평균이 아닐 수 없다. 그래서 이번에는 평균에 대해 이야기하려 한다.

평균을 모르는 사람은 없을 것이다. 평균은 표본 값의 총 합을 표본의 개수로 나눈 값이다.


평균의 종류는 여러 가지지만, 일반적으로 산술평균을 말한다. 평균은 수식이 간단해서 다양한 분야에서 폭넓게 활용된다. 그러나 이미 널리 알려졌듯이 평균은 한 가지 단점을 가지고 있는데, 그것은 극단적인 값에 민감하다는 점이다. 이는 어떤 의미일까? 다음 세 학생의 성적을 보자.

세 학생의 평균 성적은 같다. 평균만을 보면 세 학생의 성적이 같아 어느 학생의 성적이 더 우수하다고 평가할 수 없다. 과목별 점수를 각각 비교하면 세 학생의 평균은 같지만 성적이 같다 하기는 어렵다. 세 학생의 평균이 각 학생의 점수를 대표한다고 말할 수 있을까? 세 학생 중 모든 과목에서 평균과 같은 점수를 받은 전군의 평균은 점수를 대변한다고 할 수 있지만, 나머지 학생의 평균은 점수를 대변한다고 할수 없다. 따라서 평균을 진정한 평균으로 만들 방법이 필요하다. 그 첫 번째 과정으로 계산한 평균으로부터 각각의 관측 값(과목별 점수)이 얼마나 멀리 떨어져 있는지를 측정한다. 측정하려면 관측 값들이 평균으로부터 얼마나 분포(산포)돼 있는지를 확인해야 하며, 이를 편차deviation라 한다. 편차는 다음 방법으로 쉽게 계산할 수 있다.

예를 들어, 영희의 국어 과목의 편차는 영희의 국어 점수 85점에서 평균 90점을 빼서 구한다(85-90 = -5). 이와 같은 방식으로 세 학생의 과목별 편차를 구하면 다음과 같다.

결과에서 보듯이 편차는 양수도 있고 음수도 있다. 당연한 이야기지만 관측 값이 평균보다 높을 수도 있고 낮을 수도 있기 때문이다. 이 편차를 모두 더하면 반드시 0이 된다. 다시 말해 편차의 평균도 0이다. 따라서 편차로도 평균의 대표성을 가늠하기가 쉽지 않다. 편차의 합이 0이 되지 않는 방법이 필요하다. 편차가 모두 음수거나 양수라면 합은 0이 되지 않는다. 이때 음수를 양수로 바꿀 방법이 필요하다. 그 방법은 여러분도 이미 알고 있다. 음수와 음수를 곱하면 양수가 되므로 각 편차를 제곱해 원래의 편차 값을 두 배로 늘리면 된다. 편차의 합은 반드시 0이 되지만 두 배로 늘린 편차의 합은 0이 되지 않는다. 이 두 배로 늘린 편차의 평균을 분산(variance)이라고 한다.

그런데 제곱으로 구한 분산은 그 값이 두 배로 늘었으므로 다시 줄이는 과정이 필요하다. 늘린 값을 줄이는 방법은 제곱근을 취하는 것인데, 이를 표준편차(standard deviation)라고 한다.

표준편차를 구하고 세 사람의 성적을 비교해 보니 누가 고른 성적을 받았는지 한눈에 알 수 있다. 데이터 분석의 목적은 데이터로부터 창출되는 가치를 발견하는 것이다. 그런 의미에서 평균은 아주 기본적인 분석으로 수치화한 중요한 가치다. 그러나 평균은 절대적인 영향력이 없음을 앞서 세 학생의 성적에서 확인했다.

앞서 제시한 대한민국의 평균 연봉 3,387만 원은 매우 불편한 진실이며 평균의 오류다. 최저 시급 10,000원도 안 되는데 평균 연봉이 3,387만 원이라니 이 무슨 괴변인가? 최저 시급을 대략 10,000원으로 잡는다 해도 하루 8시간 근무하고 30일 꼬박 근무해야 한 달 월급 240만 원이며, 세금 하나도 제하지 않아야 받을 수 있는 연봉은 2,880만원이다.

그래서 평균을 제시할 때는 반드시 표준편차를 함께 이야기해야 한다. 그래야만 제시된 평균이 얼마나 신뢰성이 있는 가치인지를 판단할 수 있다. 평균을 올리는 것만큼 표준편차를 줄이는 노력을 소홀히 해서는 안 된다. 대한민국 평균 연봉이 3,387만 원 정도 되니 꽤 살만한 수준이라는 오판을 해서는 곤란하다. 평균 연봉 3,387만 원이 5,000만 원으로 오르는 것보다 중요한 것은 고른 소득 수준을 보이도록 표준편차를 줄이는 것이다. 앞으로는 평균이 표준편차와 짝꿍이라는 점을 잊지 말자. 명심하자. 표준편차가 0이 되면 평균을 구할 필요가 없다.

매거진의 이전글 세상의 중심에서데이터를 외치다 #1
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari