brunch

You can make anything
by writing

C.S.Lewis

by 정경문 May 01. 2022

15 내 월급이 와친남보다 적은 이유

2022년 통계청 발표 평균소득 임금 데이터

엄친아 보다 더 위대한 와친남


와이프 친구 남편(와친남)들은 어째서 하나같이

부자 집안에, 억대 연봉에, 잘생기고, 키 크고,

자상하고, 기념일도 잘 챙기고,

퇴근하면 집안일 다하고, 애도 다 봐주고,

어떻게 이런 일이 있을 수 있나요?


엄친아라는 신조어가 생긴 지 약 10년 전이니까...
걔들이 커서 이제 와친남이 된 거 겠죠? ㅠㅠ
출처 : https://www.goodgag.net/33518


한 커뮤니티 게시판에 올라온 베스트 댓글을 보고 한참 웃었습니다. 하지만 우리의 모습을 반영한 웃픈 현실이기도 해요. '쥐꼬리만 한 월급'은 부부싸움에서 빠지지 않고 등장하는 단어이기도 합니다. 그런데 왜 내가 생각하는 내 월급은 많은 것 같은데, 어째서 와이프 친구 남편보다 항상 적을까요? 이 토론 배틀이 데이터 분석가 남편과 그의 아내 사이에서도 어김없이 벌어졌습니다.



# 01. 모두에게 평등한 기회를 주고 데이터를 뽑아요


"내 대학 동기 로미 남편은 연봉이 1억 5천이래. 그런데도 매일 일찍 집에 와서 저녁 준비도 해주고 애들도 잘 놀아준다고! 요즘 이자 올라서 빠듯해 죽겠어! "

"아니, 맨날 그 회계사 남편 얘기만 하면 어떻게 해? 자기는 다른 친구 없어?"


"또 있지, 고등학교 친구 보리 남편은 1억 2천이야. 최근에 서울에 집도 샀대"

"뭔가 샘플 데이터 추출 방식이 잘못된 거 아니야? 아니 어떻게 뽑는 샘플마다 전부 연봉이 그렇게 높아?

비교라는 것을 할 때는 말이야, 평균 연봉이라던지, 대한민국 연봉 1등부터 꼴찌까지 줄을 세운 다음에 가장 가운데 서있는 사람의 연봉을 뽑는 중간 연봉이 적당한 거 아니야? 이런 식으로 뽑았던 샘플 뽑고 또 뽑고 하면서 복원 추출을 하면, 대한민국 40대 가장의 연봉을 대표하는 집단과는 아~~ 주 거리가 멀어진다고"


"알아듣게 설명을 좀 해봐"

"연봉을 조사하는 방법 중에 가장 정확한 방법은 대한민국 남자 2500만 명한테 전부 다 물어보는 거야. 이걸 모집단이라고 해. 전부다. OK? 그런데 이런 조사는 불가능할 거 아니겠어? 그러면 이 전체 집단을 대표하는 대표선수들을 뽑아야 한다고. 이것을 '데이터가 모집단을 대표하고 있다'라고 말하지"


모집단과 표본의 개념(저자)


요즘은 빅데이터, 빅데이터 이야기를 하지만, 아내와 대화를 하기 위해 '대한민국 모든 남성'에 대한 임금정보를 조사하는 것은 불필요하고 불가능합니다. 즉 가성비가 떨어져요. 그래서 어떤 데이터를 대표하는 부분을 보고 싶을 때 모집단과 표본이라는 용어를 사용합니다. 일반적으로 전체의 부분을 표본으로 뽑고, 이를 뽑는 방식에 다양한 통계학적 추출방법이 있다는 것만 알아두셨으면 좋겠습니다. 용어만 알면 검색하면 되니까요.


필요할 때만 찾아보기로 약속해요! 절대로!

* 다양한 통계학적 추출방법 : 무작위 추출(랜덤), 체계적 추출(일정 간격), 비례 추출(집단 비율에 맞춰서), 다단계층화 추출(집단 특성별로), 군집 추출(대표하는 집단만 추출).



# 02. 평균의 비밀


내 월급은 평균소득보다 많은데,
어째서 아내 친구 남편보다는 항상 적을까?
2022년 2월 21일 통계청 발표 - 2020년 임금근로 일자리 소득(보수) 결과


"이거 보라고 내가 이럴 줄 알았어! 대한민국 근로자의 평균 소득은 320만 원이라고! 그에 비하면 내 월급 450만 원은 자그마치 130만 원이나 더 많아. 더군다나 중위소득 242만 원으로 봤을 때는 더욱 높지 않아? "

데이터 분석가 남편의 어깨가 뽕긋뽕긋 합니다.


"아니 평균으로 비교하면 돼? 자기 나이도 있고, 뭐 신입사원들 월급하고 비교를 해? 아르바이트생도 다 포함된 걸 거 아니야! 그리고 중위소득은 또 뭔데! 아, 필요 없고 애가 둘, 40대 남자 가장이 320 벌어서 대출이자 내고, 애들 학원비 내고 아파트 관리비 내면 뭐 우린 라면만 끓여먹어? 데이터 분석만 할 줄 알지 현실감각이 전혀 없구먼!!"


중위소득이란
모든 임금 근로자를 소득순으로 순위를 매겼을 때, 가운데를 차지한 사람의 소득을 의미합니다.

예를 들어, 임금근로자 2000명을 대상으로 조사한 결과라면 소득이 높은 순으로 한 줄로 서있다고 했을 때, 중간인 1000번째 서있는 사람의 소득을 말합니다.(실제로 표본이 짝수이므로 1000번째와 1001번째의 평균값을 계산합니다.)


아내 역시 논리적이긴 마찬가지였습니다. 뭔가 잘못된 것 같은 남편이 다시 검색을 시작합니다. "기다려봐"

"엇 이건 뭐지?!" "뭔데 뭘 찾았는데?" 남편이 뭔가 본인한테 불리한 데이터를 찾은 것 같습니다.

2022년 2월 21일 통계청 발표 - 2020년 임금근로 일자리 소득(보수) 결과

"이거 봐 이거 봐" 대한민국 임금근로자를 성별(남자, 여자)과 연령별(10대, 20대, 30대 등)으로 구분했을 때 남편이 속한 집단의 평균소득은 454만 원입니다. 남편의 월급 450만 원은 지극히 평균에 근접한 값이었습니다. "이 정도면 평균이네?! 됐지?"


"확실히 아까보다 값이 정확하네?!" "이런 걸 구간분할이라고 해"


"데이터는 그 성격에 따라서 남자/여자와 같이 구분이 가능한 범주형 데이터라는 게 있고, 키나 몸무게처럼 숫자로 생긴 연속형 데이터라는 게 있어. 40대 남자에 대한 데이터를 뽑으려면 연령대라는 순위 데이터와 성별이라는 명목 데이터로 나뉜다고. 그렇게 일정한 상자에 넣고 그래프를 그린 것이 이 막대그래프이지."


데이터의 종류(저자)


"자 이제 됐지?"라고 하며 얼른 컴퓨터를 덮으려는 순간

"잠깐, 이건 뭐야?!"


"당신 대기업 다니지? 오른쪽에 대기업 40대 남자 평균소득이 651만 원인데? 이건 어떻게 설명할래?

어? 당신 혹시 월급 빼돌리는 거 아니야?!"


순간 출장비를 별도 계좌로 받은 기억에 남편의 겨드랑이에 식은땀이 흐릅니다.

"흐흠, 잘 보라고. 통계청에서 발표한 자료의 맨뒤(또는 맨 앞)에 보면 데이터 표준 정의가 있어, 여기 "

※ 본 통계의 ‘소득’은 고용주가 노동을 제공한 근로자에게 대가로 지불한 보수를 의미하며, 집계 치는 세전 기준, 월 단위 소득임

"세전이니까 다소 부족하기는 하지만 아주 낮은 금액은 아니라고. 그리고 그거 알아? "


서울 사는 월급 400만 원, 키 180 미만, 40대 남자
147만 6천 명 중에
내가 초희 씨를 가장 사랑해


세상에서 유일한 데이터 분석 전문가 남편의 사랑 표현 방식입니다.



# 03. 전문용어 없이 데이터를 쉽게 설명할 수 있어야 해요.



뭣이 중한디?


우리는 착각합니다. 모집단과 표본, 모수와 기술통계, 범주와 연속 등 학문적인 용어가 나오면 전문가라고 생각합니다. 물론 용어의 정의는 모든 것의 시작이지만 그전에 필요한 게 있습니다. 바로 개념원리입니다. 설명이 필요한 현상과 원리가 있기 때문에 용어가 태어난 것입니다.


우리는 흔히 모든 것을 다 알고, 학문적으로 접근하고 나서 활용하려고 합니다. 글을 쓸 때도 글쓰기 책을 먼저 독파해야 하고, 영어를 말할 때 문법을 다 띠어야 직성이 풀립니다. 작은 데이터 문제를 해결할 때도 같아요. 파이썬(데이터분석 툴)을 대할 때 처음부터 끝까지 배운 후에야 활용이 되고, 통계학을 대할 때 모든 고급 공식을 다 배우고 나서 활용하려 합니다. 그래서 어렵고 따분해서 중간에 포기하게 돼요.


중요한 것은 이런 자세입니다.

 '난 이걸 꼭 해야겠어!

도구는 뭐라도 좋으니까 다이소 가서 얼른 사 와서 시작하자!'


그러다 보면 어느새 여러분 손에는 전문 도구가 들려있고, 머리에는 전문지식이 쌓여있을 거라 확신합니다.

데이터 분석가와 아내의 월급 토론 배

매거진의 이전글 14 데이터야 팩트체크를 부탁해
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari