brunch

You can make anything
by writing

C.S.Lewis

by 정경문 May 10. 2022

20 생존을 위한 데이터 분석

MZ세대, 대한민국 부동산 기사와 정책을 믿을 수 없다면

정치, 종교, 성별
그리고 부동산

전 세계 공통적으로 사람들이 만나서 하지 말아야 할 이야기가 있습니다. 이른바 3대 금기로 불리는 주제는 정치, 종교, 성별입니다. 하지만 우리나라에는 한 가지 추가된 것이 있습니다. 바로 "부동산"입니다. 저도 위 4가지에 대해서는 모임이나 글에서 언급을 하지 않는 편입니다만 오늘은 데이터 분석 관점에서 조심스레 접근해보고자  합니다.


# 01 통계를 믿을 수 없다면 어떡하나요?


2020년과 2021년, 우리나라는 부동산으로 떠들썩했습니다. 하루하루 자고 일어나면 오르는 집값에 희비가 엇갈린 사람들, 그로 인해 다양한 갈등들까지 생겨나게 되었습니다. 저 또한 힘들었던 그 시절을 기억합니다.


바로 그렇게 온 국민의 눈이 부동산에 쏠려있던 시기에 사람들의 공분을 사는 "데이터"가 있었습니다. 바로 한국 부동산원의 통계였습니다.

국토부 장관이 "서울 아파트 값이 14% 올랐다"라고 하자 "도대체 어느 나라 통계냐"는 여론이 들끓었다. 한 시민 단체가 4년간 서울 아파트 값이 79% 폭등했다고 지적했을 때도 정부는 한국 부동산원의 통계를 근거로 17% 올랐을 뿐이라고 주장했다.

1년 사이에 수억 원이 오른 아파트가 우리 주변에 널렸는데, 어째서 통계는 그 사실을 담지 못했던 것일까요? 오히려 우리가 화가 났던 이유는 숫자가 아니라 우리 마음을 담아내지 못했기 때문일지 모릅니다.


도대체 왜 통계가 왜곡된 것일까요?


2020년 통계청은 한국 부동산원(구 한국감정원, 2020.6월 변경)에 통계품질 진단을 실시하고 개선 권고를 하였습니다. 앞에서 보셨던 것처럼 현실을 담지 못하는 통계, 그리고 그것의 기반이 된 데이터에 대한 진단을 실시하였습니다. 그 결과 통계청에서는 "정기 통계 품질진단 보고서 (출처 : 통계청)"를 공개하였습니다.

그중 데이터와 통계 관점에서 아래 세 가지 이슈사항들을 정리해보았습니다.

출처 : 매일경제 https://www.mk.co.kr/news/realestate/view/2021/08/796885/


1) 데이터가 담고 있는 의미가 무엇인지 알아보아요


우리가 흔히 말하는 "주택"은 무엇일까요? 부동산 관점에서 주택이란 공동주택(아파트), 연립 다세대(빌라), 단독주택 3가지 유형으로 나뉩니다.


주택 = 아파트 + 빌라 + 단독주택


한국 부동산원은 주간, 월간 단위 "주택" 가격 통계를 발표합니다. 매월 발표하는 주택 데이터는 아파트 + 연립(다세대) + 단독주택 3가지를 모두 포함합니다. 하지만 매주 발표하는 주간 통계는 전국 주택 중 아파트만 대상으로 했습니다. 이처럼 데이터 정의에 따라 보여주는 값이 전혀 다릅니다.


주택 유형별 전국 매매 가격지수 : 부동산원 전국 주택 가격동향조사


2) 조사한 데이터가 많을수록 정확해요


당연한 이야기겠지만 데이터가 많으면 많을수록 전체를 정확하게 대변할 수 있습니다. 우리는 이 사실에 대해서 "16 내 월급이 와친남 보다 적은 이유"에서 알아보았습니다. 전체 집단을 대표하기 위해 뽑은 샘플이 한쪽으로 치우쳐도 안되지만, 전체를 대표할 만큼 충분히 크지 않다면 왜곡되는 문제가 발생합니다.

데이터 분석/통계용어로 중심 극한 정리라고 합니다. 궁금하신 분만 더 알아보기로 해요

중심 극한 정리 (출처 : 저자)


통계청은 부동산원의 주택 가격 조사 표본 수가 너무 적다는 점을 문제 삼았습니다.  주간 통계 표본 수는 9400 가구에 그쳤습니다. 이는 2020년 통계기준 전국 아파트 호수는 1,166만 가구로 이 중에서 약 0.01%가 되지 않는 숫자입니다.


데이터 출처 : 국가통계포털(KOSIS)


그래서 2021년 6월부터는 주간 조사 표본 수를 9400가구에서 1만 3720가구로 늘어났지만, 이 역시 민간 통계인 국민은행의 조사 표본 수(3만 6300가구)의 40%에도 미치지 못합니다.



3) 매우 큰 값, 작은 값을 함부로 제거하지 않아요


학교에서 통계를 배울 때는 이상 값(이상치)이라고 해서 일정 범위를 벗어나게 크거나 작은 값을 제거하고 데이터 분석을 실시하도록 배워요. 하지만 실무에서는 그 값을 단순히 없애기보다는 "왜 그러한 값이 발생하였는가?"에 주목합니다. 그 사실이 문제의 원인이 될 수도 있고, 해결하고자 하는 현상의 결과가 될 수도 있기 때문입니다.


그런데 한국 부동산원에서는 데이터를 집계하면서 급하게 집을 팔아야 해서 싸게 파는 데이터(급매), 그리고 법인과 개인 간의 거래 등 특이 거래 등을 제외하는 과정을 거칩니다. 바로 이 과정에서 데이터 수집 기관의 주관이 개입될 가능성이 크다고 지적되었습니다.


이러한 이유 때문에 2021.6월 국가 승인 공식 집값 통계인 한국 부동산원의 기준시점이 변경되게 됩니다. 기존 기준시점인 2011년 6월에서 2021년 6월의 가격을 100으로 변경하였습니다. 예를 들어 2021년 6월 집값이 10억 원이고, 2022년 6월의 집값이 11억 원이라면, 10%가 오른 주택매매 가격지수는 100 → 110으로 표시됩니다.


이러한 통계 기준시점의 변경에는 두 가지 차이가 있습니다.


하나는 현재 지표가 작아 보이는 효과가 있다는 것입니다. 일반 대중들에게 있어서 127(2011.6= 100 기준)과 104.8(2021.6= 100 기준) 중 어떤 값이 더 커 보일까요? "지수"는 기준시점을 100으로 정하고 그 값에 비교해야지, 값의 절대적 크기에 주목해서는 안됩니다.


그리고 다른 하나의 차이는 다른 지표와 비교할 때 기준시점을 통일해야 한다는 점입니다.

이 주제에 대해서는 다음 아래에서 더 알아보겠습니다.



# 02 자로 물건의 길이를 재듯이, 동일한 기준으로 '지수'를 측정해요

자로 길이를 재는 방법은 모두 기억하시죠?^^

다음은 초등학교 2학년 1학기 수학 교과서의 생활과 측정이라는 단원의 내용을 가져왔습니다.

우리는 어떤 물건의 길이를 잴 때, 자를 사용합니다. 왜 자를 사용할까에 대한 설명도 아마 기억하실 거예요. 손 한 뺨의 크기, 한 발자국의 크기 등은 측정하는 사람마다 다 달라요. 그래서 그 기준을 정한 것이 바로 "자"입니다. 자로 길이를 잴 때는 "어디서부터 시작하는지?"를 잘 살펴보아야 했어요.



데이터 분석에 대한 강연에서 학생들에게 될 수 있으면 많이 실습기회가 주어집니다. 직접 데이터를 수집하고 가공하고, 분석한 후 설명하는 방식입니다. 다음은 한국과 미국의 주택 가격지수를 분석하는 과제입니다.

 

                                 [ 한국과 미국의 주택 매매 가격 지수 추이(2006~2022) ]

데이터 출처 : FRED 미국 연방준비은행 세인트루이스 연구소
2008년 한국의 주택 가격지수가 미국의 주택 가격지수를 역전했고, 2020년 미국과 한국의 주택 매매 가격지수가 다시 만났습니다.


이 설명은 어떤 오류가 있을까요?


우선 이 그래프에서는 Y축이 왼쪽과 오른쪽에 두 개가 있습니다. 따라서 왼쪽에는 미국의 주택 가격지수를, 오른쪽에서는 한국의 주택 가격지수를 나타내고 있습니다.


둘의 척도가 다르기 때문에(즉 자의 크기가 다르기 때문에) 한쪽이 다른 쪽이 높다 또는 낮다는 비교를 해서는 안됩니다. 이 데이터는 제목에서 볼 수 있듯이 한국과 미국의 주택 매매 가격 추이(추세)만 참고해야 합니다. 따라서 "역전"이라는 표현은 잘못되었다고 말할수  있습니다.


실제 올바른 그래프를 그린다면 아래와 같이 표현이 될 것입니다.

뉴질랜드, 영국, 미국, 캐나다 4개국의 주택매매 가격지수 추이를 나타낸 그래프입니다. 2010년도 부근에 4개의 그래프가 서로 겹쳐 있는 점이 보이실 거예요. 바로 이점이 2010년 을 기준시점 = 100으로 맞춘 부분입니다. 위의 "자로 길이를 재는 예시에서 본다면 시작점을 0으로 맞춘 것이에요.


그리고 위의 그래프와는 다르게 Y축은 하나로 통일되었습니다. 아까는 두 개의 서로 다른 자로 길이를 쟀다면 이번에는 동일한 하나의 자로 길이를 잰 것과 같아요.


                                 [ 한국과 미국의 주택 매매 가격 지수 추이(2006~2021) ]

데이터 출처 : FRED 미국 연방준비은행 세인트루이스 연구소


이밖에도 우리는 일상에서 많은 지표들을 비교할 일이 있습니다. 물가가 얼마나 올랐는지를 비교하는 소비자물가지수와 주택매매 가격지수를 비교하면서 집값이 다른 물건 대비 얼마나 올랐는지를 가늠해보기도 합니다. 데이터를 바로 볼 수 없다면 제일 처음 보셨던 잘못된 통계정보도 무심코 받아들일 수 있는 오류가 있음을 기억하셔야 해요. 국민 개개인이 이렇게 데이터를 바라보는 눈을 가져야 한다는 사실이 다소 슬프기도 합니다. 하지만 반대로 데이터로 이루어진 세상 속에서 살아남기 위한 생존 능력이라고 보실 수 있어요.


오늘은 부동산 데이터를 가지고 데이터의 오류를 바로 잡는 부분, 그리고 여러 종류의 지표를 한 데 묶어서 비교하는 방법에 대해 알아보았습니다. 책의 후반부로 갈수록 조금씩 어려워지고 있지는 않나요? 서두에 말씀드렸듯이 생존에 필요한 능력이라고 생각하시고 데이터 문해력을 아주 조금씩만 늘려서 스트레칭을 하셨으면 좋겠습니다. 아주아주 조금씩 넓히다 보면 금세 익숙해지시리라 믿습니다.




브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari