통계조작 음모론이라는 음모론

이우진 고려대 경제학과 교수 칼럼에 대한 반론, '가계동향조사'

Aug 30. 2018

http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201808282101005&code=990303

통계청에서 발표하는 가계동향조사자료 때문에 정부의 고위직 인사 두 명이 석 달 간격으로 교체되었다. 지...

http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201808282101005&code=990303

착잡하게 글을 시작하면서

이 글을 쓰기 전에 먼저 많은 고민이 있었음을 먼저 밝히고 싶다. 본인은 통계 전공이 아니며, 경제학 전공도 아니다. 그러나 사회과학에서 대학원 짬밥을 오래 먹어서 통계 수업은 몇 차례 수강하였으며, 석사논문 역시 회귀분석, 시계열 분석을 이용한 부동산 관련 논문을 썼고, 또 박사 졸업 이후에는 통계 관련한 회사를 잠깐 다녔던 적도 있다.

통계라는 깊고 넓은 세계에 어찌 감히 "안다"는 말을 할 수 있으랴마는, 그냥 필자는 통계에 대한 경험이 없지 않다는 정도만 전제로 해두겠다.

이 글을 쓰면서 뭐 대단한 구글링을 하지는 않았다. 팩트체크가 아닌 이상 통계를 진짜로 잘하는 사람의 수많은 견해를 내 견해인 양 덮어씌우고 싶지 않았기 때문이다.

내가 이 글에서 주장하고 싶은 것은 이것이다.

이우진 교수의 경향신문에 기고한 "어설픈 통계조작 음모론"이라는 글의 내용은

1) 2018년 통계가 잘못되었다는 것을 증명하지도 못했으며,

2) 비유 역시 적절하지 않았고,

3) 결과적으로 "소득주도성장 정책을 반대하는 이들의 주장은 오류다"라고 주장하는데

실패했다.

이것을 통해서 '소득 주도성장의 이론은 틀렸다', 혹은 '2018년 저소득층의 가계소득은 소득주도성장 정책으로 인하여 오히려 떨어졌다'고 주장하고 싶은 것은 아니다. 이것은 매우 중요한 지점이다.

각론하고 바로 본론으로 들어가도록 하겠다.

진격의 서막

첫 문단부터 살펴보겠다.

지난 5월 발표된 2018년 1분기 자료와 며칠 전 발표된 2분기 자료에 의하면, 소득 하위 20% 계층(소득 1분위)의 가계소득은 전년 동분기보다 크게 감소했고 소득 상위 20% 계층(소득 5분위)의 가계소득은 전년 동분기보다 크게 늘어났다고 한다. 이러한 발표가 나오자 야당과 일부 언론은 현 정부의 소득주도성장 정책 때문에 빈익빈 부익부가 더 심화되었다는 주장을 제기하였다.

문제의 경위를 짚고 있다. "야당과 일부 언론은 현 정부의 소득주도성장 정책 때문에 빈익빈 부익부가 더 심화되었다는 주장을 제기하였다."는 문장은 사실 반대론자들의 주장을 제대로 요약한 것인지 모르겠지만, 그냥 넘어간다. 이건 중요한 문제가 아니다. 다음 중요한 부분을 살펴보겠다.

결과적으로 2016~2018년 사이에 표본수와 표본구성에서 큰 변동이 생긴 것이다. 2016년 1분기에 7000여개이던 표본이 2017년 1분기에는 4000여개로 크게 줄었고, 2018년 1분기에는 6600여개로 다시 증가하였다.

2016년, 2017년, 그리고 2018년 표본수가 달랐다는 이야기이다. 종종 있는 일이다. 여기에 대해서 저자는 다음과 같이 주장한다.

이렇게 표본수와 표본구성에 큰 차이가 나면 당연히 연도 간 비교라는 게 크게 의미가 없는 것인데 통계청에서 단순비교를 공표하면서, 그리고 그 비교를 일부 언론과 정치권에서 아전인수격으로 확대 해석하면서 사달이 난 것이다.

이 부분을 읽고 누군가는 이것을 "사이다"라고 느꼈던 것 같다.

실제 페이스북이나 다른 소셜미디어에 이런 부분을 인용한 문구를 많이 보았다. 솔직히 나는 이것을 읽으면서 약간 벙찐 느낌이었다. 과연 그런가?

먼저 통계청의 설명을 한번 들어보자. 2018년 8월 23일에 통계청에서 배포한 보도자료를 전혀 수정하지 않고 그대로 인용하겠다.

□ 가계동향조사 소득부문은 2018년부터 ① 조사항목의 전국단위 대표성 확보, ② 모집단 변화의 반영('10년 기준 →'15년 기준), ③ 기존 통계와의 시계열 유지 등을 종합적으로 고려하여 표본을 확대 개편*

* 약 5,500가구(‘17년) → 약 8,000가구(’18년)
○ 이에 따라 새로 편입된 표본가구를 중심으로 1인 가구와 고령층 가구의 비중이 크게 증가하여, 전년도와 올해의 결과를 직접 비교하여 결과를 해석하는 데는 주의가 필요

여기에는 "표본의 확대 개편"이라는 표현이 있다. 이우진 교수가 말하는 것처럼 표본이 확대 개편된 것은 사실이다. 그렇다면 이우진 교수의 주장처럼 "표본수와 표본구성에 큰 차이가 나면 당연히 연도간 비교라는 것은 의미가 없는 것인데"라고 주장할 수도 있는 것인가?

1. 표본수에 대하여

먼저 이거 하나 짚고 넘어가자. 표본수 5500가구(2017)와 표본수 8000가구(2018)는 이미 엄청나게 큰 숫자이다. 약간 경우는 다르지만, 전국민을 상대로 하는 대통령선거의 여론조사들 보면 대게 1000명 남짓으로 조사한다. 그래도 표본오차는 신뢰수준을 95%로 했을 때 3.1% 전후이다. 5500가구와 8000가구는 사실 표본수의 차이로 보면 이미 큰 숫자들이기 때문에 근본적으로는 왜곡될 가능성이 크지 않다고 보아야 한다.

2. 표본추출 방식에 대하여

'1. 표본수'만 보면 분명 필자는 어떤 왜곡을 하는 것일 수 있다. 왜냐하면 '가구'라는 말에 함정이 있기 때문이다. 참고로 가구동향조사는 "조사담당자가 면접을 통해 자료 수집"을 하는 방식이다. 고소득층은 아무래도 자신들의 지출에 대해서 정확한 정보를 주지 않으려고 한다. 그래서 항상 문제가 되는 것이 "고소득층 답변 부실에 따른 통계 왜곡"이다.

통계에서 표본수를 개편했다고 하면 아무래도 1인가구 혹은 저소득층이 좀 더 많이 포함되었을 가능성이 농후하다. 이 점은 통계청에서도 밝히고 있다.

정리를 해보자면, 2017년에서 2018년으로 옮겨가는 과정에서 '표본수'와 표본추출 방식이 바뀐 것은 사실이다. 그러나 "연도간 비교는 의미없다"는 것은 과도하다. 왜냐하면 전체 표본수 5500이나 8000은 이미 수적으로 많은 숫자이기 때문이다. 그러나 '저소득층과 1인가구가 더 많이 포함되었기 때문에 연도간 비교를 할 수 없는 것 아니냐'는 주장을 할 수 있으나, 그것이 비교불가로 이어지지는 않는다.

거래량이 다르면 아파트가격은 오르지도 내리지도 않은 것인가?

아주 쉬운 예를 하나 들어보자.

국토교통부는 전국에 있는 주택의 실거래가 정보를 그대로 공개한다. 예를 들어 2017년 강남구 **동의 아파트 거래건수가 30건이며 평균 거래가격은 10억이었고, 2018년 같은 구 아파트 거래건수는 50건이며 평균 거래가격은 12억이었다고 하자. 그렇다면 우리는 "강남구 **동 아파트의 가격이 올랐다"라고 말할 수는 없는 건가? 아니면 "강남구 **동 아파트의 가격이 20% 올랐다"고 말할 수 있는 것인가? 당연히 전자보다 후자가 더 정직한 표현이다. "연도별 표본수가 다르기 때문에 비교는 의미없다"는 말은 어불성설이다. 게다가 아파트 거래량과 달리 가계동향조사의 표본은 5500과 8000이다.

일개 개인이라면 상상도 하지 못할 돈을 들여 만들어놓은 이 거대한 통계를 가지고 '비교를 할 수 없다'고 한다면, 그건 통계를 하지 말란 이야기와 똑 같은 거다. 학자들의 말만 따르면 비교할 수 없는 이유는 너무 많기 때문이다. 통계는 결국 공정한 비교를 하기 위한 것이며, 비교를 하기 위해서는 자잘한 차이에 대해서는 변명(excuse)를 구하는 수밖에 없다.

필자의 경험에 따르면, 학위논문 심사장에 가면 많은 교수님들이 "이러한 통계는 이러이러한 이유 때문에 의미가 없다", 혹은 "비교할 수 없다"는 표현을 자주 쓴다. 그럴 때마다 학생 입장에서 속이 터지는 것은, 그것을 대체할 그보다 더 정확한 자료가 존재하지 않는다는 사실이다. 그렇다면 자신이 추구하려는 연구목적에 얼마나 '본질적인 수단'을 썼느냐, 그보다 더 좋은 자료는 없었느냐는 것을 놓고 봐야 할텐데, 교수님들은 그 이면에 어떤 자료들이 있는지 정확하게 모르는 상황에서 통계를 까대는 경우가 많다.

여하간 여기서 중요한 것은 어느 정도 변명을 한다면, 2017년과 2018년의 가계동향조사 소득을 비교하는 것은 그렇게 불가능하지만은 않다는 것이다. "의미없다"고 말하기는 쉽다. 특히 학자들은 그렇게 말하기를 좋아한다. 그래야 다른 사람의 연구결과가 초라해지고 자기 말이 나은 것처럼 생각하기 때문이다.

납득 안되는 비유

비유를 들자면 작년에는 딸기 30개와 사과 20개를 수확하였고, 올해는 사과 25개와 배 15개를 수확하였는데 이를 두고 올해 과일 수확량이 작년 과일 수확량보다 좋아졌는지 나빠졌는지에 대해 왈가왈부했던 셈이다. 정부 비판자들은 합계라는 면에서 보아 40개가 50개보다 작으니 농사가 실패한 것이라고 주장한 것인데, 달리 보면 두 해에 공통으로 생산된 사과만 놓고 보면 20개에서 25개로 수확량이 늘었으니 올해 과일농사가 성공적이었다고 주장할 수도 있는 것이다.

이우진 교수는 표본구성의 이야기를 쓰고 난 이후 갑자기 비유를 든다. 과일의 종류부터 숫자까지 여러 모로 신경을 쓴 흔적이 역력하다. 말하자면 전체 생산량은 줄었지만(50->40), 사과는 늘었다(20->25)는 논리이다. 물론 과일 전체 생산량을 놓고 '무게'가 아닌 '갯수'로 따지는 것이 의미 있는지 모르겠지만, 어쨌든 이 논리를 그대로 따라가보자. 그냥 무조건 갯수가 많으면 더 과일이 많이 생산된 것으로 보자는 의미이다(그렇게라도 않으면 도무지 말도 되지 않는 비유이다).

만약 이 데이터를 가지고 "과일농사가 성공적이었다"고 주장한다면 그것은 사실인가? "사과생산량은 늘었지만 전체 과일생산량은 줄었다"고 하는 것이 정확한 표현이 아닌가?

쉽게 말하자면, "표본수가 달라졌으므로 있는 그대로 비교하는 것은 무리다"라는 말을 세련되게 하고 싶었던 것 같은데, 뭔가 와닿지도 않고, 명쾌하게 설명되기는 커녕 의문만 커지는 '나쁜 비유'이다.

무리수의 연속

만일 표본수나 표본구성의 큰 변화가 없었는데 1분위 소득이 감소하고 5분위 소득이 증가했다고 하면 이것은 소득주도성장 정책의 실패를 의미하는가?

아니다. 하위소득은 정체되거나 감소하고 상위소득은 급성장하는 서민배제적 성장패턴은 어제오늘의 일이 아니고 1990년대 중반부터 우리 사회에 전형적으로 나타나는 구조적 병리현상이다. 기실 소득주도성장 정책이나 포용적성장 정책은 이러한 구조적 문제를 해결하기 위해 시도된 정책들이다.

다음 내용을 보면 갑자기 화제가 1990년대 이후 경제사회학적 변화로 바뀐다. 만약 1분위 소득이 감소했다고 해도 그것은 정권 탓이 아니라 사회 트렌드, 즉 '구조적 병리현상' 때문이라는 것이다. 물론 "정권탓"이라고 몰아붙이는 것은 맞지 않다.

* 심지어 필자는 본인의 글에서 "모든 것을 문재인 탓으로 돌리지 말라"는 글을 쓴 적도 있다(http://www.chungnamilbo.com/news/articleView.html?idxno=434831).

물론 이 모든 것이 다 정권탓은 아니다. 그런데 "구조적 병리현상" 이라니 이런 무책임한 분석이 어디 있나? 만약 누가 진지하게 "저는 왜 이렇게 가난한가요?"라고 물었을 때, "1990년대 이후 구조적 병리현상"이라고 답한다면, 가난한 사람은 코웃음을 칠 것이다.

범죄율이 높아지니까 경찰관 수를 늘렸는데 어떤 통계학자가 경찰관이 많아져서 범죄가 더 늘었다고 주장한다면 얼마나 황당한가?

이해된다.

그러니까, 이우진 교수는 상관관계와 인과관계를 구분하지 못하는 사람들에게 한 수 가르침을 주려고 하는 것 같다. 그런데 과연 그런가? 이우진 교수의 논리는 이렇다.

언제부터인가 우리 사회에서는 사려 깊은 분석은 사라지고 정파적 이익이나 신념에 의해 아전인수 격으로 해석하는 것이 사회적 규범이 되어 안타깝다. 불평등과 양극화가 심해 정부가 다양한 정책을 시행하고 있는데 한편에서는 이 정책들 때문에 불평등이 심화되었다고 야단들인 것이다.

1. 저소득층은 소득이 감소한다.(병)

2. 이것은 구조적 병리현상이다.(원인진단)

3. 이 문제를 해결하기 위해서 이 정권은 소득주도성장정책을 폈다.(처방)

4. 처방전 때문에 병이 악화되었을리 없다..?

그리고 마지막으로는 자신이 비판하는 사람의 무지를 비웃기까지 한다. 말씀인 즉, 비판자들은 "사려 깊은 분석이 사라지고", "정파적 이익"이나 "신념"에 의해, "아전인수"격으로 해석하는 자들이다. 일단 이 글은 저자의 오류를 지적하는 것이 목적이니 저자가 가진 지적 우월감에 대한 이야기는 일단 접어두기로 하자.

1번이 문제라는 점은 이미 저자도 인정한 셈이다. 그러나 1번의 문제는 "정권탓"이 아니라 "구조병리학"이라고 분석을 마무리해버렸다. 필자는 사실 이 문장도 상당히 교활하다고 느끼는데 "서민배제적 성장패턴"의 원인에 대해서 결국 저자는 한마디도 하지 않고 있다. 저자는 "정권탓"을 하는 자들을 준업하게 꾸짖고 있지만, 정작 본인은 그럼 "무슨 탓"인가에 대한 대답을 "구조병리학"이라고 퉁 쳐버리는 셈이다. 내가 하면 로멘스고 남이 하면 불륜이라는 내로남불의 전형이다.

결국 문제는 3이다.

돌아와, 핵심은 이거다.

문재인 정부가 소득주도성장이라는 문재인 정부 출범 전까지 거의 들어본 적이 없는 희한한 이론을 가져왔는데, 과연 그것이 저소득층의 소득을 높여서 내수를 진작시킬수 있을 것인가, 하는 부분이다. 물론 내가 과문해서일 수 있다. 그런데 나뿐만 아니라 한국의 대표적 경제학자인 '조순' 옹 조차도 소득주도성장이라는 것은 경제학에도 없는 이론이라고 했다.

어쨌든 뭐든 좋다. 저소득층이 잘 살게 되고 더 훌륭한 나라가 된다는데 누가 뭐라하겠는가?

3이 만약 맞다 하더라도 그 성과가 하루 아침에 나오길 기대하는 것은 당연히 무리이다. "정권탓"에는 당연히 무리가 있다.

그런데, 반대로 '저소득층 소득감소는 정권탓"이라는 주장을 뒤집을만한 근거가 있는가? 표본이 5500이나 되었던 통계가 잘못되었고, 표집방식이 바뀌어 저소득층의 소득이 줄어든 것으로 나왔다는 것으로 면피하는 것 이외, 오히려 저소득층이 살기 나아졌다든가, 영세자영업자들이 더 살기 좋아졌다는 근거가 있는가?

그런 근거를 만들어오기 전에 보수언론과 야당이 공세를 퍼붓는 건 어쩌면 당연하다. 이 민감한 시기에, 민감한 문제에 대하여 "통계청장"을 경질하다니, 좀 의외였다. 나라면, 가뜩이나 내가 약한 고리를 공격받고 있는 마당에 신뢰에 치명적 손상을 줄 수 있는 '통계청장 경질'이라는 조커도 아니고 뭐도 아닌 이상한 카드를 내지는 않았을 것 같다. 그러나 문정부는 그것을 택했다. 이 경질에 대해 이우진 교수는 다음과 같은 문장으로 마무리한다.

통계청장의 교체와 관련하여서는 정부가 통계조작을 시도하려 한다는 어설픈 음모론까지 제기되고 있다.

이거야 말로 본인이 앞에서 말했던 '부정확한 통계의 해석' 문제와는 완전히 동떨어진 그냥 '정치문제' 아닌가? 방금 전 상관관계와 인과관계의 차이를 가르칠 때만 해도 근엄한 학자의 포지션이였는데, 왜 갑자기 아무 근거도 없이 '통계청장 교체에 대한 음모론'으로 글이 마무리되는지 이해할 수 없었다.

결론을 대신하여

이우진 교수의 글을 읽고 '학자가 쓴 글 치고는 너무 나이브하다'고 느꼈다. 비유 역시 적절치 않았다. 그런데 누군가는 이 글을 칭송했다. 어설픈 보수우파의 비판을 용감하게 무찌른 경제학자로 보이는 모양이다. 실제 이우진 교수의 정치성향을 내가 알 길은 없으며, 좌파이기를 기대하지도 않는다. 그렇다고 우파라고 단정하지도 않는다.

표본수의 차이를 가지고 연도간 비교가 "의미 없다"는 말은 지도교수가 논문심사장에서나 할 수 있는 말이다. 만약 그런 정도의 차이로 시계열을 그릴 수 없다면, 지구상에 존재하는 수많은 통계의 시계열은 모두 "의미 없다"고 봐야 맞을 것이다. 하다못해 유능한 면접원과 그렇지 않은 면접원에 대해서도 엄청난 오차가 발생하는 것이 통계의 세계이다. "의미가 없다"는 말을 하기는 쉽다.

통계청 역시 이 문제를 사전에 인지하고 있었던 것으로 보이나, "해석에 유의"하시라고 했지, "연도간 비교는 불가능"하다고 쓰지 않았다.

어쩌면 이우진 교수의 글 자체에 대해서 이렇게 비판하는 글을 쓰고 싶을 정도로 잘못된 글이라고는 생각하지 않는다. 그러나 문제는 이우진 교수의 글에 있는 오류들보다, 이 글을 대하는 소셜미디어 팔로워들에 있다고 판단되었다.

"이제 봐라, 경제학자마저도 보수야당의 주장을 실랄하게 비판하는구나."

"소득주도성장 더 힘차게 밀고 나가야 합니다."

"적들의 공세에 무너지지 맙시다"

라는 식으로 도배되는 댓글과 코멘트를 보고 있기가 힘들었다. 이우진 교수의 글은 일반적으로 사람들이 간과하기 쉬운 "표집방식의 차이"라는 약한 고리를 건드린 것은 맞지만, "연도비교는 의미 없다"는 의미없고 무책임한 결론을 내고 있을 뿐만 아니라, 정작 중요한 문제에 대해서는 견해의 편린조차 제공하지 않기 때문이다.

문제는 두개로 나뉜다.

1) 2018년 저소득 계층의 소득은 진짜로 하락했는가?

2) 그것은 문재인 정부의 소득주도성장 때문인가?

냉정하게 말해 1)과 2)에 대해서 우리는 모두 답을 모른다. 다만 표본이 다른 두 통계치는 1)을 지지하고 있다. 우리가 알고 있는 것은 그 뿐이다.

2)는 조금 다른 문제일 수도 있다. 여당의 편을 들어줄 이유는 없지만, 굳이 따지자면 정책의 '시차'가 있을 수 있다. 굳이 이명박근혜를 언급할 필요도 없다. 저소득층의 소득이 줄었는데, 그것은 아직 회복할 시간이 부족했기 때문이라고 반론할 수 있다. 정면돌파는 아니지만 그게 더 솔직한 고백이다.

좀 더 넓은 관점에서 보자면, 나는 가계소득에 대한 통계를 믿기 힘들다. 면접원에게 대답한 답변자료가 얼마나 현실과 비슷할까 싶고, 또 고소득자일수록 숨기고 싶은 것이 많을 것이기 때문에 애초에 정확한 자료가 나올 수 없은 시스템이다.

그러나 그보다 중요한 진실은 그 통계조차 "우리가 가진 사실 판단의 근거" 중 하나라는 사실이다. 어차피 통계 해석에 대한 싸움은 정파와 인지를 기반한 싸움이다. 단순히 정파때문이 아니라 철학과 논리에 의해서도 해석은 달라질 수 있다. 솔직히 까놓고 말해서 95% 신뢰구간이라는 것 자체에 대해서도 아무 사회적 합의는 존재하지 않았던 것은 마찬가지이지 않은가?

이런 상황에서 '어떤 특정한 해석 방법은 의미없다'고 쉽게 말하는 사람이야말로 제대로 된 사회분석가가 아닐 가능성이 높다는 것이 필자의 오래된 생각이다.

keyword

매거진의 이전글주택가격, 진짜 미친 것인가? 파이썬으로 분석한 임대차 3법 전후 전월세 시장 변화매거진의 다음글