#서평 14: 고수들의 계량경제학

"인과관계란 무엇인가", Joshua D. Angrist, Jorn-St

Apr 6. 2017

이번에 소개할 책은 계량경제학에 대해서 다루고 있는 <고수들의 계량경제학>입니다. 경제학을 전공하고 있기 때문에 계량 방법론에 대해서 자주 접하는 것이 사실입니다. 하지만 여전히 낯설고 어렵습니다. 특히 1학년 때부터 수강한 모든 강좌가 영어 강의라서, 계량경제학이라고 하면 원서에, 빠른 속도로 낯선 단어를 내뱉는 교수님의 모습이 떠올라서 거리감이 느껴지는 것이 사실입니다. 그럼에도 불구하고 계량 관련 수업을 종종 듣다 보면, 계량 방법론에 대해서 조금만 더 잘 이해하고 능숙하게 다룰 수 있다면 참 좋을 텐데라는 생각이 들어 공부하려고 노력하는 편입니다.

계량적 접근법을 잘 하기 위해서는 두 가지 측면에서 노력이 필요하다고 생각합니다. 우선은 코딩 등 계량 패키지를 다루는 숙련도가 중요하다고 생각합니다. 계량적 접근법의 핵심은 실제 데이터를 바탕으로 어떤 결론을 도출한다는 것입니다. 즉, 이론에 대해서 아무리 잘 알고 있어도 막상 데이터를 다룰 줄 모른다면 아무 의미가 없습니다. 따라서 지속적으로 R, SAS, Matlab, Stata, Excel 등 관련 통계 패키지를 사용하여 실제 데이터를 다뤄봄으로써 도구를 다루는 숙련도를 쌓을 필요가 있다고 생각합니다.
또 다른 측면은 이론입니다. 계량적 접근법은 경우에 따라서 멀쩡한 데이터를 갖고 분석을 했음에도 불구하고 절차나 해석 측면에서 문제가 발생할 경우 전혀 엉뚱한 결론을 도출하게 만들 수 있습니다. 자신이 지금 무엇을 하려고 하고 있는지, 무엇을 해야 하는지에 대해서 명확하게 이해하고 통계 패키지를 작동시키지 않으면, 전혀 의미가 없는 쓰레기 값만 만들어 낼 수 있다는 것입니다. 그런 의미에서 통계학적, 계량경제학적 이론에 대해서 이해하려고 노력하려는 자세가 중요하다고 생각합니다.

이번에 읽은 <고수들의 계량경제학>은 후자의 측면에서 도움이 되는 책입니다. 계량경제학 이론과 방법론에 대해서 쉽게(라고 하지만 쉽지는 않습니다) 설명하려고 노력(만 했습니다)한 책이기 때문입니다. 계량 분석의 시작점이라고 할 수 있는 '인과 관계'의 정의에서 시작하여, 계량 분석 방법론 5가지(무작위 배정, 회귀 분석법, 도구변수 법, 회귀 단절 모형, 이중 차분법)에 대해서 실제 사례를 통해 설명하고 있습니다.

방법론에 대한 설명도 나쁘지 않았지만, 특히 만족스러웠던 부분은 계량 분석의 큰 틀을 볼 수 있었다는 점입니다. 이 책은 부제인 "인과관계란 무엇인가"에 걸맞게 인과관계에 대한 설명으로 시작합니다. 인과관계란, 어떤 사실과 다른 사실 간의 원인과 결과 관계입니다. 그런데 이 원인과 결과 관계라는 것이 애매한 부분이 많습니다. A라는 사실과 B라는 사실이 있을 때, A와 B가 순차적으로 발생한다고 해서 A와 B 사이에 인과관계가 있다고 주장할 수 없다는 것입니다. 예컨대, 아이스크림 판매량과 물놀이 사망자 수 관계를 놓고 보면, 두 사건은 높은 상관관계를 갖고 발생합니다. 하지만 아이스크림 판매량과 물놀이 사망자 수에 대해서 인과관계가 성립하는 것은 아닙니다. 즉, 인과관계를 도출하는 과정은 생각보다 까다롭습니다. 그래서 인과관계를 도출하기 위해서는 <다른 모든 조건이 동일하다면>이라는 조건을 만족시키는 상황 하에서 현상을 관찰하여야 합니다. 앞의 아이스크림과 물놀이 사망자 수를 예로 생각해보면, 기온 등 다른 모든 상황을 동일하게 고정시켜두고 아이스크림 판매량 변화에 따라 물놀이 사망자 수가 어떻게 변하는지 관찰해봄으로써 둘 사이의 인과관계가 존재하는지 엄밀하게 따져볼 수 있다는 것입니다. 물론 다른 모든 조건이 동일하다면, 통계적으로 유의적인 관계가 관찰되지 않을 것입니다.

그러면 이제 우리는 한 가지를 확인하였고, 또 고민 한 가지를 얻게 되었습니다. 확인한 한 가지는 인과 관계 등에 대하여 계량 분석을 하기 위해서는 <다른 모든 조건이 동일하다면>이라는 조건을 충족시키는 상황에서 해야 한다.라는 것입니다. 그리고 고민 한 가지는 어떻게 <다른 모든 조건이 동일하다면>이라는 조건을 충족시킬 것인가?라는 것입니다.

사회과학 연구의 어려움이 바로 이 점에서 발생합니다. 사회과학은 우리 사회 현상에 대해서 연구하는 학문이기 때문에 - 경제학을 비롯하여 모든 사회과학 - <다른 모든 조건이 동일하다면>이라는 조건을 충족시키는 통제를 가하는 것이 상당히 어렵습니다. 의료비용 증감에 따른 의료서비스의 수요의 가격탄력성에 대한 연구를 한다고 할 때, 엄밀하게 말하면 동일한 사람이, 동일한 건강 상태에서, 동일한 질병에 걸린 상황을 놓고 각각 의료비용이 높은 경우와 낮은 경우를 실험해야 합니다. 그런데 '동일한 사람이 동일한 건강상태에서 동일한 질병에 걸리는 상황'은 2번이나 발생할 수 없습니다. 1초라도 시간이 지나면 조금이라도 더 노화가 진행될 것이고, 의료비용 수준이 높아졌다가 낮아지면(낮았다가 높아지면) 상대적으로 싸졌다(상대적으로 비싸졌다)라고 인식하기 때문에 또 의사결정이 바뀔 수 있기 때문입니다.

하지만 제가 가장 좋아하는 인터스텔라 속의 대사, "우린 답을 찾을 것이다. 늘 그랬듯이", 가 말하듯이 학자들은 끊임없이 답을 찾기 위해 노력해왔고, 그 결과 쓸만한 몇 가지 도구들을 발견합니다. 그게 책에서 다루고 있는 무작위 시행, 회귀분석, 도구변수, 회귀 단절, 이중 차분 방법입니다. 각각 방법론에 대한 자세한 설명은, 이 책이나 계량/통계학 책을 읽어보시면 되겠습니다.

단, 대부분의 방법에서 중추 역할을 하고 있는 Law of Large Numbers (대수의 법칙, 이하 LLN), Central Limit Theorem(중심 극한 정리, 이하 CLT)에 대해서만 간단히 소개하겠습니다. 저자들이 책에서 말하듯이, <다른 모든 조건이 동일하다면>이라는 전제를 충족시키는 가장 강력하고 확실한 방법은 무작위 시행입니다. 인과관계를 알고 싶은 대상이 되는 모집단으로부터, 무작위로 충분한 숫자로 이루어진 표본을 뽑아내서 표본을 만들면, 각 표본은 평균적으로 모집단과 비슷한 특징을 지닌다는 것이 바로 LLN입니다. 이게 왜 강력한 방법인지는 짐작하시겠지만, 앞서 말했던 2번이나 존재할 수 없는 '동일한 사람이, 동일한 건강상태에서, 동일한 질병에 걸린 상황'을 이론적으로 필요한 만큼 존재하게 만들 수 있다는 것 때문입니다. 예를 들어, A라는 큰 집단이 있다고 합니다. 그런데 이 집단은 여자와 남자, 부자와 빈자, 식자와 무식자 등이 섞여 있는 집단입니다. 우리는 A라는 집단에 대해서 "P이면 Q이다"라는 인과관계가 정말 성립하는지 확인하고 싶습니다. 그런데, A라는 집단은 하나만 존재하고 있기 때문에 A라는 집단에 P라는 처치를 하면, A라는 집단에 P라는 처치를 하지 않았을 때의 결과를 알 수가 없습니다. 마찬가지로 P라는 처치를 안 하면, P라는 처치를 했을 때 결과를 알 수가 없습니다. 동일한 A라는 집단이 2번 존재할 수는 없기 때문입니다. 이때 우리는 무작위 시행의 방법으로, A라는 집단의 구성원을 무작위로 A', A''이라는 표본집단에 넣습니다. 그러면 A'과 A''에 각각 남자와 여자, 빈자와 부자, 식자와 무식자가 섞여 들어갈 것입니다. 그런데 이때 우리는 '무작위로' 구성원을 골라서 A'과 A''에 넣었으므로, 어떤 특징의 구성원이 A'이나 A''에 넣어졌을 확률은, A라는 집단 속에서 그 구성원이 차지하는 비율 수준이 됩니다. 한두 명이라면 모집단의 비율과 표본(A', A'')의 비율 사이에 큰 차이가 날 수 있지만, '충분히 큰' 숫자로 표본을 만들면 그런 오류 값은 서로 상쇄되어 평균으로 회귀합니다. 그리고 이제 그렇게 만들어진 A'이라는 집단과 A''이라는 집단에 대해서, A'이라는 집단에는 P를 처치하고, A''이라는 집단에는 P를 처치하지 않습니다. 그 외 다른 것은 모두 동일하게 통제합니다. 그리고 A'와 A''의 결과를 확인합니다. 이렇게 하면 우리는 현실적으로 2번 존재할 수 없는 A라는 집단을 이론적으로 2번 존재하게 만들어서 한 번은 P를 처치하고, 한 번은 P를 처치하지 않은 효과를 누릴 수 있습니다. <다른 모든 조건이 동일하다면>이라는 조건을 충족시킨 것입니다.
그런데 앞서 말했듯이 A'이나 A''이나 LLN 이론에 의해서 A라는 모집단과 '유사한' 특징을 지니고 있긴 하지만 완벽히 동일하다고 말할 수는 없습니다. A', A''는 A가 아니기 때문입니다. 그래서 얼마나 다를 것인지에 대해서 측정을 할 필요가 있습니다. 이때 필요한 것이 CLT 이론입니다. 인간이 분포의 확률을 알고 있는 분포 중에서 가장 친숙한 것이 바로 정규분포입니다. 그래서 우리는 우리가 뽑아낸 표본의 평균값들이 모집단의 평균값과 어떤 분포를 이루고 있는지 궁금한 이때, 이 분포가 정규분포를 따랐으면 합니다. 그런데 맙소사, 표본의 평균값들이 정규분포를 따른다고 합니다. 심지어 모집단의 분포와 무관하게 따른다고 합니다. 이렇게 되면, 우리는 표본의 평균값의 평균과 분산만 알고 있으면, 대충 중심으로부터 벗어날 확률이 얼마나 되는지 알 수 있게 됩니다. 하지만 주의하십시오. 모집단의 분포가 정규분포를 따르게 된다는 것이 아닙니다. 표본의 평균값들의 분포가 따른다는 것입니다. CLT는 모집단을 정규분포를 따르도록 만들어주는 것이 아닙니다. 아무튼, 이렇게 우리는 표본 평균의 오차값에 대한 데이터를 얻을 수 있게 된 것입니다.

오랜만에 펼쳐 본 통계, 계량 관련 책이라서 어려울 것이라고 생각했었는데, 생각한 것만큼 어렵지는 않았습니다. 사례를 중심으로 각 방법론을 적용하는 방법에 대해서 이야기하고 있기 때문에 본질적으로 각 방법론이 어떤 의미를 담고 있는지 파악하기에 어려움이 적었기 때문입니다. 그리고 무엇보다 계량경제학은 <다른 모든 조건이 동일하다면>이라는 상황을 만들기 위한 노력에서 시작해서, <다른 모든 조건이 동일하다면>이라는 조건만 만족시키면 그다음부터는 해석의 문제라는 점을 알게 된 점이 가장 유익했다고 생각합니다. 계량경제학에 관심이 있는 분들께는 추천하고 싶은 책입니다.

keyword

매거진의 이전글#서평 15:냉정한 이타주의자 #서평 13 : 인구와 투자의 미래 매거진의 다음글