쏟아지는 데이터 앞에서 좋은 이야기를 만들기

[신호와 소음], 네이트 실버: 과잉적합에 관하여

Mar 9. 2020

누군가가 통계학 (혹은 수학 전반)에 대한 대중적인 책을 추천해달라고 한다면, 나는 단연 네이트 실버의 [신호와 소음]을 건네줄 것이다. 저자는 프로스포츠 선수들의 통계분석으로 커리어를 시작하여 미국 선거 결과를 누구보다 정확하게 예측하여 대중에게 유명해졌다. 그의 통계예측 웹사이트 FiveThirtyEight는 현재 미국 정치사회 분야의 많은 영역에서 데이터를 기반으로 한 담론에 강력한 영향력을 행사하고 있다. 조던 엘렌버그는 [틀리지 않는 법]에서 네이트 실버를 두고 "통계예측 분야의 락 스타"라고 칭했다. 나 역시 동의.

최근 코로나 사태와 이에 따라올 것으로 보이는 경제침체의 한가운데에서, 미래를 예측하는 일은 그 어느 때보다 힘들어 보이고 또 중요해 보인다. [신호와 소음]의 과잉적합Overfitting 부분을 다시 읽으면서, 미래를 예측하는 좋은 방법에 대해 다시 한번 생각해봤다.

과잉적합overfitting 은 연구자 자신들을 속이면서 미래에 대한 예측을 엉터리로 만든다.

> 통계학에서 소음을 신호로 잘못 인식하는 행동에 붙은 명칭이 ‘과잉적합’이다. (5장)

과잉적합을 매우 거칠게 요약하자면, “데이터의 오류에 집착해서 데이터를 과도하게 설명하는 것”이 되겠다. 과잉적합은 “overfitting”의 번역인데, 사실 더 정확한 뜻은 “(데이터에 대한 설명을) 과잉적합하게 만드는 것”, 곧 “과잉적합화”가 되겠다.

과잉적합을 한 예를 잘 보여주는 다음 그래프를 보자 (위키피디아에서 인용):

가로축 변수가 커질 때 세로축변수도 같이 커지는 관계를 가진다고 하자 (검은색 줄). 이 실제 관계 (검은색 줄)는 연구자에게는 보이지 않고, 대신 몇 개의 데이터 (검은색 점들) 만이 보인다. 그런데 데이터에는 보통 오류가 있어서 정확하게 검은색 줄을 따라가는 경우는 거의 없다.

저 그림에서 검은색 점들만이 보이는 경우를 상상해보자. 연구자는 이 데이터를 가지고 실제 관계를 밝혀내고 싶어한다. 직선으로 된 관계는 그럴듯해 보이지만, 검은색 점들과 정확히 일치하지는 않는다. 그런데 연구자가 “조금 욕심을 부리면”, 검은색 점들을 정확하게 잇는 곡선 (파란색 선)을 그릴 수 있다.

그런데 여기서 문제가 발생한다. 과연 파란색 선이 검은색 선보다 “데이터를 더 잘 설명”하는 것일까? 만약 연구자가 데이터 하나를 더 얻는다고 생각해보자. 그러면 그 점은 파란색 선에 더 잘 맞을까 검은색 선에 더 잘 맞을까? 만약 검은색 선이 파란색 선보다 데이터를 더 잘 설명한다면, 파란색 선은 과잉적합한 설명이 된다.

극단적인 예로, 데이터의 개수만큼의 설명변수Explanatory Variable (매개변수 Parameter)를 이용한다면 그 데이터를 “완벽히” (하지만 가짜로) 설명해 낼 수 있다. 5명을 뽑아 키를 잰 다음, 그 키를 (체중, 월급, 집 평수, 집에 있는 티비 크기, 머리카락 개수)로 완벽하게 설명할 수 있다는 얘기이다. 물론 이 설명은 가짜이고, 여섯 번째 사람의 키를 예측하는 데에는 아무런 도움이 안 된다. 이와 관련해서 폰 노이만이 이런 재미있는 이야기를 했다.

> “매개변수가 넷 있다면 나는 코끼리도 만들어낼 수 있다. 매개변수가 하나 더 있다면 난 이코끼리가 몸을 흔들게도 할 수 있다.”
수학자 존 폰 노이만이 한 말이다. (5장)

연구자가 과잉적합의 오류를 저지르는 이유는 그것이 “데이터를 더 잘 설명하는 것”처럼 보이기 때문이다. 위의 파란색 선을 그리는 연구자들은 데이터에서 오류가 발생할 수도 있다는 사실을 전혀 인정하지 않으려 하는 사람들이다.

> 어떤 책의 제목을 빌려 말하자면, 우리의 경향은 무작위성에 농락당하고 만다. 심지어 우리는 과잉적합 모델의 특이한 점들에 점점 더 집착할 수도 있다. 그래서 깨닫지도 못한 채 이런 특이점들을 합리화하는 그럴듯한 이론들을 만들어낼 수도 있다. 이렇게 해서 나타난 이론들은 우리 자신은 말할 것도 없고 우리의 친구와 동료들을 종종 바보로 만들어버린다. 이 문제에 대해 많은 글을 쓴 마이클 베이뱌크는 이 딜레마를 다음처럼 표현했다. “회의주의는 우리의 호기심이 상황을 오판하지 않게끔 만든다.”(5장)

한 마디로, 우리는 불확실성 앞에서 좀 더 겸손해질 필요가 있다.

> 어떤 사람이 예측을 할 때 자신감의 양은 예측의 정확도를 추정할 수 있는 좋은 지표가 아니라는 사실을 깨달아야 한다. 진실은 오히려 그 반대다. 지나친 자신감은 예측의 실패와 더 상관성이 있다. 경제 분야에서든 어디에서든 예측가들이 우리가 사는 세상에 잠복해 있는 온갖 위험들을 온전하게 그리고 명시적으로 드러내지 못할 정도로 위축감을 느낄 때, 위험은 음험한 모습을 드러낸다. (6장)

경제학자들의 미래예측은 항상 부정확했고, 앞으로도 나아질 기미가 보이지 않는다.

[신호와 소음]에서 네이트 실버는 기상예측과 경제예측의 빌전을 비교한다. 기상예측은 지난 50년간 괄목할 만한 성과를 거둔 반면, 경제예측은 50년 전이나 지금이나 별다른 발전이 없다는 날카로운 비판. 그런데 더 문제인 것은, 일선에서 경제예측을 하는 사람들이 자기의 예측에 필연적으로 따라오는 불확실성을 애써 감추려고 한다는 것이다. “불확실성”이 “오류성”으로 인식되는 데 이유가 있을 수 있겠다.

> 미국 경제와 같이 거대하고 복잡한 대상을 예측하는 일은 매우 어렵고 힘들다. 예측이 실제로 얼마나 잘 맞느냐와 얼마나 잘 맞는다고 인식되느냐 사이에는 실로 엄청난 간극이 있다.
몇몇 경제 예측가들은 이런 사실을 알고 싶어 하지 않는다. 이들은 다른 대부분의 예측가들과 마찬가지로 불확실성을 적으로 여긴다. 불확실성은 이들에게는 명성을 위협하는 적일 뿐이다…. 그래서 자기가 하는 예측에서 불확실성의 양을 줄이긴 하지만 실제 현실에서 예측의 질을 개선하는 데는 전혀 도움이 되지 않는 여러 가정을 설정한다. (6장)

네이트 실버가 FiveThirtyEight을 통해 이룬 가장 큰 성과는, “확률적 예측”이라는 방법론은 일반 대중에게 알기 쉽게, 하지만 동시에 정확하게 전달한 점이다. 그의 여러 예측치에는 항상 “자신의 예측이 얼마나 불확실한가”를 알려주는 수치가 같이 딸려있다.

> 내가 이 책에서 줄곧 강조하는 내용이지만, 결과에 대한 확률적인 고려는 과학적 예측에서 필수 요소다. 내가 당신에게 주사위 두 개를 던져서 나오는 수의 합을 예측해보라고 주문한다면, 올바른 답은 단일한 수를 제시하는 게 아니라 가능한 모든 수를 열거하고 그 수 각각의 확률을 말하는 것이다. (6장)

이런 점에서 봤을 때, 안타깝게도 현재 경제예측가들의 성장률 예측은 예측이 무의미할 정도의 불확실성을 가지고 있다.

> 실제로, 한 무리의 경제 전문가가 각자 예측한 GDP 성장률을 제시할 때, 진정한 90퍼센트 예측구간, 즉 경제 전문가 본인들이 주장하는 예측의 정확도가 아니라 이 예측들이 실제 현실에서 발휘한 예측의 정확도를 근거로 하는 90퍼센트 예측구간은 GDP 성장률의 약 6.4퍼센트포인트 구간에 걸친다…. 당신이 내년에 GDP가 2.5퍼센트 성장할 것이라는 뉴스를 듣는다고 치자. 그런데 이 말은 오차범위를 감안하면, GDP가 5.7퍼센트까지 성장하거나 -0.7퍼센트밖에 성장하지 못할 수도 있다는 것이다. -0.7퍼센트 성장 수준이면 상당히 심각한 불황이다. 경제 전문가라는 사람들이 하는 예측은 기껏해야 이 정도다. 게다가 나아지고 있다는 증거도 별로 없다. (6장)

과잉적합의 함정에 빠지지 않기 위해서는 직관을 바탕으로 한 좋은 모델이 필요하다.

이런 불확실성 하에서 우리는 어떻게 해야 할까? 한 가지 방법은 수많은 변수를 사용하여 경제 데이터를 “과잉적합”화 하는 것이다. 하지만 앞서 말한 대로 이것을 데이터를 분석하는 가장 나쁜 방법 중의 하나다. 과잉적합은 데이터 분석의 가장 중요한 목적인 “미래예측”에서 형편없는 성과를 내고 만다.

> 그런데 이와 다르게, 한 경제 전문가가 경제를 내재적 구조를 배제하고 일련의 변수와 방정식들만으로 바라본다고 치자. 그러면 이 사람은 소음을 신호로 착각하고, 전혀 엉뚱한 소리를 하면서도 자기가 훌륭하게 예측하고 있다는 환상에 사로잡힌 채 자신을 (그리고 또 남의 말에 쉽게 혹하는 투자자들을) 속이게 될 것이다. (6장)

과잉적합의 함정에 빠지지 않게 도와주는 도구는, 바로 훌륭한 직관에 기반한 “좋은 이론”이다. 2008년 금융위기를 성공적으로 예측했던 골드만삭스의 얀 하치우스 Jan Hatzius는 자신의 “직관적인 이야기”를 바탕으로 좋은 모델을 만드는 능력이 있었다. 그 모델을 바탕으로, 그는 같은 데이터를 보면서도 남들이 전혀 보지 못하던 사태를 예측할 수 있었다.

> 하치우스가 경고한 그대로 금융위기가 전개되었다. 하치우스는 정확하게 예측했을 뿐만 아니라, 그런 결과를 초래한 원인까지도 정확하게 진단했다. 하치우스는 인과관계의 이 사슬을 ‘이야기story’라고 말했다. 경제에 관한 이야기다. 자료를 동력으로 해서 진행되는 이야기이긴 하지만, 실제 현실에 깊이 뿌리내리는 이야기이기도 하다. (6장)

좋은 이론의 힘이 빛을 발하는 지점이다. 데이터가 기하급수적으로 많아지는 지금, 과잉적합을 피하기 위한 이론의 중요성은 오히려 커지고 있다. 데이터와 점점 유리되어 갈 길을 잃어가고 있는 현재 경제학 이론분야의 각성이 요구되는 시점이다.

> 이러한 진술은 이른바 ‘빅 데이터’의 시대에는 점점 더 흔하게 나타난다. 정보가 이렇게나 많은데 누가 이론을 필요로 할까? 하지만 이건 미래를 예측하는 데서는 근본적으로 잘못된 태도다. 특히 자료가 엄청난 소음으로 물들어 있는 경제 분야에서는 더욱 그렇다. 통계적 추론은 이론으로 뒷받침될 때, 또는 적어도 근본 원인에 대한 좀 더 싶은 생각으로 뒷받침될 때 훨씬 더 강력해진다. (6장)

keyword

작가의 이전글불평등한 경제권력은 민주주의의 가장 강력한 적변화한 시대에 적응하지 못하는 한국남자들의 자기 연민 작가의 다음글