brunch

You can make anything
by writing

C.S.Lewis

by Tolany Dec 05. 2018

#서평 38 모두 거짓말을 한다

세스 스티븐스 다비도위츠 저, 모두 거짓말을 하지만 모두가 솔직해지는..

[모두 거짓말을 한다 - 세슷 스티븐스 다비도위츠]
[모두 거짓말을 하지만 모두가 솔직해지는 장소가 있다]

 미래를 예견하는 일은 아주 오래전부터 인간이 욕심냈고, 현재도 욕심내는 능력입니다. 당연히 오랜 기간 욕심을 낸 만큼 미래를 예측하기 위해서 또는 미래 예측 목적으로 탄생한 것은 아니지만 결과적으로 사용되는 다양한 방법론이 있습니다. 점성술부터 천문학과 회귀분석까지 아주 다양한 방법이 있습니다. 그리고 인간의 오랜 노력 덕분인지 현대에 이르러서 미래에 대한 예측력은 크게 향상되었고, 특정 부분에서는 확실하게 예측이 가능해지고 있습니다.

 그런데 유독 제 전공과 관련이 깊은 사회과학 분야에서의 미래 예측의 발전 속도는 조금 더딘 편입니다. 이는 아주 기본적인 원칙과 관련이 있다고 생각합니다. 'GIGO'라는 원칙입니다. Garbage-in Garbage-out이라는 말의 줄임말인데, 쓰레기를 넣은 곳에서는 당연하게도 쓰레기가 나온다는 말입니다. 사회과학 분야에서 미래 예측에 대한 발전 속도와 무슨 관련이 있을까요? 

 기본적으로 미래를 예측하는 일은 현재를 관찰함으로써 시작하는 일이라고 생각합니다. 현재 상태를 확인하고, 변화의 방향과 크기를 예측함으로써, 결과적으로 미래의 상태를 예측하는 것이기 때문입니다. 그런데 사회과학에서 예측의 대상이 되는 주제들은 대부분 현재 상태에 대한 완전한 관찰이 쉽지 않고, 변화의 방향과 크기는 더더욱 어렵습니다. 기본적으로 행위자가 인간이기 때문에 쉽게 이해하기 어려운 비합리적인 행위(감정 등의 이유로)가 발생하는 경우도 많고, 무엇보다 관찰의 대상인 행위자 인간에 대해서 아주 집요하게 관찰하는 것이 쉽지 않기 때문입니다. 예컨대, 이번에 소개하는 책에서 주로 다루는 주제인 성(Sex)적인 내용에 대해서 관찰을 하기가 퍽 쉬운 편은 아닐 것입니다. 만약에 오래전에 나온 '트루먼쇼'라는 영화에 나온 것처럼 트루먼 버뱅크(짐 캐리)라는 한 인간을 잘 설계된 실험실에 넣고 일거수일투족을 관찰할 수 있다면 해결할 수 있는 문제겠지만 상식적으로 생각해봐도 그럴 수 없기 때문에 Input으로 넣을 참된 값을 찾기가 쉽지 않은 것이 사실입니다. 

 그런데 이 책의 저자는 책에서 우리가 현실에서 트루먼쇼와 같이 아주 진실하고 적나라한 데이터를 얻을 수 있는 실험실이 있다고 이야기합니다. 당연히 사회과학 분야의 미래 예측에 관심이 있는 사람들에게는 아주 솔깃한 이야기입니다. 그 실험실은 바로 '구글'입니다. 가장 대표적으로 구글이 내놓은 구글 트렌드라는 서비스입니다. 이 서비스를 활용해서 저자는 미국에서 여론조사 결과를 뒤집는 '이변'이었던 도널드 트럼프의 미국 대통령 당선 등을 예측하는 등 자신의 말이 허언이 아니라는 것을 증명합니다. 

 어떻게 검색엔진인 구글은 우리의 현재를 아주 명확하게 보여주는 수정구슬이 된 것일까요? 이와 관련해서 저자는 '사람들의 정보검색 그 자체가 정보다'라는 말을 합니다. 이후에 관련 설명도 있는데 제가 이해한 바로는, 경제학에서 말하는 '인센티브'라는 개념과 관련이 있다고 생각합니다. 흔히 사회과학에서 현재 사람들의 생각이나 행동에 대한 정보 수집 창구로 활용하는 방법은 '설문조사'입니다. 하지만 설문조사의 경우, 피실험자의 인센티브 구조가 묘합니다. 대부분의 경우, 피실험자는 '설문조사에 참가함으로써' 인센티브를 얻는 구조이지, '설문조사에 진솔하게 응답함으로써' 인센티브를 얻는 구조가 아닙니다. 왜냐하면, 실험자는 피실험자가 설문조사에 진솔하게 응답했는지 확인할 수 있는 방법이 사실상 없기 때문입니다. 반면에 구글 검색의 경우는 다릅니다. 구글 검색 이용자를 피실험자라고 가정하고, 구글 검색 통계를 활용하는 사람을 실험자라고 정의하겠습니다. 이 경우, 피실험자는 '검색을 함으로써' 얻는 인센티브는 없습니다. 구글 검색을 한다고 해서 특별한 인센티브를 얻지는 못하기 때문입니다. 피실험자가 인센티브를 얻기 위해서는 '구글 검색을 한다' && '검색창에 솔직하게 입력한다'라는 두 가지 조건이 모두 충족되어야만 '자신이 원하는 검색 결과를 얻는다'라는 인센티브를 얻게 됩니다. 그리고 이런 구조를 실험자 입장에서 보면 그야말로 '노다지'라고 할 수 있습니다. 설문조사의 경우, 피실험자에게 특정한 인센티브를 줌에도 불구하고 참여 이상의 무언가를 끌어내는 것이 어려웠지만, 구글 검색의 경우에는 피실험자 스스로가 실험에 참여하고(물론 의도한 것은 아니겠지만) 그 과정에 신의 성실까지 담보되기 때문입니다. 

 그럼 왜 과거에는 이런 조사 방법을 사용하지 않은 것일까요? 우선 첫 번째는 이런 아이디어를 떠올린 사람이 그동안 없었거나 행동하지 않았다는 것입니다. (물론 아이디어를 떠올리고, 행동한 저자는 세계적인 유명세를 얻게 되었습니다.) 사실 이런 책이 나왔으니 다들 아! 라고 말하는 것이지, 그 전에는 '구글 검색 통계로 현실을 관찰한다고?'라는 반응이 일반적이었을 것이라고 생각합니다. 그리고 결정적으로 두 번째는 '이런 통계는 구글이기 때문에 가능하다'라는 것이라고 생각합니다. 

 검색이라는 새로운 방법론이 피실험자의 능동적인 참여를 얻을 수 있는 것은 사실이지만, 사실 개별적으로 데이터를 놓고 보면, 그냥 진실의 발자취의 흔적 정도에 불과합니다. 이런 방법론이 큰 의미를 갖게 된 이유는, 정보통신기술의 발달로 인해서 정보통신 서비스(예컨대 구글)에 대한 접근성이 아주 높아져서 거의 모든 사람들이 정보통신 서비스를 이용하게 되었고, 그 대부분의 사람들이 이용하는 정보통신 서비스가 바로 구글이기 때문에 자료들이 모이기 시작했기 때문이라고 생각합니다. 즉, 개별적인 데이터는 진실의 발자취의 흔적 정도의 의미 밖에는 없지만, 그 흔적이 수백만 개씩 모여버리니까, 진실의 발자취를 추적할 수 있게 되었다는 것입니다. 

 위 이야기가 주는 또 다른 함의는, 비정형 데이터의 중요성에 대한 부분입니다. 설문조사와 구글 검색의 또 다른 차이점은 설문조사는 특정한 목적을 위해서 설계되고 조직된 데이터라는 것입니다. 반면에 구글 검색의 경우, 특정한 목적을 위해서 설계된 것이 아니라 그냥 검색 기록이라는 데이터가 존재하고, 거기서 실험자가 자신의 필요에 따라서 데이터를 정리해서 유의미한 데이터로 변형시키는 것이라는 점이 큰 차이점입니다. 사실 이런 비정형 데이터의 활용은 그에 따른 정보기술의 발달 없이는 불가능했던 일입니다. 과거형으로 말하는 이유는 이미 실제로 활용하는 사례가 있기 때문입니다. 예컨대, 월마트 주차장을 위성으로 정기적으로 촬영하여 경제의 소비 수준을 추정한다는 방법론은 이미 상당히 유명하고, 책에서 언급한 담배 사진을 촬영하여 그중에 필증이 찍힌 담배의 비율을 통해서 지하경제의 규모를 추정하는 방법, 트위터의 키워드 빈도를 활용하는 방법 등 비정형 데이터의 활용은 이미 보편화되기 시작했다고 생각합니다. 

 하지만 중요한 점은 비정형 데이터의 활용이 활발해지고 있는 것은 사실이지만, '비정형'이라는 수식어가 말해주듯이 비정형 데이터는 실험자의 아이디어에 따라서 얼마든지 새로운 금맥을 찾을 수 있다는 것이라고 생각합니다. 이 책의 저자가 구글 트렌드를 통해서 미국 대선 결과를 예측했고, 빌리빈이 야구에서 돌풍을 일으켰고, 월마트 주차장 사진을 통해서 큰돈을 번 헤지펀드가 있듯이 지금 이 순간에도 보다 정확하게 미래를 예측할 수 있는 어떤 진실의 발자취가 발견되기를 기다리고 있을 것이라고 생각합니다. 

 단, 금융시장에서 이런 비정형 데이터를 활용한 미래 예측이 유의미할지에 대해서는 조금 회의적입니다. 이 책의 저자, 네이트 실버 등 관련 서적에서 유의미한 결과를 도출해낸 사람들이 주로 활약하는 분야와 다르게 금융시장은 피드백의 속도가 매우 빠르기 때문입니다. 즉, 이 책의 저자가 구글 트렌드를 통해서 미국 내 인종갈등의 현황을 파악하고, 이를 통해 트럼프의 당선을 예측한다고 해도 막상 그게 미국 내 인종 갈등의 현황에 영향을 미치거나, 트럼프의 당선에 영향을 미치지는 않을 것이고, 혹여 미친다고 하더라도 제한적인 영향력일 것이라고 생각합니다. 반면에 금융시장의 경우, 현재 상태를 어떤 비정형 데이터를 통해서 예측해서 이를 통해서 이익을 낼 수 있는 포지션을 취한다고 했을 때, 자신이 포지션을 취함으로써 시장 그 자체에 영향을 미치게 되기 때문에 미래 시장의 상태가 자신이 처음 예측했던 그 상태는 아닐 가능성이 매우 높을 것이라고 생각합니다. 

 그래서 비정형 데이터에 대한 분석 방법론에 대해서 공부를 하고 꾸준히 관심을 갖는 것은 물론 필요하다고 생각하지만, 이를 직접 금융시장에 적용시키는 것이 가능할 것인지에 대해서는 조금 더 생각을 해봐야 하는 문제라고 생각합니다. 물론 그럼에도 불구하고, 이 책의 가치는 매우 뛰어나다고 생각합니다. 일단 세상을 바라볼 수 있는 또 하나의 현미경이자 망원경을 소개해준 책이니까 말입니다. 글도 상당히 재미있고 쉽게 쓰여 있고, 내용도 매우 알차니까 꼭 한번 읽어보시길 권합니다. 



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari