brunch

You can make anything
by writing

C.S.Lewis

by 프로토타입L Apr 16. 2018

숫자가 들어간 뉴스 어떻게 읽어야 할까

시민을 위한 데이터 기반 뉴스 읽기 안내서 - FT 컬럼 번역

SNS나 심지어 공신력 있다고 알려진 매체에서도 가짜 뉴스를 보는 일이 이제는 무감할 정도로 익숙해졌다. 터무니없는 주장들은 통계와 빅데이터가 가진 과학성과 신뢰성을 연막 삼아 우리를 더욱 헷갈리게 만든다. 근거로서 제시되는 숫자들 가운데 어떤 것은 순전히 가짜(fake)이고, 어떤 것은 잘못된 결론으로 우리를 이끄는 강력한 도구로 사용된다. 사실과 허구를 구별하는 일이 점점 더 어려워지고, 어쩌면 그러한 구분이 무너진 시대가 되었다. BBC의 Reality Check, JTBC의 팩트체크와 같은 사실확인(fact-checking)이 이 문제에 대한 기성 언론의 대표적인 대응방식이다. 근본적 문제는 소셜 미디어의 뉴스 유통 구조와 수익 모델에 있다는 지적도 있다. 더 근본적으로, 무엇이 언제부터 어떻게 가짜뉴스니 탈진실(post-truth)이니 하는 현상을 만들어냈는지이에 대한 논의도 각계에서 이루어지고 있다 - 본 포스트의 초점은 아니므로, 관련된 논의, 고민, 접근법을 조금 엿볼 수 있는 링크를 맨 아래에 몇 개 걸어두었다.

어쨌거나 그러면 우리 각자는 (나쁜) 숫자가 넘치는 시대의 시민으로서 뉴스를 어떻게 읽어야 하는가? 영국의 경제학자 팀 하포드(Tim Harford)가 그에 대한 답으로 파이낸셜 타임즈를 통해 단순하면서도 유효한 팁을 제시해주었다. 그의 조언이 조금이라도 더 많은 사람들에게 읽히길 바라며 그의 컬럼 - Tim Harford’s guide to statistics in a misleading age (원문링크) - 을 번역하여 공유한다.

팀 하포드의 허위의 시대에 필요한 통계 안내서

의심스러운 숫자와 사실이 아닌 주장들이 우리의 일상을 잠식해가고 있다. 통계 프로파간다 폭격을 막아내는 요령을 소개한다.

팀 하포드(Tim Harford), 2018년 2월 8일

"대부분의 사람들에게 필요한 최고의 재무 관련 조언은 색인 카드 한 장 안에 다 들어갈 것이다." 2013년에 시카고대 교수 해롤드 폴락이 즉석에서 이러한 골자의 발언을 했다. 그의 허풍이 도전을 받자 폴락은 재빨리 색인 카드 한 장을 찾아가지고서는 몇 가지 포인트를 적어내렸다 - 그리고 결과는 부끄럽지 않았다.

폴락의 견해를 - 이에 관해 그는 2016년 출간한 책에서 부연설명을 했다 - 듣고서 나는 자문했다: 같은 원칙을 통계에도 적용할 수 있을까? 재무와 통계에는 유사한 부분이 분명 몇 가지 있다. 상식이 생각보다 훨씬 중요하다는 점; 어지러운 숫자와 알 수 없는 전문용어; 완고한 기술적 세부 사항이 중요시 된다는 점; 그리고 이익을 얻기 위해 우리를 엉뚱한 결론으로 데려가려는 사람들이 있다는 점.

일상생활에서의 실용적 수리 감각이 그 어느 때보다 중요해졌다. 통계에 근거한 주장(statistical claims)이 전문가의 검증을 거치지 않은채 신문지면과 SNS 타임라인을 채우고 있다. 정치적 무기로 고안된 것들도 있다. 우리는 전문가를 반드시 신뢰하지는 않는다 - 더 정확하게는, 우리는 누가 전문가이고 누가 전문가가 아닌지에 대해 각자의 생각을 갖고 있는 것 같다.

우리가 통계를 이용한 프로파간다(statistical propaganda)의 수동적인 소비자라는 말이 아니다; 우리는 프로파간다를 퍼뜨리는 매체이다. 우리는 다른 사람이 무엇을 보게 될 지에 대한 결정권을 쥐고 있다: 우리의 리트윗(Retweet)과, 좋아하기(Like)와 공유(Share)가 어떤 주장이 널리 퍼질지 아니면 없어질지를 결정한다. 만일 우리가 거짓말에 속는다면 우리는 부지불식간에 다른 사람을 속이는 일의 공모자가 되는 것이다. 긍정적인 면에 대해 이야기 하자면, 우리에게는 무언가를 공유하기 전에 그것의 가치를 가늠하기 위해 필요한 도구를 그 어느 때보다도 많이 가지고 있다 - 우리가 그 도구들을 사용할 줄 알고 사용하기를 원한다면 말이다.

누군가 그렇게 할 것을 기대하며, 나는 엽서 크기의 시민을 위한 통계 안내서를 작성하기로 했다.

폴락 교수의 색인 카드에는 다음과 같은 조언이 쓰여있다. "버는 돈의 20퍼센트를 저축하라", "신용카드 청구액을 매달 전부 갚아라". 작가 마이클 폴란은 식습관에 관하여 훨씬 간명한 조언을 전한다. "너무 많이 먹지 말고 먹으려면 주로 식물을 먹어라" 맞는 말이지만, 난 그래도 치즈버거를 포기할 수가 없다.

폴락과 폴란의 조언이 훌륭한 것은 알겠지만, 따라하기 쉽지는 않다. 문제는 무지함이 아니다. 코카콜라가 건강에 좋다고 생각하거나 신용카드 이자가 싸다고 생각하는 사람은 별로 없을 것이다. 하지만 많은 사람들이 유혹을 이기지 못한다. 마케팅하는 사람들이 일을 잘 해서인 것도 있고, 우리의 인간적 약점 때문이기도 하다.

이와 연장선상에서 나의 통계 엽서를 논리가 아니라 감정에 대한 조언으로 시작해보려고 한다. 통계에 근거한 새로운 주장을 보게 된다면 우선 자신의 감정을 주시해라. 그렇다. 마치 영화 스타워즈에 나올 법한 대사가 맞다. 하지만 우리가 무언가를 믿을 때 순수한 추론이나 반박불가능한 증거에 기반하는 경우는 드물다. 우리는 우리가 읽게 되는 많은 주장에 관해 감정을 가진다 - "불평등이 심화되고 있다"와 같은 부류에서 부터 "초콜렛에 치매 예방효과가 있다"와 같은 것들 까지. 우리가 감정을 알아차리고 관심을 기울이지 않는다면, 첫 단추부터 잘못 끼우는 셈이다. 어떤 감정을 말하는가? 방어. 승리주의. 의분. 열정. 초콜렛과 치매의 경우에는 안도. 차트나 놀라운 통계 수치에 관해 감정적 반응을 보이는 것은 좋다 - 그러나 그 감정을 무시해서는 안된다, 그렇지 않으면 그것에 의해 오도되고 만다.

우리는 어떤 주장들은 신속하게 세상에 전하고, 또 어떤 주장들은 동지들과 결집하기 위해 사용하며, 또 어떤 주장들은 믿지 않는다. 이러한 주장들에 대한 믿음이나 불신은 자기 스스로를 어떻게 생각하는 가에 부분적으로 좌우된다. 예일대 법 심리학과의 댄 카한 교수에 따르면 "우리는 우리 부족과 동조하는 방식으로 정보를 처리한다,".

2005년 뉴욕 스토니 브루크 대학의 정치학자 찰스 테이버와 밀튼 롯지는 뜨거운 정치적 쟁점에 대한 견해를 사람들이 어떻게 검토하는지에 대한 실험을 진행했다. 피험자들은 분명한 확증 편향(confirmation bias)을 보였다: 그들은 자신과 의견을 같이 하는 조직에서 내놓은 증거를 찾았다. 예를 들면 총기 통제에 반대하는 참여자들은 전미총기협회(National Rifle Association)에서 내놓은 의견을 먼저 찾아 읽었다. 피험자들은 또한 불인정 편향(disconfirmation bias)도 보였다: 연구자들이 어떤 주장을 보여주고 의견을 묻자, 이들은 자신들이 동의하는 주장을 빠르게 받아들이고선, 반대의견을 폄하하는데 상당한 노력을 들였다.

전문 지식은 이러한 감정적 반응을 차단하지 못한다. 실제로 테이버와 롯지는 정보를 많이 가진 실험참가자들이 더 높은 수준의 편향을 보인 것을 발견했다. 더 많이 알수록 그들은 반대의견에 더 강하게 자신의 인지 무기(cognitive weapons)를 들이댔다. "이성적인 동물이란 참 편리한 것이어서, 자신이 할 생각만 있으면 무슨 일이든지 합당한 이유를 만들어 붙이거나 찾아낸다." 벤자민 프랭클린이 남긴 말이다.

통계를 사용한 주장에 대해 가늠하기 전에 먼저 우리의 감정을 직시해야 하는 것은 바로 이 때문이다. 자기 자신에게 감정적 응어리(emotional baggage)가 있다는 것을 받아들이지 않은 상태에서는 무엇이 사실인지 식별할 기회가 희박하다. 물리학자 리처드 파인만의 조언처럼 "자기 자신을 기만해서는 안된다 - 그리고 자기 자신은 가장 속이기 쉬운 사람이다"

두 번째로 중대한 조언은 주장을 이해해하라는 것이다. 당연한 말처럼 들릴 것이다. 그런데 우리는 너무나 자주 자신이 주장을 제대로 이해했는지 멈추어 질문하지 않은 채 성급하게 불신하거나 믿어버린다 (또한 이것을 반복한다). 더글라스 아담스의 철학적 수퍼 컴퓨터 딥 쏘우트(Deep Thought)의 말을 인용하자면, "질문이 실제로 무얼 묻는건지 알아야 답이 무엇을 의미하는지도 알 수 있다."

"불평등이 심화하고 있다"라는 보편적으로 받아들여지는 주장을 예로 들어보자. 논의의 여지가 없고 시급하게 들린다. 그런데 이것이 무엇을 의미하는가? 인종적 불평등? 성 불평등? 기회, 소비, 교육 기회, 부의 불평등? 국내에서 아니면 전세계적 차원에서?

"세전 소득 불평등이 증가한다" (언제부터? 라는 질문을 떠올려야 한다) 라는 좀 더 구체적인 주장이라고 해도 이를 측정하는데는 여러가지 방법이 존재한다. 한가지 방법은 10분위와 90분위의 소득을 비교하는 것이다. 하지만 이 방법은 초고소득자와 중간 지대의 보통사람들에 대해서는 아무것도 말해주지 못한다. 대안은 상위 1퍼센트의 수입이 전체에서 차지하는 비율을 보는 것인데, 이 방식에는 반대의 약점이 있다. 가장 가난한 집단의 상황이 다수의 사람들과 비교해 어떤지 전혀 알려주지 못한다.

정답이 한 가지만 있는 것은 아니다 - 그리고 모든 측정치가 비슷한 이야기를 한다고 가정해서도 안된다. 실상, 불평등에 관해서는 여러 개의 진실한 진술이 존재한다. 그러니 리트윗하기 전에 그 중 어떤 진술이 채용된 것인지 알아보는 것이 의미가 있을 것이다.

"통계에 기반한 주장을 처리할 때 자기 자신에게 감정적 응어리가 있다는 것을 받아들이지 않은 상태에서는 무엇이 사실인지 식별할 기회가 희박하다"

불평등 같은 개념이 숨겨진 의미를 가지고 있다는 것은 그리 놀랄만한 일이 아닐지 모르겠다. 좀 더 실재적인 주제, 가령 "간호사"는 어떨까. 조산사는 간호사인가? 보건원은? 반나절을 일하는 2명의 간호사는 1명의 간호사로 쳐야 하는가? 영국의 국가보건의료서비스(NHS, National Health Service)의 직원채용을 다루는 주장들은 이정도 수준의 디테일에 기반한다.

이 모든 것이 현학적인 - 더 심하게 말하면 본질을 흐리는 부정적인 시도로 보인다. 그리고 통계가 모든 것을 증명할 수 있음을 암시한다. 그러나 주장이 진정으로 의미하는 바가 무엇인지도 불분명한 상태에서 그것의 진위성을 판단하는 것은 무의미하다.

폭력성이 있는 비디오 게임을 하는 아이들이 실제로도 폭력적이라는 것을 입증한 연구에 대해 생각해보자. 수학자이자 통계 리터러시 프로젝트인 STATS의 디렉터인 레베카 골딘은 "게임을 하다", "폭력성이 있는 비디오 게임", "실제로 폭력적임" 등과 같은 개념에 대해 질문해야 한다고 조언한다. 스페이스 인베이더(Space Invaders)는 폭력적인 게임인가? 이 게임은 어쨌든 쏴서 맞추는 게임이다. 측정하려는 것이 실험실에서 20분간 게임 후 작성한 설문지인가, 아니면 매주 30시간 게임을 하는 사람들의 살해 경향성인가? 골딘은 "많은 연구들이 폭력성을 측정하지 않습니다", "그 연구들은 다른 것 이를테면 공격적 행동과 같은 것을 측정합니다"고 말한다. "불평등"이나 "간호사"처럼 상식처럼 보이는 단어 조차도 커다란 해석의 여지를 담지한다.

우리가 무엇을 이해하는 데 있어 두 가지 장애물에 관해 자세히 들여다보는 것이 의미 있을 것 같다. 첫 번째는 인과관계이다. "키가 큰 아이들의 독서 능력이 더 뛰어나다"라는 헤드라인이 있다. 이것은 영양과 인지에 관한 면밀한 연구 결과를 요약한 것일지도 모른다. 혹은 그저 8살짜리 아이가4살짜리 아이보다 더 잘 읽고 - 또한 키가 크다는 자명한 사실에 대한 이야기일 수도 있다. 인과관계는 철학적으로 또한 기술적으로도 복잡한 개념이지만, 비전문가인 통계 소비자에게는 그렇게 복잡한 문제일 필요는 없다. 그저 이렇게 질문해보라. 주장에 대한 원인이 제시되고 있는가 아니면 정당화되고 있는가.

폭력성과 비디오 게임에 대한 연구 이야기로 다시 돌아와서, 우리는 이런 질문을 해야 한다: 실험적 조건에서 검증된 인과관계가 성립하는가? 아니면 폭넓은 의미에서 상관관계가 있는가? 혹시 아이들을 폭력성으로 이끄는 어떤 요소가 아이들이 폭력적인 비디오 게임을 하도록 만드는 원인이기도 한 것인가? 이에 대해 명확히 하지 않고선 헤드라인이 주는 것은 공허함 뿐이다.

모든 통계는 더 복잡한 진실의 요약본이라는 사실을 우리는 잊어서는 안된다. 급여에 관한 예를 들어보자. 수천 만 건의 임금이 매달 지급되고 있기 때문에 우리는 그것을 요약하는 수 밖에 없다 - 그런데 어떤 요약인가? 평균치는 소수의 자본가들 때문에 왜곡될 것이다. 중앙값(median)은 분포의 정가운데에 대해서는 알려주지만 그 외의 모든 것을 무시한다.

영국 통계국(UK Statistics Authority)의 전 수장인 앤드류 딜놋경은 평균값(average)은 절대로 전체의 복잡한 이야기를 전해주지 못한다고 경고한 바 있다. "마치 방 안을 열쇠구멍으로 열심히 들여다보려고 하는 것과 진배없습니다."

가디언 미국판의 데이터 에디터 모나 찰라비의 말을 빌어 요약하자면, "생략된 것이 무엇인지 스스로에게 질문"해야 한다. 미미한 변화를 부풀리기 위해 그래프의 세로축을 줄이는 것과 같은 뻔한 속임수에 적용할 수 있겠다. 뿐만 아니라 덜 자명한 상황에도 적용가능하다. 이를테면 아프리칸계 미국인의 임금과 백인 미국인의 임금을 비교하는 그래프는 왜 히스패닉이나 아시안계 미국인에 대한 데이터는 포함하지 않는 것인가? 무언가를 생략하는게 부끄러운 일은 아니다. 어떤 차트, 표, 트윗도 모든 것을 담을 수는 없으니까. 하지만 생략된 것이 무엇인지는 중요하다.

누아르 영화의 정신을 발휘하라: 뒷이야기를 들어보자. 수많은 통계 기반 주장 중에서, 특정 치명적 통계치(stat fatale)가 당신을 유혹하기 위해 당신의 신문이나 SNS 타임라인에 등장했다. 왜? 어디서 온 것일까? 왜 나에게 이것이 보이는 걸까?

이에 대한 대답이 때로는 거대한 음모와는 별 관련이 없을지 모른다: 어떤 PR회사에서 아이스크림을 팔려고 무명의 학자에게 의뢰해 "완벽한 여름날 오후를 위한 방정식"을 만들고, 별다른 뉴스가 없는 날 보도자료를 내서 클릭에 목마른 미디어 환경에서 관심을 받게 된 것이다. 아니면 정치적 후원자가 이념적으로 동조하는 씽크탱크에 수 백만 달러를 주고서 화제거리를 좀 만들어내라고 했을 수도 있다.

그에 대한 대답이 악의는 없지만 참아주기 힘든 경우도 많다: 출판 편향(publication bias). 사람들이 이미 알고 있는 것 - 담배는 암의 원인이다 - 을 확인해주는 연구는 뉴스가 되지 않는다. 그런데 아주 의외의 놀라운 결과를 - 담배는 전혀 암을 유발하지 않는다 - 제시한다면 헤드라인이 될 수 있다. 이 새로운 연구는 아주 엄밀하게 진행되었음에도 아마 틀렸을 것이다: 수십 년간 누적된 반증을 고려한다면 말이다.

출판 편향은 학계에서 큰 이슈이다. 의외의 결과는 쉽게 출판되고, 그것이 효과가 없었더라는 것을 보여주는 후속 연구는 저널에서 찾기 힘들다. 미디어에서 출판 편향은 더 큰 문제이다 - 소셜 미디어에서는 아마도 훨씬 더 큰 문제일 것이다. 우리가 통계에 근거한 주장을 점점 더 많이 보는 이유는 우리와 같은 사람들이 그 기사에 좋아요를 많이 누르기 때문이다.

영국 왕립통계학회(Royal Statistical Society)의 데이비드 슈피겔홀터 회장은 "그루초 원리(Grouch principle)"라는 것을 제시했다. 그루초 막스가 클럽에서 탈퇴한 널리 알려진 일화에 관한 것이다 - 만일 그를 회원으로 받아주는 클럽이라면 그것은 클럽이라고 부르기 힘들다. 슈피겔홀터 회장은 헤드라인에 인용되거나 소셜 미디어에 돌아다니는 많은 통계 기반 주장들에 대해서도 같은 생각을 가진다. "만일 내 관심을 받을 정도로 놀랍거나 반직관적이라면 틀린 것일 가능성이 높다"

자, 이제 당신은 자신의 감정을 확인했고, 뒷이야기를 알아보았고, 주장의 의미를 이해했다. 이제 종합적으로 한번 보자. 몇달 전 트위터에서 한 시민이 영국에서 매일 일회용 종이컵이 7백만개가 버려지는 것이 사실이냐고 걱정스럽게 내게 질문했다.

나는 답을 알지 못했다. (인터넷을 금방 검색해보니 같은 주장만 엄청 나왔고 출처는 찾을 수 없었다.) 대신 나는 질문을 했다: 7백만이 큰 숫자인가? 영국의 인구가 6,500만명이니까 10명 중 한사람이 매일 종이컵을 버린다는 얘기가 된다.

많은 숫자들이 우리가 더 익숙한 다른 수치와 비교해보기 전까지는 그다지 의미 있게 다가오지 않는다. 나라 전체 기준으로 몇 개의 일회용 컵이 버려지는지 보다는 한 사람이 얼마나 많은 컵을 버리는지 아는 것이 훨씬 유용하다. 그리고 그보다 더 유익한 정보/수치는 일회용 컵이 재활용 가능한지 (일반적으로 그렇지 않지만), 전체 쓰레기 중에서 일회용 컵이 차지하는 비율이 어느 정도인가(내 생각엔 그렇게 높지 않을 것이다. 틀릴 수도 있지만) 이다.

그렇기 때문에 우리는 질문해야 한다: 내가 직관적으로 이해할 수 있는 다른 것들과 비교해서 이것은 큰 숫자인가? 작년, 혹은 5년 전, 30년 전과 비교해서는 얼마나 큰가? 데이터를 구할 수 있다면 과거의 추세를 보는 것이 좋다.

마지막으로 "통계적 유의성"을 주의하라. 이 용어에 대해 다양한 기술적인 반론이 있으며 그 중에는 중요한 것들도 있다. 그러나 주목해야할 가장 단순한 포인트는 이것이다 - 실체적 중요성이 없으면서도 "통계적으로 유의"할 수 있다. 특히 빅데이터 시대에서는 하찮은 수준의 결과치가 통계적 유의성의 관문을 통과하는 일이 가능하다.

태아 상태에서 폭염에 노출되었던 아기가 성인이 되었을 때 더 적게 번다는 결과를 제시한 연구가 있었다. 연구 결론은 통계적으로 유의했다. 그러나 그 효과는 미미했다: 더 적게 버는 것은 맞지만 그 차이는 연간 30달러다. 결과가 통계적으로 유의하다는 것이 그것이 실제로 중요하다는 의미는 아니다 - "유의성"이라는 단어가 이 사실을 잊어버리게 만든다.

데이터 클라우드에 기반한 컴퓨터 생성 이미지 시대에 모나 찰라비나 만화가 란델 먼로의 손으로 그린 그림들이 가장 멋진 데이터 시각화로 여겨지고 있다. 그런데 이 그림들에는 멋짐 이상의 것이 있다: 찰라비는 펜으로 그린 똑바르지 않은 선을 통해서 대부분의 통계가 오차 범위를 가진다는 사실을 상기시켜 준다. 컴퓨터에서 출력된 그래프는 매우 불확실할지 모르는 상황에 대해 정확성의 환상을 심을 수 있다.

카베스 리드는 <로직(Logic, 1898)>에서 "대충 맞는게 확실하게 틀리는 것보다 낫다"고 했다. 과도한 정확성은 사람들을 호도할 수 있다. 2016년 미국 대선 전날 밤 정치 예측 웹사이트인 FiveThrityEight은 도널드 트럼프의 당선 확률을 28.6%로 예측했다. 어떤 면에서 대단하다. 다른 예측 모델들은 트럼프가 당선될 가능성이 거의 없다고 보았기 때문이다. 그런데 이런 예측에 대해 소수점 단위까지 수치를 제시하는 것이 가능한가? 많은 사람들이 트럼프가 선방했다는 기본적인 메시지를 놓친 것은 당연하다. "4명 중 하나"라고 했으면 예측불허한 추정치에 관해 한층 더 직관적인 도움이 되었을 것이다.

부풀린 정확성에는 또 다른 비용이 따른다: 필요 이상으로 숫자를 기억하고 다루기 번거롭게 한다는 것이다. 따라서 부정확성을 내포하고 있다. 영국 NHS(국가보건의료서비스)의 한달 예산은 약 100억 파운드, 미국의 연간 국고 수입은 20조 달러이다. 이런 수치들을 훨씬 더 정확하게 말할 수도 있겠지만, 근사치가 머리 속에 있으면 빨리 판단을 내리는데 도움이 된다 - 예를 들어서 지출 5천만 파운드 증가라던가, 200억 달러 감세가 주목할만한 것인지 아니면 단지 반올림 오차 인지.

내가 가장 좋아하는 어림잡기는 이것이다. 영국 인구가 6,500만 이고 평균적으로 65년보다 살짝 더 사니까, 전형적인 코호트(Cohort, 같은 해에 퇴직하거나 졸업한 사람)의 크기를 가늠하면 약 백만 명이다. 그래, 거친 추정치가 맞다 - 그래도 대충 맞는 걸로 충분할 때가 많다.

호기심을 가져라. 호기심은 고양이에게는 나쁘지만 통계에는 좋다. 호기심은 가장 기본적인 덕목인데, 전해지는 이야기가 뭔지 이해하기 위해 좀 더 노력하도록 해주고, 그 과정에서 의외의 것들을 발견하는 즐거움을 주기 때문이다.

그리고 이것은 부분적으로 거의 모든 통계적 진술이 의문을 제기하도록 되어있기 때문이다: 이 주장을 하는 사람은 누구인가? 왜? 이 숫자는 무엇을 의미하는가? 무엇이 빠져 있는가? 우리는 기꺼이 - 영국 통계 규제기관의 에드 험퍼슨의 말처럼 - "한번 더 클릭"해야만 한다. 만일 통계자료가 공유할 가치가 있다면 우선 이해하는 일도 가치가 있지 않겠는가? 디지털 시대는 정보의 덫으로 가득하다 - 하지만 그만큼 정답에 대해 마음을 정하기 전에 조금 더 깊이 들여다보는 것이 용이해지기도 했다.

호기심은 한번 더 질문하거나 한번 더 클릭해보도록 동기부여를 한다. 그 외에도 또 다른 작용을 하는데 바로 우리로 하여금 태도 변화의 의지를 갖게 한다. 많은 중요한 통계에 기반한 주장에 관하여 우리는 이미 결론을 가지고 있다. 우리는 올바른 신념을 가진 자신과 같은 부류의 사람들이 브렉시트, 총기규제, 백신, 기후변화, 불평등, 그리고 국유화에 관해 어떤 믿음을 가지고 있는지 알고 있다 - 따라서 그것이 무엇에 관한 것이든 간에 통계에 근거한 주장을 흔들어야 할 플래카드 아니면 피해야할 위협으로 해석하는 것은 자연스러운 일이다.

"만일 내 관심을 받을 정도로 놀랍거나 반직관적인 것이라면 틀린 것일 가능성이 높다"
- 데이비드 슈피겔홀터, 영국 왕립통계학회 회장

호기심은 의외의 통계적 결과(statistical surprises)를 더 나은 사고방식 체계를 가지고 접근하도록 돕는다. 풀어야할 수수께끼라고 생각하면 통계적 반칙을 더 잘 찾아낼 수 있을 것이다. 나아가 엄밀한 새로운 증거를 열린 마음으로 대할 수 있다.

애슐리 란드럼, 케이티 카펜터, 로라 헬프트, 캐슬린 홀 제이미슨과 공동으로 진행한 연구를 통해 댄 카한은 과학에 대해 내재적 호기심을 가진 사람들이 - 이런 사람들은 정치적 스펙트럼 전반에 존재한다 - 정치적으로 민감한 질문들에 관해 덜 양극적인 응답을 제시하는 것을 발견했다. 우리는 의외성(surprise)을 위협이 아니라 수수께끼로 대해야 한다.

아이작 아시모프가 이런 말을 했다고 한다 "과학에서 가장 흥분되는 말은 '유레카!'가 아니라 '그것 참 희한하군...'이다". 그의 명언은 중요한 진실과 닿아있다: 우리가 답이 없는 질문을 잘 정리된 답보다 더 흥미롭게 여길 수 있게 되었다면 현명해지는 길로 나아가는 것이다.

결국 내 엽서는 50단어 가량의 6가지 계명으로 요약되겠다. 통계에 근거한 주장을 보게 됐을 때 그것을 진지하게 - 간단하게라도 - 검증하려는 의지가 있는 사람들에게 충분히 단순한 것이기를 바란다. 바로 그 의지가 가장 문제다.

이미지 출처: FT 원문 기사

"이보게, 빌, 빌, 내가 통계수치를 일일이 다 확인해야 하는건가?" 후보시절 트럼프가 빌 오렐리에게 그가 리트윗한 아프리카계 미국인과 살인에 대한 터무니 없는 거짓말에 대해 질문을 받았을 때 한 대답이다. 트럼프의 말도 맞다 - 어느 정도는. 그는 사실이 아닌 인종차별적 주장을 떠벌리기 전에 당연히 숫자를 확인했어야 했다.

그러나 트럼프의 변명을 많은 사람들, 심지어 그의 정확성 (그리고 다른 것들) 에 대한 모욕을 끔찍하게 생각하는 사람들 조차도 공감할 것이다. 그는 우리 모두가 인간임을 알아보았던 것이다. 우리는 모든 것을 확인하지는 않는다; 그렇게 할 수도 없고. 모든 기술적 지식이 세상에 나와 있다고 하더라도, 그것을 쓸 시간이 없을테다.

나의 목표는 거창하지 않다. 나는 우리가 조금 더 자주 노력하자고 제안하고 싶다: 방어적이 되기 보다는 마음을 열자고; 그 내용이 무엇을 의미하는지, 어디에서 왔는지, 그리고 그것이 사실이라는 점이 중요한지 등에 관해 단순한 질문을 던지자고. 그리고 무엇보다도 세상에 대해 충분한 관심을 보이자고. 질문들에 대한 답을 얻기 위해. 논쟁에서 이기기 위해서가 아니라 이 세상이 멋진 곳이기 때문에.

원문: Tim Harford’s guide to statistics in a misleading age

Take-away: 세상에 대해 호기심을 가지고, 끊임없이 질문하고 의심할 수밖에.