brunch

You can make anything
by writing

C.S.Lewis

by 고르디우스의 매듭 Mar 22. 2020

통계에 속지 않기

신도 가끔 주사위 놀이를 한다

"신은 주사위 놀이를 하지 않는다"는 말을 남긴 사람은 아인슈타인이란다. 아인슈타인은 양자역학의 탁월성을 인정했지만, 그 이론이 우연이나 확률을 도입하고 있기 때문에 만족스럽지 않다고 생각했다. 아인슈타인은 1927년 10월에 개최된 한 회의에서 닐스 보어(Niels Bohr, 원자 이론은 슈뢰딩거에 이어 이 사람부터 출발한다고 해도 과언이 아닐 정도로 만만치 않은 천재다)를 만나 양자역학의 성격에 대하여 며칠 동안 집중적으로 논쟁을 벌이기도 했는데, 이때 아인슈타인은 "신은 주사위 놀이를 하지 않는다"라는 유명한 말을 남겼다고 한다. 과학에서 우연이 중심적 역할을 하는 양자물리학을 처음에 쉽게 받아들일 수 없었던 것이지. 그에게 물리학은 확실성이지 한 무더기의 확률은 아니었거든. (자세한 이야기가 궁금하면 양자물리학의 전개를 소개하는 <슈뢰딩거의 고양이> (에른스트 페터 피셔, 들녘 2009) 책을 참고하렴. 아빠는 문과생이라 이 책이 좀 어려웠다.) 이에 대해 보어는 "신이 어떻게 우주를 관장하는지를 규명하는 것은 우리의 일이 아니다"라고 반박했다고 전해진다.  


너도 고등학교 때 '확률과 통계'를 배웠지? 아빠도 꼭 배워두라고, 살아가는 데 중요한 학문이라고 강조하기도 했을 거야. 근데, 확률과 통계가 과연 수학일까? 아마 아인슈타인은 그게 불만이었을지도 모른다. 우리가 흔히 수학에서 말하는 정의는 증명이 된 명제, 즉, 동일한 상황에서 동일한 결론이 도출되는 것임에도 불구하고, 확률은 그 단어에서 이미 불확실성을 안고 있으며, 통계는 대체로 그렇지만 개별적으로는 충분히 아닐 수 있다는 것을 포함한 개념인데 이를 수학이라 할 수 있나? 


그러나 신이 주사위 놀이를 하지 않는데, 우리 앞에 일어날 것 같지 않은 일은 또 일어난다. 즉, 우리가 생각할 때 확률상 희박한 일이지만 그 일은 또 분명 우리 앞에 일어나고 있다. 데이비드 핸드는 <신은 주사위 놀이를 하지 않는다>에서 희박한 확률의 사건이 우리 주변에서 왜 자꾸 일어나는지 설명했는데, 그의 주장의 핵심은 확률이 낮은 일이라도 일어날 수 있다는 것, 아니 실제로 일어난다는 것이다. 당연한 것 아니냐고? 근데 우리는 실제 우리에 나쁜, 그것도 아주 희박한 확률로 일어나는 일이 눈 앞에 벌어지면 이 사실을 잊게 된다. 대신 신을 원망하지. 


그러고 보니 주사위는 확률과 통계에서 땔레야 땔 수 없는 중요한 소재다. 실제로 확률과 통계를 배울 때 많이 언급하지? 통계학의 발달에서 주사위는 다른 형태로 아주 중요한 역할을 했다. 스티브 존슨의 <원더랜드>에 나오는 확률과 통계에 대한 이야기는 이렇다. 과거부터 주사위 또는 이와 유사한 것들이 있었고, 도박도 존재해 왔다. 그럼에도 유클리드 기하학과 피타고라스의 정리를 만들었던 그리스나, 뛰어난 건축공학적 역량을 보여준 로마도 당대의 수많은 유명한 수학자들이 통계학을 만들어 내지 못했는데, 그 이유는 도박에 개입된 임의성 때문이었다. 주사위나 이와 유사한 것들이 규격이 일치하지 않았고, 임의적인 요소로 숫자가 나오기 때문에 (그게 또 도박의 묘미이기도 하다) 확률이 개입될 여지가 없었단다. 그러나 13세기 말 프랑스 툴루즈에 있는 주사위 제조조합은 도박에서 협잡꾼들의 농간을 막기 위해 주사위 제조에 관한 규정(무게중심, 숫자 순서, 모서리 등등)을 정하게 되었다. 그러면서 모든 것이 달라졌다. 드디어 16세기 들어서 카르다노라는 도박을 좋아하는 의학도가 <운이 작용하는 게임들에 관한 책>을 통해 주사위 게임을 분석하는 수식을 만들어 냈다. 네가 배운 확률의 덧셈과 곱셈도 여기서 언급했단다. 그 이후 파스칼과 페르마가 서신을 교환하며 통계학을 발전시켜 나가게 된단다. 이후 통계는 사회과학 분야에서도 사용된다. 에드워드 핼리(핼리 해성의 그 핼리다)가 이 개념을 이용해 영국인의 평균 사망률을 계산하고, 또 네덜란드에서는 호이겐스 형제가 새로 잉태된 태아의 자연수명을 산출하기도 한다. 이제 금융과 과학, 의학, 사회학 등 거의 모든 분야에서 통계를 빼고서는 이야기할 수 없는 세상으로 변했다. AI도 통계학 없이는 만들어지지 않는다. 


아빠도 금융과 관련된 일을 하기 때문에 늘 통계를 접한단다. 아빠가 읽는 수많은 자료, 애널리스트들의 리포트, 경제학자들의 책을 보면서 의도했든 의도하지 않았든 숫자들이 다르게 해석될 여지가 없는지 주의해서 본단다. 통계가 어떤 주장을 뒷받침하고 다른 사람을 설득하는데 얼마나 유용한 것인지 잘 안다. 또한 통계가 어떻게 거짓말을 할 수 있는지도 이미 잘 알고 있다. 통계는 금융과 상관없는 일을 하더라도 그냥 우리 일상생활에 너무 깊게 들어와 있어서 우리의 생각을 흔들 수 있다. 그렇다 보니 사람들은 자기의 주장을 관철시키기 위해 숫자를 동원하면서 통계를 비틀고 싶은 유혹에 흔들리기 쉽단다. 특히 정부기관이나 정치인은 물론이고, 언론도 그 유혹에 넘어가 너를 속이기 위해 숫자와 통계를 들이밀곤 한다. 


게르트 보스바흐, 옌스 위르겐 코르프는 <통계의 거짓말>에서 일반인들을 위한 '통계의 거짓말' 유형을 소개했다. 첫 번째 유형은 좋은 것만 보여주고 부정적인 것은 숨기는 것이다. 예를 들어, 2,200명의 정규직 교사를 신규채용했다고 말하면서 2,500명의 교사가 퇴직한 것은 언급하지 않거나, 국민연금 지급액이 1.1% 상승했다고 하면서 물가상승률이 2.6%인 것을 빼고 말하는 것, 또는 보험사가 새로운 기기 도입으로 치료비가 올랐다고(그래서 보험료를 올려야 한다고) 말하면서 치료기간이 짧아져 비용이 줄어든 것을 숨기는 식이다. 


숫자보다 그림을 더 조심해야 한다. 보여주고 싶은 것만 보여주는 것이지. Y축을 표시할 때 0부터 보여주지 않고 허리를 잘라서 변화가 심한 것처럼 보이게 하거나, X축을 단축해서 비교 기간을 보여주고 싶은 구간만 보여주는 식이다. 


사람은 항상 어떤 일이 벌어지면 원인을 알고 싶어 한다. 그 심리를 이용해서 원인과 결과 뒤집거나 상관관계를 인과관계로 연결하는 것이다. 출동한 소방대원수가 많을수록 피해액의 규모도 늘어난다는 통계는 사실 대형화재일수록 많은 소방대원이 출동한다는 것을 거꾸로 해석한 것에 불과하다. 방사선 치료 기간이 길어질수록 암의 완치율이 낮아진다는 주장은 오히려 종양이 클수록 치료기간이 길어지고 완치율이 낮아진 결과에 다름 아니다. 제3의 변수를 누락하는 것도 있는데, 신발 사이즈가 크면 평균 연봉이 높다는 통계는 사실이지만 실제 변수인 성별 및 나이에 따른 차이를 속인 것이지. 


절대적 수치가 적을 때 상대적 수치는 과장될 수 있다. A약물이 효능이 뛰어나지만 B약물에 비해 부작용 위험이 200%라고 했지만 실제로는 A약물은 7,000명 중 2명의 부작용이고, B약물은 1명일 수도 있다. 반대로 절대적 수치도 전체 모수를 속이면 과장/과소가 가능하다. 예를 들어, "노르트라인 베스트말렌 주는 신규로 교사를 1,000명이나 채용했습니다."라고 발표했는데, 그러나 그 주의 학교 수는 공립학교만 7,000개가 넘는다는 사실을 말하지 않는 것이다. 독일에서 2008년도의 실업자 수가 대공황 때와 유사한 수준까지 치솟았다는 뉴스는 그 사이 독일은 통일되어 인구가 15백만 명이 늘었다는 사실과 여성의 취업률이 훨씬 높아진 것을 무시한 것이었다. 즉, 절대적 수치와 상대적 수치를 함께 제시해야 통계가 정확해진다.  


백분율이 지닌 무소불위의 힘도 주의해야 한다. 기준에 따라 얼마든지 달라진다. 2008년 여름 미 조지 W. 부시 대통령은 미국의 온실가스 배출량을 2050년까지 50% 절감하겠다고 했는데, 언제 대비해서 50% 인지는 언급하지 않았단다. 원자력 에너지가 전체 에너지 생산량에서 차지하는 비율이 30%라고 언급하면서 난방, 이동수단 등을 포함한 것인지 단지 전력생산량 기준인지 밟히지 않는 것도 목적이 있는 통계다. 퍼센트(%)와 퍼센트 포인트(%p) 차이를 잘 모르는 경우도 있다. A정당의 지난 선거 지지율 30%였다가 금년 선거 지지율 20%라면 A당 지지율은 10%p 하락한 것이고, 지지율 30%를 기준으로 10%밖에 줄어들지 않은 것이 아니라 33%가 등을 돌린 것이다. 


표본 추출 방식에 따른 오류도 흔하다. 1990년 런던타임스는 민항기 조종사의 60%가 65세 이전에 사망했다고 보도했는데, 사실 1960년대부터 민항기 조종사들이 본격적으로 양산되었으며, 1989년 이전에 누가 죽더라도 대부분 65세 이하였다. 2010년 야후에서 인터넷 사용량을 물었으나, 인터넷으로 접속한 사람들한테 물었으니 당연히 단 하루도 인터넷을 포기 못한다는 응답이 90%를 넘었었다.  


선거 결과 예측도 통계와 관련이 깊단다. 여론조사는 신뢰할 게 못되지만, 선거를 앞두고 실시하는 경우 그 결과가 실제 선거결과에 영향을 미친다. 그래서 선거관리위원회에서 여론조사 발표에 대한 제한도 실제 하고 있다. 그러나 여론조사기관도 결국 돈을 받고 서비스를 판매하는 기업이라는 것을 잊으면 안 된다. 얼마든지 결탁이 가능하다. 어떤 분야를 불문하고 설문조사의 중심은 설문대상이 아니라 설문 의뢰자다. 다만, 출구조사의 경우 진실을 말할 확률이 높고 표본이 100배는 크니 100배는 더 정확하다. 그러니 출구조사 결과를 실적으로 포장해서 여론조사기관을 홍보하는 경우도 많다.  


통계의 주요 목적 중 하나가 미래에 대한 예측도 있다. 그러나 기적을 예측하는 자는 통계학자가 아니다. 종교, 미신, 예언가들과 경제학자들이 주로 한다. 먼 미래를 예측할수록 적중률이 굉장히 낮다. 이와 관련해서 데이비드 핸드의 <신은 주사위 놀이를 하지 않는다>에서는 그 유명한 '노스트르다무스'의 예언을 예로 들었다. 


"미셸 드 노스트르담Michel de Nostredame, 일명 ‘노스트라다무스’의 예측에서도 예언의 다의성을 확인할 수 있다. 16세기 프랑스의 약사, 치료사, 신비주의자인 노스트라다무스는 수많은 예언을 일련의 연감, 달력, 4행시에 담아 출판했다. 그의 예언은 유행병, 지진, 전쟁, 홍수 등에 초점을 맞추었는데, 특정 사건을 명료하고 상세하게 지목한 것은, 내가 아는 한 단 하나도 없다. 게다가 그의 예언들은 먼 미래의 사건들을 다뤘다. 이것은 매우 훌륭한 전술이다. 왜냐하면 먼 미래를 예언하면 예언자가 살아 있는 동안에 그 예언이 틀렸음이 드러날 리 없기 때문이다. 또 주목할 만한 것은 노스트라다무스가 정확히 무엇을 예측했는가에 대한 견해가 그의 수많은 추종자들 사이에서도 엇갈린다는 사실이다. 어느 모로 보나 애매성의 승리라고 해야 할 것이다."


"예측을 많이 내놓는 것 역시 예언자가 되려는 사람에게 좋은 전략이다. 왜냐하면 수많은 예측들 중 우연히 몇 개라도 맞을 수 있기 때문이다. 그러면 그 예측들을 강조하면서 틀린 예측들을 편리하게 외면할 수 있다."


먼 미래를 예측할수록 적중률이 굉장히 낮다. 그러나 경제학자나 애널리스트 입장에서 내년을 예측하는 것은 위험하지만 10년 뒤를 예측하는 것은 전혀 위험하지 않단다. 그 자리에 예측한 사람은 없을 테니까(기억하는 사람이 없거나, 그 일을 안 하거나...). 그래서 자기파괴적 장기 예언은 다 엉터리다. 


통계에 속지 않으려면 사실 연습이 좀 필요하다. 숫자 뒤에 뭐가 있을지 조금만 생각해 보면 그렇게 어렵지는 않아. 아빠가 리스크관리부에 있을 때 당시 본부장님(리스크관리부의 역사와 같은 분이셨다.)은 차트나 그래프를 좋아하지 않으셨다. 보고서에 연도별 차트보다는 반드시 실제 숫자를 표로 싣게 하셨지. 당연히 %와 %p 표시 제대로 안 하면 엄청 혼났다. 외부자료의 경우 출처를 반드시 달게 하셨고, 혹시 차트나 그래프를 그린다면 가장 심플한 것을 선호하셨다. 방향성을 예단하게 하는 화살표는 못쓰게 하셨지. 역시 배우신 분은 틀리더라. 그러나 보고서를 읽는 사람 입장에서는 차트나 그래프로 빠르게 이해하고 싶은데, data 만 나열되어 있으면 다시 머리를 굴려야 하니 싫어하지. 그래서 본문에는 차트나 그래프를 그리고 부표로 data를 싣기도 하는데, 부표는 또 안 보시더라고.  


언론, 기업, 정치가는 숫자를 흔들어서 무엇을 얻고 있을까? 요즘은 인터넷 댓글에도 밑도 끝도 없는 통계 숫자들을 들이대며 정부가 죽일 놈이네, 야당이 나쁜 놈이네 떠든다. 선거철에는 더 심하다. 서로 숫자로 열심히 치고받을 것이다. 통계와 숫자는 아무리 거짓말이라도 진짜처럼 보인다. 불리한 건 숨길 테고, 기준에 대해서는 말을 흐리거나 모른 척할 것이다. 언론이 이런 것을 밝혀 줘야 하는데, 자극적이면 자극적일수록 더 활용하겠지. 항상 정의보다 클릭 숫자가 더 중요해진 기업이니까. 


통계가 잘못한 건 없다. 늘 통계를 쓰는 사람들이 잘못하는 것이지. 통계가 인류 발전에 기여한 엄청난 공로를 잊으면 안 된다. 2020년 코로나19의 경우에도 역학조사와 잠복기를 감안한 격리 등은 통계가 없이면 대응이 안된다는 걸 너도 봤을 것이다. AI는 기본적으로 몬테카를로를 이용한 경로탐색에서 통계적 최적 해답을 찾는 것이 기본이다. 통계가 없었다면 공중보건학, 사회학, 인구학, 기상학을 비롯해 수많은 분야의 발전은 불가능했을 것이다. 그리고 이런 분야들의 발전이 없었다면 세상은 참 혼란스러웠을 것이 분명하다. 예외가 있다고, 가끔은 극단치를 들고 와서, 혹은 모든 사례를 커버하지 못한다고 통계가 비난받긴 하지만, 그래도 대단한 인류의 발견이다. 잘 사용한다면. 


"신은 주사위 놀이를 하지 않는다"는 주장은 다양하게 해석되기도 하겠지만, 특히, 데이비드 핸드는 낮은 확률의 사건도 우연이 아니라 필연이라는 측면에서 이해했다. 그러나 신도 가끔 주사위 놀이를 한다. 찰스 다윈의 진화론을 믿는다면, 우연한 돌연변이가 진화의 기초다. 어쩌다 나온 숫자가 판을 뒤집었다. 그리고 신도 주사위 놀이를 한다고 생각해야 혹시 내게 불행이 닥칠 때 누군가를 원망할 수 있지 않나? 하늘에 대고 삿대질도 못하면 너무 억울하잖아. ^^; 



이전 07화 영화 <불한당>에서 시작한 단상(斷想)들
brunch book
$magazine.title

현재 글은 이 브런치북에
소속되어 있습니다.

작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari