brunch

You can make anything
by writing

C.S.Lewis

by once a week Oct 12. 2018

통계에서 중요한 것은 논리다

게르트 기거렌처 <숫자에 속아 위험한 선택을 하는 사람들>

문제 하나

40세 여성이 유방암에 걸릴 확률은 대략 1%다. 만일 어떤 여성이 유방암에 걸렸다면, 유방촬영술에서 결과가 양성으로 나올 확률은 90%다. 만일 유방암에 걸리지 않았다면, 그래도 결과가 양성으로 나올 확률은 9%다. 그렇다면 양성 결과가 나온 여성이 실제로 유방암에 걸릴 확률은 얼마일까?

→ 정답은...? 90%? 아니면 좀 더 식을 써서 0.01 x 0.9 + 0.99 x ...@$%!@#!@ ... ???



문제를 %에서 빈도로 바꾸어서 다시 풀어보자. 

1000명의 여성이 있다. 그중 10명은 유방암에 걸렸고, 유방촬영술에서 양성 결과가 나온다. 유방암에 걸리지 않은 990명의 여성 중에서 89명 역시 유방촬영술에서 양성 결과가 나온다. 그러면 양성 결과가 나온 여성 중 실제로 유방암에 걸린 여성은 몇 명일까?

→ 답이 한결 쉽게 나온다. 그래도 헷갈리면? 그려보자.

→ 정답은 10명중 1명 꼴. 10%다.




평소 신문기사나 책을 통해 너무나 친숙하게 접하고 있는 확률(%). 하지만 이를 꼼꼼히 따지다보면, 그래서 대체 그 정도가 얼마인 것인지 헷갈린다. 예를 들어 "맥주를 고를 때 맥주의 맛이 영향을 끼치는 정도는 20%다." 라고 했을 때, 그냥 보면 아 그렇구나~ 하지만 꼼꼼히 보면 저게 말하는게 뭔지가 명확하지 않단거다. 한 사람이 맥주를 고를 때의 모든 고려 요소 중에서 맥주 맛이 차지하는 비율이 20% 라는 것인지, 아니면 100명을 대상으로 설문조사를 했더니 맥주의 맛이 가장 중요하다고 답한 사람이 20%인 것인지. 즉, % 값은 부분/전체로 이뤄지기 때문에 그 분자와 분모가 무엇인지 명확하게 설명해주지 않으면 헷갈린다.


더군다나 위의 문제처럼 보건 문제로 오면 더 심각하다. 매년 건강검진을 받고 있다. 받을 때마다 너무나 당연하게도 건강검진을 받는 것만으로도 건강을 지키는 것처럼 생각한다. 질병이 있다면 초기에 발견해서 바로 치료할 수 있기 때문이다. 하지만 이 책에서는 건강 검진을 처음부터 끝까지 비판한다. 우선 위의 사례처럼, 검진에서 설령 양성 판정이 나온다 하더라도 그게 실제로 그 병일 확률이 10% 정도 밖에 안되기 때문이다. 그 검진 자체의 정확도가 설령 99% 라고 한다 하더라도, 검진의 정확도와 실제 그 병에 걸릴 확률은 다른 확률이다.


즉, 유병률(병이 발생할 확률)을 우선적으로 고려해야하고, 유병률이 낮은 질병이라면 검사가 양성으로 나온다 하더라도 실제 병에 걸릴 확률은 낮단 거다. 그런데 유방촬영술의 경우에는 오히려 방사선에 노출되어서 건강에 해롭고, 설령 조기에 발견한다고 해도 실제 그 병일 확률은 낮기 때문에 추가 검진을 하는데 드는 정신적/물질적 비용이 크고, 실제 그 병에 걸렸다고 하더라도 암의 진행속도가 현저하게 낮아 조기 발견과 암으로 인한 사망률 간의 인과 관계가 높지 않단 거다. 따라서 유방암 검진은 건강검진 중에서 가장 쓸데없는 검진이라는 놀라운 결론을 이끌어낸다... (검진으로 인한 총체적인 실/익을 따져야 하며, 건강검진 자체가 거대한 하나의 산업이 되었다는 점을 고려하면 이 맥락의 설명이 이해가 된다.)




지금 이 소리가 헛소리 같이 느껴질 수 있지만, 책<숫자에 속아 위험한 선택을 하는 사람들>을 읽다보면 또 다른 측면에서 생각할 수 있다. 책 자체는 위의 사례와 비슷한 사례를 계속 반복적으로 보여준다. 비슷한 문제 10개쯤을 풀어보라고 독자를 헷갈리게 한 후, 그 문제를 풀기 위해 ① 분자와 분모를 구분하고, ② 자연빈도로 바꿔서 표기하고 ③ 트리를 그린다. x10번쯤을 하는 것이 책 내용의 전부다. 반복적으로 읽다보면 내가 당연하게 받아들였던 숫자가 이렇게 따지고 보니 그렇지 않을 수 있구나, 싶어진다. 


그런데 읽으면서 아아~ 그렇구나 했었지만, 나중에 막상 저비슷한 문제를 풀려고 하니 다시 헷갈리더라. 결국 읽는 거 말고 손으로 직접 저 트리를 써보며 계산하는 것이 책 한권 다 읽는 것보다 더 큰 효용가치가 있겠다. 실제로 %값을 남용하던 일을 하다가 현재는 그 값이 의미하는 바가 무엇인지를 파헤쳐야하는 일로 바뀌었는데, 하다보니 손으로 직접 하나하나 써가면서 계산해야 진짜 이해하게 되는 것 같다. 확률에서 중요한 것은 논리(?)일 수도 있겠단 생각을 처음 해봤다. (실제로 저자도 통계학만 공부한 사람이 아니라 심리학, 철학을 함께 공부한 사람이라고 한다.) 


아래는 처음 이 책을 읽고 쓴 리뷰다.




사실 처음에는 뜨끔했다. 매일 하는 일이 절대위험도나 자연빈도 대신 비교위험도를 사용해서 그럴듯한 숫자를 만드는 일이었기 때문이다. 지금은 리서치 부서에 있지만, 이전에는 각종 숫자를 활용해서 내가 파는 상품을 최대한 잘 포장하는 마케팅 부서에 있었다. 이 상품이 경쟁 상품보다 높다는 것을 보여줘야 했다. 이를 위해 숫자를 요리조리 돌리는 잔기술(?)을 익혔다. 모집단을 조정하거나, 분석 기간을 다르게 하거나, 비교 대상을 다르게 하거나. 그리고 당연히 절대 비교가 아닌 상대 비교를 했다. "뭐 대비 20%나 높습니다!!!!" 이렇게 말이다.


리서치 부서로 옮기고 나선 이 비율이라는게 너무 헷갈렸다. 원래도 통계 리터러시가 부족한데, 이 값이 산출된 공식도 헷갈리고, 이걸 비교까지 해야하다보니 단순하게 "뭐 대비 뭐가 이만큼이나 높아요~~~!" 하던 시절이랑은 너무 다른거다. 나만 그런 것이 아니었는지, 그래서 최근에는 비율보다는 수, 시간과 같은 절대 수를 사용하는 경우가 늘고있다. (이것도 헷갈리기는 하지만.. 비율보다는 낫다) 막연하게 맨땅에 헤딩하듯 해왔던 일들이 책을 통해 절대위험도, 비교위험도, 절대치료자수, 자연빈도와 같은 정리된 언어와 예제로 살펴보니 사르르 정리되어 흥미로웠다.


다만 오히려 놀랐던 건, 의사들마저 통계 리터러시가 부족하단 사실이었다. 솔직히 내 삶에 별 영향도 미치지 않는 확률이 아닌, 질병을 찾아내고 치료하는 건 내가 죽느냐 사느냐의 문제인데. 이걸 담당하는 의사마저도 내가 걸린 게 무슨 병인지, 이걸 어떻게 치료하는게 가장 효과가 높은지에 대해서 이렇게 헤매고 있다니 말이다. 실제로 책의 사례 그대로, 건강검진 때 유방 촬영을 하고 뭔가가 발견되어 대학병원을 예약하고, 조직검사를 하고, 초조하게 기다리다가 별거 아니니 추적검사 하라는 결과지를 받았던 경험이 있었다. 그 때 의사 선생님과 간호사와 조직검사 해주시는 선생님을 철썩같이 믿었는데 (물론 그들의 실력을 의심하는 것은 아니다), 그것 역시도 불확실성에 기초를 두고 있다고 생각하니 놀라웠다.


어쩌면 확실한 것은 아무것도 없는데 확률만 가지고 확실하다고 믿어버렸던 것이 아닌가 다시 한번 생각하게 되었다. 최근 중요한 여러가지 결정을 앞두고, 정말 다양한 경우의 수를 생각해보며 불확실하지만 그래도 확실한 결정을 하려고 했던 내가 떠올랐다. 치료법이라는 것 마저도 이렇게 불확실한데 나는 어떻게 확신을 얻으려고 했던 것일까. 그래서 이 책에서 제시한 대안이 이상적이면서도 결국엔 정답이란 생각이 들었다. 의사와 환자가 충분한 의사소통을 통해 함께 치료법을 결정한다는 것. 그리고 그 바탕에는 통계를 해석할 수 있는 능력을 길러야 한다는 것. 죽고 사는 문제도 이러하므로, 그것보다 덜 중요한 결정을 할 땐 더욱이 그래야겠다.

매거진의 이전글 캄캄한 터널을 지나가며
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari