과학적 사기
"세상에는 세 종류의 거짓말이 있다. 거짓말, 지독한 거짓말, 그리고 통계" - 벤자민 디스라엘리
숫자와 수식을 마주하면 대부분의 사람들은 기가 질려한다. 하지만 “객관적이고 과학적인 데이터”라고 가정한다. 스펙 좋고 경험 많은 전문가가 만들어 낸 숫자 앞에 서면 쪼그라들면서 그 숫자를 쉽게 신뢰한다. 유능한 사기꾼은 자신의 위계를 부정할 수 없는 과학처럼 보이게 할 수 있는 재주를 가진 사람이다. 수학에 겁먹은 사람들에게는 숫자라는 마법을 사용한다.
사기꾼들은 "통계는 거짓말을 하지 않는다"라고 말한다. 이 말은 사실이다. 그렇지만 사기꾼들은 "통계를 이용한다."
난센스 상관(Nonsense Correlation)에 관한 인터넷 무료사전(Free Dictionary)에 있는 정의를 보면 다음과 같다.
1. (Statistics) statistics a correlation supported by data but having no basis in reality, as between incidence of the common cold and ownership of televisions
데이터에 분석에 의해 통계적으로는 상관관계가 인정되지만 현실과 동떨어져 있는 경우 "난센스 상관"이라고 한다. 예를 들면 감기에 걸리는 수와 텔레비전 수상기 보유 대수와의 관계처럼 수치적으로는 높은 상관관계를 나타내지만, 현실과는 전혀 무관한 경우이다.
이해가 어려우니 예를 보면서 조금 더 깊이 살펴보자. 조금 어려운 예부터 시작해보자.
아래는 지방 섭취와 암 발병률 간의 관계를 나타낸 그래프이다. 이 그래프를 보면 지방을 많이 섭취하는 국가일수록 암 발병률이 높다는 것을 극명하게 보여준다. 아마 많은 사람들은 이 그래프가 의미하는 바를 이해할 것이다. 이쯤 되면 전문가라는 사람들이 TV에 나와서 지방 섭취를 줄여야 한다고 한바탕 난리를 칠 것이다. 또 많은 사람들은 새로운 정보나 되는 양 삼겹살을 적게 먹으려고 노력할지도 모르겠다.
이게 자연스럽게 받아들여지는가? 뭐가 잘못됐지라는 느낌이 들지도 모르겠다. 그렇다면 좀 더 주의 깊게 이 글을 끝까지 읽어보기를 권한다.
위 그래프가 지방이 암 발병에 중요한 원인이라는 것을 설명하고 있다고 믿는가? 그렇다면 X 축에 설탕 데이터를 가져다 놓으면 어떨까? 그래프 모양은 거의 똑같을 것이다. 그럼 설탕도 암 발병과 관계가 있을까? 선진국 사람들이 칼로리 섭취량이 많고, 당연히 지방과 설탕의 섭취량도 많다. 상대적으로 설탕과 지방 가격이 비싸기 때문이다. 아마도 선진국 사람들의 어떤 생활양식이 특정 암 발병에 영향을 줬을 가능성은 있다. 그리고 평균수명도 길고, 질 높은 의료시설 덕분에 병원에서 암 진단을 받을 확률이 높아진 것도 원인 중 하나일 것이다. 그렇지만 설탕과 암을 연관시키기 어렵듯이 지방을 암과 연관시킬 증거로 이 그래프를 사용할 수는 없다.
하지만 하도 많은 전문가라는 분들이 방송에 나와서 뭐가 좋다 좋지 않다는 말을 하는 통에 농업과학 분야에서 일하는 나조차도 혼란스러울 때가 많다.
조금 쉬운 예를 들어보자. 가장 많이 드는 예이기도 하다.
연도별 교회 목사의 수를 X 축에 놓고, 범죄율을 Y 축에 놓으면 어떤 그래프의 모양이 만들어 질까? 아마도 위에 있는 그래프와 비슷한 그래프가 만들어질 것이다. 그럼 목사 수를 줄이면 범죄율을 낮출 수 있을까? 이 말이 정말 어이없는 이야기라는 것은 누구나가 다 이해할 것이다. 그럼 아래의 그래프는 어떨까?
위의 그래프를 보고 해적을 줄여서 지구온난화를 막아야 한다고 주장한다면. 음~~~ 아마도 정신병원에 독방을 마련해줄지도 모르겠다. 아마 대부분의 독자들은 이 조치가 그렇게 심한 것은 아니라는데 동의할 것이다.
위 그래프는 자폐증 판정받은 수와 유기농산물 판매량을 동시에 나타내었다. 그래프가 거의 유사한 방향성을 가지고 있다. 상관계수가 0.997, 엄청 높다. 그렇지만 이것도 단지 난센스 상관의 예를 나타내는 그래프일 뿐 현실 세계에서는 아무런 의미가 없다. 그렇지만 또 누구는 이 그래프를 들이대며 유기농산물이 자폐증의 원인이라고 할지도 모르겠다.
이렇게 당연한 이야기를 왜 하냐고 반문하는 분들도 많을 것이다. 아마도 이 글을 쓰는 나를 한심하게 볼 것이다. 그렇지만 이런 얼토당토않은 이야기들이 식품분야에서는 거의 매일 듣게 된다. 전문가라는 사람들이 TV에 나와서 매일 같이 떠드는 소리들이다. 특히나 무슨 박사 타이틀을 가지고 있거나, 의사니 한의사니 하시는 분들이 진정성 있게 이야기하면 그 영향이 바로 다음날 슈퍼마켓의 매출액에 영향을 미친다. 하긴 뭐 식품 분야뿐일까....
이런 일들이 생겨나는 가장 큰 이유는 데이터를 수집하는 데 있다. 수집이 잘못되었다는 것이 아니라 다른 목적으로 수집된 자료들을 가져다 해석하는 과정에서 생겨난다. 즉, 그 분야에 대한 현실적인 이해가 부족한 사람들이 데이터를 다루면서 기본적인 인과관계조차 혼동하면서 생겨난다.
혼동한 사람들은 그나마 양심적인 사람들이고, 적극적으로 통계를 이용한다. 든든한 학벌과 그럴싸한 전문직이 이런 말을 하면 폐해는 더 심각하다. 사람들은 흔히 이런 그럴싸한 타이틀을 가진 이들이 뭔가를 알고 있을 것이라 착각하지만, 그런 그럴싸한 타이틀을 돋보이게 만드는 것은 어리숙한 자신들이라는 것을 종종 잊어버린다. 가끔은 우리들이 조금은 더 이성적이고 과학적이었으면 어떨까라는 바람을 가진다. 그게 뭐가 그리 어려울까? 자신의 경험과 세상 이치에 비추어 보면 뭐가 옳고 그른지가 보인다. 그걸 알기 위해서 박사 타이틀이나 교수, 의사, 변호사 같은 전문직 타이들이 필요치는 않다.
누구나가 인정하듯이 과학적 방법론은 사실(fact)을 증명하고 미래를 예측하는 유용한 도구이다. 우리가 사는 세상은 과학적 합리주의 초석 위에 건설된 제국이다. 그렇지만 과학은 사실을 호도하는 수단이 되기도 한다. 과학적 방법론을 이성적 판단 없이 사용하면 사악한 흉기가 된다. 공업용 우지, 쓰레기 만두, MSG, 육각수, 음이온수, 피라미드 효과, 신기한 파장의 빛, 영구기관, 오메가 지방산, 가습기 살균제, 떴다가 사라지는 건강기능성 식품들..... 과학이란 등불 아래 만들어진 결과물이다. 잘못 적용된 과학은 우리 사회 전반에 불신을 싹 틔우는 촉매가 됐다. 난센스가 센스가 되는 사회의 비극이다.
* 예제에 사용한 그래프는 난센스 상관을 설명하는 인터넷 사이트(위키피디아 등)에서 인용