brunch

논문들은 모두 개구라

[책을 읽고] 데이비드 스피겔할터, <통계학 수업> (3)

by 히말

숫자 고문하기 또는 그냥 거짓말하기


데이터 마이닝이라 불리는 멋진 이름의 기술은 정확하게 말하자면 '숫자 고문하기'라고 불러야 한다. 다양한 방법으로 고문하면, 데이터는 당신이 원하는 결론을 불게 되어 있다. 이미 나와 있는 숫자를 가지고도 얼마든지 거짓말을 할 수 있지만, 실험을 통해 데이터를 얻는 경우라면 조작은 훨씬 더 쉬워진다. 원하는 결과가 나올 때까지 반복하면 그만이다.


일반적으로 쓰이는 통계적 검정의 유의수준은 5%다. 어떤 사건이 일어날 확률이 5% 미만인데 그 사건이 일어났다면, 그건 그저 우연이라 보기에 너무 이상하다는 것이 바로 가설 검증의 논리다. 그런데 실험을 두 번 반복한다면 어떨까? 단지 5% 확률로 벌어지는 우연의 사건이라 해도, 두 번 시도해서 한 번이라도 나올 확률은 1 - 0.95 ^ 2 = 9.75%다. 뚝심을 가지고 20번을 반복하면, 5% 확률의 우연이 한 번이라도 발생할 확률은 64%에 이른다. 수많은 모바일 게임에서 1% 미만의 확률을 가진 가챠(뽑기)에 사람들이 도전하는 이유가 뭐겠는가?


maxresdefault.jpg 절대 안 나오는 다이루크


간단히 말해, 반복에 반복을 거듭하면 당신은 어떤 실험 결과에라도 도달할 수 있다. 이제 남은 일은, 당신이 그 실험을 딱 한 번만 했다는 거짓말과 함께 '믿을 수 없는' 결과가 사실로 확인되었다는 내용으로 보도자료를 배포하는 일이다. 세기의 발견이 언론에 대서특필될 것이다.


그래서 2005년 존 이오아니디스는 과학 저널에 출판된 논문들을 분석한 뒤, "출판된 연구 결과 대부분은 틀렸다"고 주장했다.



대처 방법


이 문제를 피하는 방법 중 간단한 것으로는 본페로니 교정(Bonferroni correction)이 있다. 유의수준을 재실험 횟수로 나누는 것이다. 이 방법은 인간 유전자 분석에서 표준으로 채택되어 쓰이고 있다. 그러나 이 방법은 거짓말에 취약하다. 공개 실험이 아닌 다음에야 재실험 횟수를 속이려는 연구자를 어떻게 막는다는 말인가? 가장 좋은 방법은 실험 결과를 제3의 기관이 재현하는 것이다. 예컨대 미국 FDA는 신약 승인에 있어 두 개의 독립적인 임상 시험이 5% 유의수준을 통과해야 한다.


실험 결과의 재현은 이렇게 생각해 볼 수도 있다. 상관관계를 골턴이 애초에 '회귀'라 불렀던 이유는, 통계가 평균으로 회귀하기 때문이었다. 부모의 키가 유난히 크다면 그 자식은 여전히 키가 크겠지만, 아무래도 키다리 부모들보다 작을 공산이 크다. 즉, 평균으로 회귀하는 경향이 나타난다. 회귀 현상은 실험에도 일어난다. 만약 어떤 실험 결과가 유난히 운이 좋게 발생한 특이한 경우라면, 이 특이한 운이 다시 재현될 가능성이 낮다.


비윤리적인 연구자들은 자신들의 행동을 이렇게 변호한다. "예상하지는 못했지만 흥미로운 결과를 발견했는데, 그걸 발표하지 못할 이유는 또 뭔가?"라는 것이다. 이에 대해서는 확실한 대답을 할 수 있다. 탐색적 연구와 확증적 연구의 경계를 제대로 세우면 된다.


탐색적 연구에서 흥미로운 사실을 발견했다면 그걸 발표하는 것에는 아무 문제가 없다. 그러나 가설을 검정하려고 한 실험에서 부가적으로 발견된 것을 냅다 발표하는 것은 그냥 무식한 행동 내지는 아주 사악한 행동이다. 실험 목적과 다른 발견을 했다면, 그걸 증명하기 위해 다시 실험을 하면 된다. 그걸 거부하는 행위는 자신이 비윤리적이라는 사실을 증명하는 행위일 뿐이다.


실험결과를 조작하는 연구자들과 출판사들을 가려내려면 뭘 해야 할까? 저자는 이에 대해 P-곡선을 제시한다. 반복된 실험의 P값의 분포를 보는 것이다. 가까스로 유의수준에 걸치는 P값이 몰려 있다면, 실험은 조작되었을 가능성이 높다. 실제로 귀무가설이 기각될 상황이라면, P값은 작은 값에 몰려 있을 것이다. 우연히 귀무가설이 기각되었으며 연구자가 속일 마음이 없다면, P값은 0과 1 사이에 골고루 흩어져 있을 것이다.



다 읽었다!


솔직히 말해, 통계학은 어렵다. 이 책이 기술적인 세부 사항 대신 근본적인 문제들을 공략하려고 애썼을지라도, 설명 중에 몇몇 어려운 개념이 나올 수밖에 없었다. 이 힘든 과정을 모두 견디고 마지막 장에 도달한 당신에게 축하를 건넨다. (473쪽)


그랬다. 이 책은 쉽지 않았다. 좋은 책의 끄트머리에서 저자의 축하까지 받고 나니, 이 책에 더 정이 가는 것 같다. 출판사의 얄팍한 제목 붙이기만 아니었어도 기분이 훨씬 더 괜찮았을 텐데.

keyword
매거진의 이전글법정에서 금지된 통계학 기법