톰 치버스, 『모든 것은 예측 가능하다』
아마도 1701년에 태어났을 것으로 추정되는 비국교파 목사 토머스 베이즈는 취미로 수학을 하던 ‘신사과학자’였다. 그는 1760년에 죽었는데, 죽기 전 논문 하나를 작성하고 친구인 리처드 프라이스에게 남긴다. 프라이스는 2년후 영국왕립학회의 회보에 게재했는데, 논문의 제목은 <기회 학설에서 나타나는 한 가지 문제의 해법에 관한 소론>이었다. 이 논문은 한 동안 주목을 받지 못했지만, 점점 그 가치를 인정하는 사람이 늘면서, 동시에 이를 비판하는 사람이 늘면서 관심을 가지게 되었다. 바로 ‘베이즈주의’라고 하는 것이다.
이제는 익숙해졌지만 95% 민감도의 암 검진 결과에 대한 해석은 늘 신기하다. 이런 류의 문제를 책 같은 데서 만나면 거의 틀리지 않고 풀어내긴 하지만, 그냥 생활하는 중에는 의식 없이 95% 민감도의 암 검진에서 양성 반응이 나오면 그 사람이 암에 걸렸을 확률을 95%로, 혹은 그보다 조금만 낮게 생각하는 경우가 없지 않다. 이 계산을 정확히 하는 데 바로 베이즈주의식의 방법론이 필요하다.
베이즈주의는 피셔와 심프슨으로 대표되면서 발달한 ‘빈도주의’의 한계를 비집고 들어서왔다. 톰 치버스는 빈도주의와 베이즈주의의 대립을 흥미진진한 드라마처럼 서술하고 있는데, 우리가 중고등학교에서 배우는 확률은 바로 빈도주의에 입각해 있다. 그리고 내가 논문에 쓰고 있는 통계적 유의성을 검증하는 방법론도 빈도주의다. 그래서 연구 결과를 두고는 늘 p값이 0.05보다 작은지, 큰지에 극도로 예민해져서 보기도 한다. 그러나 이 책을 보면 나 역시도 이 p값의 의미에 대해서 매우 오해하고 있었다는 것을 알 수 있다. p값이란 가설이 옳다고 할 때 현재의 데이터가 나올 확률을 말하는 것이다. p값이 0.05보다 작다고 하는 것은, 내가 원하는(?) 결과를 부정한 가설에 의해서 현재의 데이터가 나올 확률이 1/20보다 작다는 얘기다. 그만큼 나오기 희박(?)하니 나의 데이터는 특별한 데이터라는 결론을 내릴 수 있다는 것이다. 이 기준이 느슨한 것은 둘째 치고, 이 값의 의미를 잘못 해석하는 경우가 많다는 것을 배웠다. 즉, 이 방법을 쓰는 것은 ‘가설이 틀리다면 수집된 것과 같은 데이터가 나올 가능성’을 따지는 것이라는 얘기다. 우리가 데이터를 제대로 해석하기 위해서는 ‘수집된 데이터에 비추어 가설이 옳을 가능성’을 따져야 함에도 그렇다. 뒤의 얘기가 바로 베이즈주의에서 따지는 것이다.
베이즈주의는 사전 확률을 가정한 후, 데이터에 따라서 확률을 보정해가는 방식을 취한다. 사전 확률이란 이미 상당한 수준의 확실성으로 알고 있을 수도 있지만, 전혀 모를 수도 있다. 전혀 모르는 경우에도 가정을 통해서 취한 다음 데이터를 추가해가면서 확률의 범위를 줄여가는 방식을 취할 수 있는 것이 베이즈주의다. 이렇게 보면 우리가 일상생활에서 거의 일상적으로 쓰고 있는 방식이 바로 베이즈주의라는 것을 알 수 있다.
톰 치버스는 이러한 내용을, 아니 이보다 훨씬 깊고 풍성한 내용을 알기 쉬운 예를 동원해가며, 알기 위한 언어를 통해서, 또 상당한 유머를 섞어가며 전개해나가고 있다. 베이주주의의 역사(빈도주의와의 대립을 포함하여), 베이즈주의가 과학에 이바지할 수 있는 점, 베이즈주의가 세상 속에서 어떤 의미를 지니고 있는지, 심지어 인식론과 뇌 모델과의 관련성까지 베이즈주의의 기본을 익히고, 여기에 심취할 수 있는 바탕을 마련해주고 있다. 이 책을 읽고는 누구도 베이즈주의자가 되지 않을 수 없을 정도다. 물론 나는 논문을 쓰면서 여전히 p값을 구하며 전전긍긍할 가능성이 높지만, 그래도 베이즈주의적 사고 방식은 조금은 더 많이 갖추어 나갈 수 있지 않을까 싶다. 모른다. 어떤 논문은 베이즈주의의 방식으로 쓰게 될지.