데이터를 사용한 논증에 대하여

(부제: 왜 우리는 믿고싶은 것만 믿게 되는 것일까?)

by 김재광

요즘 새삼스럽게 선관위 부정선거 의혹이 불거지고 있는데 나는 그에 대하여 개연성이 매우 낮은 사건으로 보고 있지만 음모론이 확산되는 현상을 보면서 데이터가 확증편향을 강화시키는 위험이 있음을 인지하게 되었고 왜 그런지에 대한 이야기를 나누고자 한다. 이를 위해서 보다 일반적인 상황에서 "데이터를 통해 특정 가설이 사실임을 입증하려면 어떤 절차가 필요한가"하는 논리학적 문제를 고찰해 보고자 한다.


현실 상태에 대한 특정 가설을 H 라고 한다면 "H 가 사실이다"라는 의미는 "Not H 는 거짓이다"는 것을 의미한다. 두 명제가 동치의 관계를 가지고 있다. 그래서 논리의 세계에서는 참과 거짓이 분명하다. 문제는 이것을 현실 세계와 접목시킬때 혼란이 발생할수 있다는 것이다.


그러면 D 라는 데이터를 바탕으로 H 를 증명하려면 어떻게 해야 할까? D 라는 데이터가 H 라는 상황에서 발생할수 있음을 보이는 것으로는 충분하지 않다. D 로 가는 길이 H 만을 통해서 가는게 아닐수 있기 때문이다. 예를 들어, 내가 기침을 심하게 한다는 데이터가 있을때 "내가 독감에 걸렸다"는 상태도 있지만 "먼지를 많이 들이켰다"는 상태도 있을수 있기 때문이다. 즉, D 를 통해 H 가 개연성 있는 시나리오임을 밝힌다고 하더라도 Not H 가 개연성이 없는 시나리오임을 의미하지는 않는다.


이런 문제를 해결하기 위해서는 여러 다른 가능한 가설을 먼저 나열한후 각 가설로부터 D 가 얻어질 확률을 구해야 한다. 즉 P(D | H) 를 구하는 것이다. 특정 가설 H 에서 그 확률이 0 이라면 그 가설은 기각되는 것이다. 하지만 기각되지 않고 남는 가설은 여전히 고려의 대상이 되어야 한다. 나머지 다른 가설을 기각하기 위해서는 다른 데이터가 더 필요할수 있다.


결론적으로 말해서 특정 가설 H 가 D 라는 결과를 가져왔다는 것을 증명하려면 (1) P( D | H) 가 0 보다 큰 것을 보여야 하고 (가능성이 있음을 보여야 하고), (2) P(D | Not H)=0 임을 보여야 한다. (1)과 (2)를 만족하면 결정적 증거라고 할수 있고 (1)만 만족하면 그냥 그 가설이 개연성이 있는 이야기이다는 것만 이야기할 뿐이다.


만약 (1)의 단계에서만 멈춘다면 그 데이터를 통해서 자신의 가설이 맞다는 것은 확인할수 있지만 다른 가설은 기각된다는 것은 확인하지 않는 것이기에 확증 편향에 빠지게 된다. 사전선거와 당일선거의 결과가 다르게 나온다는 것이 선거 부정이 있었다라는 가설하에서도 발생할수 있지만 다른 가설하에서도 충분히 발생할수 있기에 부정선거 가설에 대한 증거가 되지 못한다. 계속해서 데이터를 수집하면서도 (1)의 단계에서만 멈춘다면 자신의 확증편향을 강화하는 결과를 가져올수 있게 되어서 위험하다. 게다가 어떤 가설이 맞다는 확신을 가지고 있다면 이미 다른 가설을 뒷받침하는 데이터에 대해서는 외면하거나 거부감을 느낄수 있게 되므로 그런 상태에서는 이성적인 사고를 하기 어려워진다.


위에서 볼수 있듯이 어떤 가설이 사실임을 증명하는 것은 매우 어렵고 많은 자원을 소비해야 한다. 그래서 현실세계에서는 제한된 증거로부터 판결을 하기 위해서 입증의 책임이라는 개념을 통해서 이를 해결하고자 한다. 가설을 하나만 정하는 것이다. 입증의 책임이 있는 주체가 (주로 고발하는 사람) 피고는 유죄라는 가설을 증명할 책임을 갖게 된다. 만약 누군가가 선거의 결과에 불만을 품고 선관위를 고발했다면 선관위가 피고가 되므로 선관위가 유죄(부정선거를 저질렀음)을 증명해야 하는 입증의 책임이 발생하고 따라서 증거를 제출해야 한다. 그러면 판사의 입장에서는 이 가설의 반대 (선관위가 무죄임)를 귀무가설로 놓고 고발자가 제시하는 증거가 이 귀무가설을 기각할 만큼 강력한 것인가를 판단하는 것이다. 결정적인 증거를 통해 귀무가설(피고자 무죄)를 기각하게 되면 유죄가 되는 것이고, 귀무가설을 기각하지 못하면 고발자가 제시하는 증거가 유죄를 입증하는 증거로 간주될수 없다는 의미이다. 흔히 말하는 증거의 부재가 부재의 증거가 아니라는 말이 이러한 한계를 지적하는 의미이다.



매거진의 이전글통계학적 사고의 중요성