brunch

You can make anything
by writing

C.S.Lewis

by 히말 Jun 15. 2023

수학으로 흉악범 잡기

[책을 읽고] 레일라 슈넵스, <법정에 선 수학>

DNA 30  악마를 소환하다


DNA 검사 기술이 아무리 발전해도, 수학을 제대로 적용하지 못하면 말짱 소용없다.


30년 전에 잔혹한 살인을 저지른 악당이 70대가 되어 덜미를 잡혔다. 살인 당시에는 존재하지 않던 기술, 즉 DNA 분석 대조법 때문이었다.


인간에게는 수백만 개의 유전자 쌍이 있으며 각각 명칭이 있는데, 그중 13개의 유전자 쌍은 사람에 따라 유난히 다르기 떄문에 유전학자들은 이들을 특별하게 다룬다. (162쪽)


이들 13개 유전자 쌍이 전부 일치할 확률은 70억 분의 1보다 낮으므로, 신의 장난이 아닌 다음에야 지구 상에 사는 어떤 사람을 특정할 수 있다.


샌프란시스코 경찰청이 30년 전 사건의 증거를 보관하고 있었던 것은 칭찬 받아 마땅한 일이지만, 정액 샘플의 보관 상태는 아주 훌륭하지는 않았다. 그래서, 필요한 13개의 유전자 쌍 중 5개만을 분석할 수 있었다. 이 5개의 유전자 쌍은 범죄인 데이터베이스에 보관되어 있던 당시 72세의 강간 3범, 존 푸켓의 것과 일치했다.


그런데 여기에서 수학에 매우 정통한 변호사가 이 악마를 구원하러 나섰다. 그는 정부에서 발간된 DNA 통계 연구 결과를 증거로 내세웠다. 6만 5천 명의 DNA 데이터를 분석한 결과, 유전자 쌍 9개가 일치하는 경우가 122쌍, 10개가 일치하는 경우가 20쌍이나 발견되었다는 것이다. 따라서 겨우 5개의 유전자 쌍이 일치하는 것으로 존 푸켓을 범인이라 단정할 수 없다는 주장을 그는 밀어부쳤다.



설익은 지식이 사람 잡는다


한 반에 몇 명 정도가 있으면 생일이 같은 학생이 있을까 하는 질문을 들어봤을 것이다. 그냥 생각하면, 365 분의 1의 확률이니까 적어도 180명 정도는 있어야 그럴 확률이 50% 정도 될 것 같다. 과연 그럴까?


가장 간단한 풀이는 이렇다. 두 명이 서로 생일이 다를 확률은 364/365다. 첫 번째 학생은 365일 중 아무 날이나 고르고, 두 번째 학생은 남은 364일 중에 고르면 되므로, 365/365 * 364/365 = 364/365가 된다. 세 명의 생일이 모두 다르려면, 여기에 363/365를 곱하면 된다. 


이렇게 해서 23번째 학생까지 가면, 확률이 49.3%  정도 된다. 23명의 생일이 모두 다를 확률이 50% 이하로 떨어진 것이다. 다시 말해, 23명 중 적어도 한 쌍의 생일이 같은 확률이 50%를 넘게 된다. 의외로 작은 크기의 집합이다.


제시의 생일은 12월 25일이다. 제시와 같은 반에 몇 명의 학생을 더 편성하면, 제시와 생일이 같은 사람이 나올 확률이 50%가 넘어설까? 앞의 사례를 안 봤다면 모를까, 이번에도 뭔가 함정이 있을 것 같다. 그러나 미안하게도 그렇지 않다. 


이건 12월 25일이라는 특정한 날에 생일이 또 나올 확률이다. 새로 포함된 학생의 생일이 12월 25일일 확률은 앞서 몇 명의 학생이 그 반에 들어왔든 상관없이 365분의 1이다. 따라서 n명의 생일이 12월 25일이 아닐 확률은 (364/365)^n이고, n이 253이 되어야 50% 이하로 내려간다. 무려 253명이 있어야 특정한 날이 생일인 사람을 발견할 확률이 50%를 넘어간다.


수학을 살짝 이해한 저 영특한 변호사가 저지른 실수가 바로 이거다. 두 경우를 헷갈린 것이다. (물론 변호사가 그 차이를 알고도 악마를 변호하려 궤변을 만들어낸 것일 수도 있지만, 설마 그럴 리가.)



실제 상황


13개의 유전자 쌍이 그래프에서 어느 위치에 자리할지를 나타내는 것은 RMP 값으로 정해지는데, 이는 대략 (우연하게도) 13개 중 하나의 값으로 정해진다. 구체적인 내용은 책에도 안 나와 있으니, 나도 모르겠다. 아무튼 계산에서 필요한 값은 0.0752라는 값이다. (13분의 1보다 약간 작다.) 하나의 유전자 쌍이 일치할 확률이다.


두 사람을 비교해서 13개의 유전자 쌍이 모두 일치할 확률은 이 값을 13번 곱한 값이다. 대략 400조 분의 1이다. 앞으로 전 세계 인구 수가 어디까지 증가할지는 몰라도, 400조가 되기 전에 더 정밀한 유전자 검사법이 나올 것 같다.


그렇다면, 다섯 개의 유전자 쌍이 일치할 확률은 얼마나 될까? 0.0752를 다섯 번 곱하면 될까? 그렇지 않다. 그 숫자에 경우의 수를 곱해야 한다. 그 경우의 수는, 13개의 유전자 중 5개를 골라잡는 경우의 수다. 고등학교 수학에서 <조합>이라는 이름으로 배우는 것이다.  13C5의 값은 1287이고, 이 값을 (1/13)^5와 곱하면 약 0.003이 된다. 유전자 쌍 5개가 일치하는 사람은 333명 중에 한 명씩 나온다.


바로 이것이 악마의 변호사의 계산법이다. 여기까지 따라오기도 쉽지 않으니, 이 계산에서 뭐가 잘못됐는지 알아채기도 쉽지 않다. 계산 과정에 매몰되어 큰 그림을 놓치면 더더욱 그럴 것이다.


큰 그림은 이것이다. 이 계산은 13개의 유전자 쌍 중 아무 5개나 일치할 확률이다. 앞에서 사례로 든, 아무 날이나 생일이 일치할 경우와 비슷한 사례다. 그러나 우리가 원하는 것은 이 확률이 아니다. 생일이 어떤 특정한 날짜, 예컨대 12월 25일인 경우를 원하는 것이다.


샌프란시스코 범죄자 데이터베이스에서 아무 두 명이나 골라잡아 그들의 유전자 쌍 5개가 일치하는 경우가 아니라, 그 데이터베이스에 있는 어떤 나쁜놈의 유전자 쌍 5개가 하필 30년 전 살인 사건 범인과 일치하는 확률이다. 그 확률값은 그냥 1/13을 5번 곱한 값이고, 그것은 약 42만 분의 1이다. 샌프란시스코의 인구는 81만 명밖에 되지 않는다. 존 푸켓이 범인이라는데 손목아지를 걸어도 된다.



수학과 재판


존 푸켓이 범인이라는 증거는 그 외에도 얼마든지 있었다. 그런데 변호인은 엉터리 수학을 가지고 나와 재판을 망쳤다. 이 엉터리 수학이 아니었다면, 경찰이 집에 들이닥친 순간 "당분간 집에 못 오겠군"이라 말했던 존 푸켓이 자신 있게 항소할 생각은 하지 못했을 것이다. 다행인 것은, 이 악당이 종신형을 받고 복역 중이라는 사실이다.


잘못된 수학으로 멀쩡한 사람을 나락으로 보낸 사건으로는 유명한 샐리 클라크 사건이 있다. 나는 아래 글에서 그 사건에 대해 이미 이야기한 적이 있다.


https://brunch.co.kr/@junatul/56 


이 책에는 모두 10개의 사건이 기록되어 있고, 그중 하나는 샐리 클라크 사건보다 대략 7,392배는 더 유명할 드레퓌스 사건도 있다. 그 옛날, 드레퓌스 사건 당시 (아주 괴상한) 수학을 들이대는 사람이 있었다는 사실이 놀랍다.


이런 문제점을 직시하고, 로렌스 트라이브는 이미 40년 전에 <수학을 이용한 재판>이라는 논문을 썼다. 논문의 결론은, 재판에 수학을 끌어들이지 말라는 것이었다.


수학자들조차도 수학을 실생활에 적용해 본 경험이 없다면 수학을 오해하고 오용할 여지가 너무 많다. (489쪽)


존 푸켓의 경우도 수학을 끌어들이지 않았다면 훨씬 쉽게 진행될 수 있었다. 그가 이미 저지른 3건의 강간 사건은 30년 전 강간살인 사건과 수법이 완전히 똑같았으며, 몽타주도 일치했다. 이런 상황에서 엉터리 수학을 끌어들여 재판을 진탕으로 끌어들인 변호사가 대단하다. <무고한 시민을 극악무도한 범죄자로 만드는 공권력>이라는 서사는 호소력이 넘치며, 사람들은 뉴스 제목만 보고 분노했을 것이다.


재판 과정에 수학을 끌어들이지 않으려는 경향은 DNA 분석 기술의 발전으로 완전히 바뀌었다. 400조 분의 1의 확률로 특정인을 확인할 수 있는 기법을 설명하면서, 그 드라마틱한 숫자를 언급하지 않을 수는 없다. 


마크 트웨인의 말도 아니고 벤저민 디즈레일리의 말도 아닌 것으로 밝혀졌지만, 통계가 악용될 여지가 많다는 점을 분명하게 보여주는 다음 격언을 다시 한번 되새겨 볼 때다.


세상에는 거짓말, 새빨간 거짓말, 그리고 통계가 있다.
이전 01화 거짓말 탐지기, 통계
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari