brunch

You can make anything
by writing

C.S.Lewis

by gimmesilver Jun 12. 2017

더 플랜과 통계적 가설 검정

0. 서론

    얼마 전 김어준씨의 한 다큐멘터리 영화 때문에 인터넷 한 구석에서 논쟁이 뜨거웠습니다(이 내용을 잘 모르시는 분은 https://namu.wiki/w/%EB%8D%94%20%ED%94%8C%EB%9E%9C 를 참고하시기 바랍니다). 이 다큐에는 여러 가지 이야기가 나오지만 가장 논란이 되었고 인위적 개입의 가장 큰 증거로 제시되었던 부분은 소위 K라고 부르는 '분류된 표에서의 두 후보자 득표 비율과 미분류된 표에서의 두 후보자 득표 비율 간의 비율'이 1.5를 평균으로 하는 정규 분포를 이룬다는 점입니다. 이 통계량에 대한 통계적 가설 검정 기법을 통해 자동 분류기에 인위적 개입이 있었다는 주장을 합니다. 심지어 이 내용은 미국의 한 정치학회에 논문으로 발표되면서 더욱 신빙성을 높였습니다.

    이에 대해서 몇몇 분들이 검증 방법이 잘못되었다고 반박했고 이에 대해 또 다른 분들이 재 반박을 하며 논쟁이 뜨거웠습니다. 

    결론부터 말하자면, 다큐에서 제시한 검정 방식은 잘못됐습니다. 너무나 기초적인 오류라 논쟁할 거리도 안되는 내용이 이렇게까지 논란이 된 점이 놀라울 정도입니다. 단순히 사회가 그만큼 믿을 수 없는 일이 많이 일어나고 정부나 사회에 대한 불신이 쌓여서 생긴 심리 현상이라고 볼 수도 있겠습니다.

    그러나 이 논쟁이 저의 흥미를 끈 것은 1) 많은 사람들이 이 논쟁에서 K값의 분포나 귀무 가설 검정 등 다큐에서 얘기한 통계적 방법이 맞냐 틀리냐와 같은 통계 관련 논쟁을 주로 했다는 점, 2) 그런데 수많은 댓글에서 얘기하는 통계 관련 내용이 오류 투성이라는 점, 3) 심지어 그런 이들이 대부분 (본인들의 주장에 의하면) 기계학습이나 통계학 전공자라는 점, 4) 또 그런 많은 사람들이 이 다큐에 나오는 통계 검정 내용이 미국의 한 정치학회에 논문으로 발표되었다는 점 때문에 해당 권위에 의존하고 있다는 점입니다 (그래서 다큐 내용을 의심하는 사람들에게 너희도 여기서 이러고 있지 말고 정식으로 논문을 써서 반박해 보라는 식의 비난이 많았습니다). 

    실상 다큐와 해당 논문이 갖는 오류의 핵심은 '통계'가 아니라 '가설 검정'에 있습니다. 제가 인터넷에서 오고가는 논의를 보면서 가장 안타까웠던 것은 정규 분포가 되는 것이 맞냐, 회귀 모델의 R^2가 맞게 구해졌냐, K가 1이 되는게 수학적으로 맞느냐 등 통계 이론에 천착해 핵심에서 벗어난 얘기들이 대부분이었다는 점입니다. 따라서 통계를 잘 모르는 사람들이 보기에 복잡한 수식이나 이론이 난무하여 제대로 된 판단이 어려운 상황이 된 것입니다. 그러나 이 다큐의 오류는 매우 단순하며 치명적이기 때문에 이후에 나오는 복잡한 통계나 수학적 이론들은 모두 무의미합니다.

    이 글에서는 '더 플랜'에 어떤 오류가 있었는지를 살펴 보고 이와 관련하여 통계적 가설 검정에서 주의해야할 점에 대해 설명합니다.


1. 더 플랜의 오류 - 잘못된 귀무 가설

    '통계적 가설 검정' 은 어떤 '가설'을 검정하기 위해 관측된 데이터가 '가설'을 뒷받침하는지 '통계적'인 방법을 사용하여 확인하는 방법입니다. 그 방법에 오류가 있는지를 판단하려면 통계 기법을 제대로 사용했냐를 따지기에 앞서 '가설'을 검증하는 방식이 논리적으로 맞는지부터 살펴봐야 합니다. 

    이 점에서 볼 때 '더 플랜'의 가장 큰 문제는 바로 초기 '가정'이 잘못되었다는데 있습니다. 따라서 아무리 그 이후에 이용한 통계가 맞더라도 애초에 잘못된 '가정'에서 시작한 주장이기 때문에 중간 과정에 오류가 없다 하더라도 결론이 맞다고 주장할 수 없습니다. 


    '더 플랜' 논문의 내용을 논리 흐름에 따라 풀어보면 다음과 같습니다. 

1) 모집단에서 임의적으로 추출한 표본 집단의 후보자별 득표 비율은 모집단의 득표 비율과 차이가 없다.  

2) 만약 자동 분류기가 유효표를 임의적으로 미분류한 것이라면, 미분류표와 분류표 사이의 두 후보자 득표 비율은 차이가 없어야 한다(즉, K는 1을 중심으로 하는 정규 분포를 이루어야 한다). <- 귀무 가설

3) 실제 각 선거구 데이터를 확인해 보니 K는 1이 아니라 1.5를 평균으로 하는 정규 분포를 이룬다. 

4) 이런 차이가 발생할 확률(p value)을 통계적으로 계산해 보면 0에 가깝다. 

5) 이런 차이가 발생하려면 자동 개표기에 시스템적인 편향이 있거나 혹은 인위적인 조작이 있어야 한다.

6) 우리가 시뮬레이션을 해본 결과 인위적인 조작의 가능성이 더 높다. 

7) 따라서 자동 개표기는 인위적으로 조작되었을 것이다. <- 대립 가설


    위 논리에서 가장 큰 오류는 2)에서 밑줄 친 부분(이하 '가정 A')입니다. 해당 논문에는 'If valid ballots are unclassified at random, which is fair, the probability of candidate 1 or 2's valid vote to be sent to the unclassified should be the same' 이라고 되어 있습니다. 

    논문은 이 가정에서 시작하여 임의 표본을 추출할 경우 K의 기대값 E(K)가 1이 되어야 하는 것을 수식으로 제시하고 있습니다. 이 수식이 맞는지에 대해 집착하는 분들도 몇몇 있었는데 이건 수리 통계학에 나오는 기초 내용일 뿐, 이 논문에서 제안하는 새로운 이론이 아닙니다(따라서 증명에 문제는 없습니다). 솔직히 전 왜 논문에 이 (새로울 것도 없는 기초적인) 수식을 넣었는지 모르겠습니다. 좀 까칠하게 보면 그저 그럴듯한 수식 증명하나 넣어서 분량을 채워 보려는 용도로 밖에 안보입니다. 


    '가정 A'가 문제인 이유는 실제 자동 분류기는 임의적으로 투표용지를 미분류하지 않기 때문입니다.

    자동 분류기는 어떤 후보자에게 기표했는지를 투표 용지에 찍힌 도장을 인식하여 후보자별로 분류하는 기계입니다. 이 때 도장이 특정 후보자 위치에 정확히 찍히지 않고 약간 애매한 위치에 찍혔거나 흐릿하게 찍혀 인식이 잘 안되는 등 여러 가지 이유로 인해 분류기가 잘못 분류할 가능성이 있는 투표 용지가 있을 수 있습니다. 그런데 대통령 선거는 매우 중요하기 때문에 자동 분류기가 투표용지를 잘못 분류할 경우 심각한 문제가 발생할 수 있습니다. 따라서 이런 문제를 피하기 위해선 약간이라도 오분류 가능성이 있는 투표 용지는 별도로 빼서 사람이 직접 검수하는 것이 안전합니다. 

    이런 이유로 인해 별도로 분류되어 수동 개표되는 투표 용지들이 미분류표입니다. 즉, 미분류표는 임의 추출된 표가 아닙니다. 기계에 설정된 나름의 기준으로 인해 자동 분류했을 때 오류가 발생할 확률이 높은 표들만 따로 추출한 표입니다.

    이렇듯 미분류표는 '임의 추출'된 표가 아니기 때문에 '가정 A'는 맞지 않습니다. 결국, 잘못된 가정에서 시작한 가설이기 때문에 중간 과정이 맞더라도 잘못된 검정입니다. 또한 논문에서 주장하는 것처럼 K값이 자동 분류기 조작 여부를 판단하는 지표가 되지도 못합니다. 다큐와 논문에서는 K라는 값을 언급하면서 이것이 엄청난 의미가 있는 것처럼 소개하고 있지만 이것은 단지 임의 추출인 경우에만 1값이 되는 것이 증명되는 통계량일 뿐 임의 추출이 아니라면 어떤 값이 나오더라도 이상하다고 판단할 수 없습니다. 그 뒤에 나오는 여러 가지 통계학적 이론들이나 E(K)에 대한 증명들 역시 모두 불필요한 내용입니다. 

    이렇듯 통계적 가설 검정에서는 적절한 귀무 가설을 이용하는 것이 중요합니다. 귀무 가설이 잘못되면 엉뚱한 결론에 다다를 수 있습니다. 잘못된 귀무 가설을 이용한 유명한 사례로 아래와 같은 것이 있습니다.


2. 남자 아이가 더 많이 태어나는 것은 신의 섭리

    존 아버스넛이라는 신학자가 영국 런던의 남녀 출생자 수를 조사하던 중 놀라운 사실을 알게 되었습니다. 1629년부터 1710년까지 82년동안 매년 남자 아이가 여자 아이보다 더 많이 태어났던 것이죠. 한편, 당시에는 사냥이나 노동, 전쟁 등으로 인해 남자의 사망률이 여자보다 높았습니다. 따라서 존 아버스넛은 두 가지 가설을 세웠습니다. 1) 우연히 발생한 현상이다. 2) 남자의 사망률이 더 높은 것을 알고 있는 신이 남녀 비율을 맞추기 위해 조치한 신의 섭리이다. 1)의 가설이 맞다는 가정하에 확률을 계산해 보면 82년 연속으로 남자 아이의 출생 비율이 높을 확률은 0에 가깝습니다. 따라서 존은 이것이 신의 섭리가 작용하는 증거라고 주장했습니다.

    극단적인 예이긴 하지만 '더 플랜'은 존 아버스넛과 동일한 오류를 범하고 있습니다. 애초에 미분류표의 후보자간 득표 비율이 분류표와 같아야 한다는 귀무 가설이 잘못된 것입니다. 마치 남녀의 출생 확률이 같아야 한다는 귀무 가설이 잘못된 것처럼요.  

    아래 관련 링크에서 '더 플랜'을 비판한 분이 말하고자 하는 핵심은 바로 이것입니다. 많은 분들이 그럼 'K가 1이 아닌 이유는 뭔지 설명해라' 라고 반박했는데 이건 비판한 사람이 설명해야 할 몫이 아닙니다. 애초에 'K가 1이어야한다'라는 잘못된 귀무 가설을 사용한 김어준씨를 포함한 논문 저자들의 해결해야 할 문제입니다.  


3. 3종 오류

    더 플랜 논문의 또 다른 문제는 K가 1이 아닌 이유는 여러 가지 가능성이 있음에도 불구하고 '분류기 조작' 이라고 너무 쉽게 단정지었다는 점입니다. 앞서 소개한 존 아버스넛이 남녀 비율이 안맞는 이유는 사실상 여러 가지 가능성이 있지만 아무런 근거도 없이 '신의 섭리'라고 단정지은 것처럼요. 이렇게 검정해야 할 대립 가설을 잘못 정의하는 오류를 보통 '3종 오류 (Type 3 error)'라고 부릅니다. 

    이런 3종 오류는 통계적 가설 검정이 갖고 있는 큰 한계 중 하나입니다. 통계적 가설 검정에서는 실상 우리가 실제로 검정하고 싶은 대립 가설을 직접적으로 검정하지 못하고 단지 귀무 가설이 맞다는 가정하에 데이터의 빈도 확률을 구하는 방식입니다. 즉, 검정에서 측정하는 p value는 대립 가설이 맞냐 틀리냐에 대한 확률이 아니라 귀무 가설 하에서 관측된 데이터에 대한 확률입니다. 따라서 귀무 가설이 기각된다고 해서 이것이 대립 가설을 직접적으로 지지하는 증거는 아닙니다. 위 예를 들자면 남녀 비율이 1:1이라는 귀무 가설이 기각된다고 해서 이것이 직접적으로 신의 섭리가 작용한다는 가설을 지지하는 것은 아닙니다. 여기에는 남아 선호나 조사 지역의 환경적 특성과 같은 여러 가지 의심할만한 요인이 있습니다. 엄밀한 검증을 위해선 이런 여러 가지 가능한 요인을 모두 통제하고 검정해야 합니다. 이것은 통계적 가설 검정 자체가 갖고 있는 가장 큰 한계입니다.  

    K가 1이 아닌 현상 역시 다양한 가설이 있을 수 있습니다. 논문에서는 단지 두 가지 가설('자동 분류기가 갖고 있는 편향이 존재한다'와 '기계가 조작됐다')만을 세운 채 섣불리 조작으로 결론지었지만 아래 링크에도 있듯이 후보자별 지지자들의 세대 차이로 인해 발생한 편향도 일리있는 가설입니다. 물론 모든 가설을 다 검증하는 것은 사실상 불가능합니다. 그러나 이런 큰 이슈에 대해 이렇게 단순한 가설만을 검정한 후 그 결과에 대해 단정하는 것은 합리적이지 못한 자세입니다.  


4. 마무리

    이 외에도 많은 분들의 논박 내용을 보면 잘못된 내용이 많습니다. 특히 K가 정규 분포인 것이 인위적인 조작의 증거라는 주장은 터무니없습니다. 심지어 어떤 분은 '정규 분포'는 이론상으로만 있는 것이고 현실 세계에서는 나올 수 없는 분포라는 주장도 합니다. 통계학의 근간을 송두리채 부정하는 대담한 주장이 아닐 수 없습니다. 

    해당 논문이 외국의 한 학회에서 발표되었다는 이유만으로 신뢰를 갖는 사람들도 있었습니다. 전형적인 '권위에 의한 논증'입니다. 논문이기 때문에 인터넷 게시판의 글보다 더 나을 것이라는 어떠한 근거도 없습니다. 중요한 것은 내용이지 형식이 아닙니다. 심지어 해당 논문은 통계학도 아닌 '정치학' 분야의 한 학회에 '포스터'로 발표된 논문입니다. 대개 포스터는정식 논문보다 리뷰 절차가 까다롭지 않고 요구하는 분량도 적기 때문에 좀 더 발표가 수월합니다. 그래서 석사 학생들의 논문 발표 경험을 쌓게 해주기 위해 많이 이용합니다. 요즘 딥러닝과 같은 트렌드가 매우 빠른 분야는 연구 결과를 빨리 발표하여 자신의 연구 분야를 선점하려는 의도로 포스터 발표를 많이 활용하긴 하지만, 그런 예외적인 경우를 제외하면 사실상 포스터 논문의 수준이나 공신력은 정식 논문에 비해 다소 떨어집니다.  

    다큐에 관여했던 몇몇 통계학자들이 그동안 페이스북 등에서 이 논란에 대응한 모습은 무척 실망스러웠습니다. 적어도 한 대학의 교수라면 그동안 수많은 논문을 썼을 것이고 그러면 그 과정에서 많은 리뷰 절차를 통해 비판과 논박에 익숙해 있을 텐데도 불구하고 마치 자신의 권위를 침해당해 불쾌하다는 듯이 '싸가지'없다는 등의 표현을 써가며 무시하는 모습은 진정한 학자의 자세가 아니라고 생각합니다. 이들이 초반에 좀 더 비판을 솔직하게 인정했더라면 수많은 사람들이 혼란을 겪지 않았을 것이라 생각합니다. 

    또한 어떤 이들은 김어준씨가 그동안 해왔던 여러 가지 일들을 이유로 옹호하기도 했습니다. 김어준씨가 기여한 사회적인 순기능이 많았다고 생각합니다. 그동안 남들이 하기 힘든 매우 힘든 길을 걸어온 것도 사실입니다. 그러나 이것이 면죄부가 되지는 못합니다. 저는 이런 류의 (과학이나 통계와 같은 비전공자가 이해하거나 평가하기 어려운 이론을 기반으로 한) 음모론이 사람들로 하여금 합리적인 사고와 사회 인식을 하는데 어려움이나 피로감을 줌으로써, 모든 사회 현상을 옳고 그름이 아니라 '내 편'과 '네 편'으로 분리하여 바라보는 '진영 논리'에 집착하게 만든다고 생각합니다. 

    따라서 전문가라면 이념과 진영을 떠나 자신이 잘 알고 있는 분야에 대해 합리적인 비판과 설명을 통해 해당 분야를 잘 모르는 비전문가들의 혼란을 줄이고 합리적인 판단을 할 수 있게 도와야 한다고 생각합니다.

    

관련 링크

https://namu.wiki/w/%EB%8D%94%20%ED%94%8C%EB%9E%9C 

http://www.todayhumor.co.kr/board/view.php?table=science&no=63349

http://www.todayhumor.co.kr/board/view.php?table=science&no=63625

http://www.todayhumor.co.kr/board/view.php?table=science&no=63973

http://newstapa.org/40171


매거진의 이전글 R을 활용한 게임 데이터 분석 #1
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari