단순 코딩 실수의 문제가 이렇게까지 파급력이 크고 계속될지 몰랐다. 게다가 오류가 있음에도 인정하지 않는 모 교수와 미베인 교수의 태도를 보고 내가 할 수 있는 선에서 뭐든 해야겠다는 생각이 들었다.
선거부정 감지 모형은 일단 내가 베이지안 통계를 모르고 미베인 교수만큼 고도의 통계분석을 못할 뿐더러, 할 수 있다고 해도 박원호 교수님이 지적하셨듯이 분석모형 코드를 미베인 본인만 갖고 있고 공개하지 않은 상태라 현재로선 검증할 방법이 없다.
그래도 정치학으로 박사학위를 받고, 주로 계량적 방법을 배우고 써온 사람으로 계량적 방법을 사용하는 모든 정치학자들이라면 공유하고 있을 상식을 기반으로 미베인 교수의 분석의 문제점을 지적하고자 한다. 물론, 내가 여기에서 제기할 대부분의 논점은 이미 박원호 교수님께서 다 지적하신 내용을 퍼다나르는 수준이긴 하다. 참고하길 바란다.
1. 먼저, 아래의 그림이 바로 논란이 되고 있는 미베인 교수의 논문(정확히는 워킹페이퍼)의 제목이다. 'Frauds'라는 단어가 학계 내에서 사용되는 의미와 통념적으로 사용되는 의미가 다소 다를 수 있고, 본문에서도 미베인 교수가 명시하듯.. 본인의 분석결과는 '분석모형 내에서의' Fraud가 감지된 것이며 이것이 실제 Fraud를 의미하는건 아니라고 했어도 제목 자체가 매.우. 자극적이다. 정말 한 치의 오차도 없는 분석이어도 이런식으로 확정적으로 어느 국가의 선거가 Fraud라고 대놓고 말하는 페이퍼 제목은 잘 뽑지 않는다. 아무리 정교한 모델이라도 사회과학에서 사용하는 계량적 방법이란게 외적 타당성(external validity) 측면에서 태생적으로 한계가 있어서 그렇다. 아무튼.. 그래도 내적 타당성(internal validity)이 확실하다면 학자의 재량에 따라 이런 도발적인 제목도 뽑을 수는 있다고 생각한다. 그런데 내적 타당성이 있는가? 가 문제가 되는거다.
2. 자, 일단 미베인 교수의 워킹페이퍼 본문 1페이지 내용 중 일부이다. 일단 분석단위에 대한 정확한 명시가 없긴 한데 각주를 보면 읍면동(Eupmyeon-dong) 단위를 언급했는데 한 가지 눈에 띄는게 이 양반이 선관위 데이터를 구글 번역기를 돌려서 식별을 했다는 것이다. 뭐 주변에 한국학자 아는 사람이 없어서 그렇다치자. (근데 처음 분석을 의뢰한 사람이 일본대학 소속의 한국인 학자인데 왜 이 사람에게 물어보지 않았을까? 하는 궁금증은 남는다.) 다만 컨텍스트에 대한 이해가 기반이 되지 않은 데이터 분석의 서막처럼 느껴진달까..
3. 다음으로, 박원호 교수님이 지적하신 미베인 교수의 데이터의 문제점을 다시 한 번 살펴보자. 위 1페이지를 보면 투표율(turnout proportion)과 득표율(vote proportion)을 계산할때는 Number Eligible, 유효한 투표수를 분모로 사용했다고 본인이 설명한다. 이건 사실 선거집계자료로 연구할때 투표율, 득표율 계산할때 너무 기본적인 부분이라 굳이 언급할 필요도 없지만 굳이 언급하는 이유가 있다. 아래의 Figure 1을 보면 빨간 색으로 칠해진 구역에 이상한 패턴이 발견된다. 투표율이 100%에 가까운 구역에 엄청나게 많은 수의 observation이 몰려있는 것을 알 수 있다. 이 부분이 바로 박원호 교수님께서 지적하신 데이터 상의 문제점이다. Figure 2를 보면 이런 패턴이 주로 Prevote, 즉 사전투표에서 확인된다는 것을 알 수 있다.
4. 선관위 홈피를 가서 선거자료 집계 현황을 살펴보면 아래와 같다. 보다시피 '관내사전투표' 선거인수와 투표수가 거의 같다. 이 부분도 박원호 교수님이 지적하신 부분인데.. 우리나라는 사전투표에 있어서 사전등록이 필요없기 때문에 사전투표를 한 유권자 수가 곧 사전투표 총 선거인수로 집계되고 있다. 그럼 무효표, 기권표를 제외하면 당연히 관내사전투표의 투표율은 저대로 계산을 하면 100% 가깝게 나올 수 밖에 없다. 그리고 미베인 교수가 범한 실수가 이거다. 관내사전투표 선거인수는 미베인 교수가 말한 Number of Eligible이 아니다. 진짜 Number of Eligible은 해당 동 내의 총 선거인수, 파란색 동그라미에 속한 수치다. 말하자면, 미베인 교수는 3,184(빨간색)/3,185(검은색)을 통해 투표율을 99.9%로 계산했지만 실제 사전선거 투표율은 3,184(빨간색)/9,661(파란색)=33.0% 라는거다. 명백한 오류다. 미베인 교수는 이거를 Prevote indicator 더미변수를 모델에 추가해서 통제했으니 문제가 없다고 했는데 말도 안되는 소리다. 오염된 데이터가 있으면 빼거나 다시 계산하는게 상식적인 반응이지, 더미변수 있다고 문제없다고 하는건 대체 뭔 소린지 모르겠다. 저널에 투고한 논문에서 이런 오류가 발견되었고 저렇게 답변을 했다면 100% 리젝 먹을거다.
5. 아무튼.. 아래는 내가 선관위 홈페이지에서 21대 총선 서울시 읍면동 단위의 선거결과를 긁어서 그린 그래프다(전국을 다 했으면 좋았겠지만 너무 노가다라 일단 서울만 했다). Y축은 지역구에서 민주당 후보의 득표율이고 X축은 투표율이다.
왼쪽이 미베인 교수의 방식대로 관내사전투표소 투표율을 구했을때 나오는 분포이다. 서울시 샘플이긴 하지만 100% 구간에 많은 관측치가 몰려있고 multimodal 한 분포는 미베인의 그래프와 유사하다. 오른쪽은 관내사전선거 투표율을 해당 읍면동 내 전체 유권자 수를 분모로 해서 다시 계산하고 그린 그래프다. 당연히 모양이 다르다. 두 개의 군집이 확인되는데, 이것도 당연한게 사전투표율이 대체로 20-30% 사이였고.. 본 선거 투표율은 이 사전투표율 + 선거당일 투표율까지 합산된거니까 두 군집 사이에 저런 공백이 생기는거다. 이 정도로 큰 분포의 차이가 있는데 과연 분석결과에 영향을 안미칠까? 이 그림을 보면 미베인 교수의 사전투표율 계산이 잘못됐다는 것 뿐 아니라 사전투표 데이터를 이렇게 선거 당일 투표 데이터랑 같은 단위의 observation으로 놓고 분석을 해도 되는건가 하는 의문도 든다.
밑에 그림은 사전투표소만 따로 떼어서 그린 그래프다. 마찬가지로 왼쪽은 미베인의 방식, 오른쪽은 실제 사전투표율 방식으로 그린 그래프다. 당연히 오른쪽 분포가 정상이다.
6. 뭐 이렇게 보여줘도 선거부정론을 믿고 싶은 이들은 미베인 교수의 분석결과가 달라지지 않을 것이라거나, 듣보잡이 뭘 안다고 지적하냐 미베인 교수가 대가인데 넌 뭐냐 등등 반응을 보이겠으나 그래도 답답해서 한 번 써본다. 그래도 한 가지 확실한 사실은 미베인 교수가 사용한 데이터에 문제점이 있다는 거고, 그건 미베인 교수의 명백한 실수로 인해 발생한 문제라는 거다. 사회과학 논문에서 사용되는 데이터 중 100% 오염되지 않은 데이터가 어디있겠냐만 이 정도는 용인 가능한 범위를 한참 넘어서는 것이다.