다큐멘터리 "더 플랜"에 대한 통계적 해석

합리적인 의심의 출발이지만 확증이라고는 볼 수 없다.

Apr 16. 2017

18대 대선 개표 조작 의혹을 다룬 다큐멘터리 더 플랜을 봤습니다. 인터넷의 후기들 중 "통계적으로 있을 수 없는 일"이라는 표현 들을 보고 관심이 가서 챙겨보게 되었습니다. 저는 대학에서 통계학을 이중 전공했습니다. 이 학문을 결코 잘 하지는 못했지만 좋아했던 사람으로서 이 주장에 관해서 쟁점들을 나름 생각해보았습니다.

#더 플랜의 주장 (통계 관련 부분만)

*앞의 개표/공표 시간 등 18대 대선에서 실제로 발생한 여러 가지 과정과 관련된 수상한 정황, 컴퓨터가 해킹될 수 있다는 실제 가능성 및 후반부의 실제 개표기 해킹이 가능함을 입증한 부분을 제외하고 K값과 관련한 주장들 만을 정리한 것입니다.

1. 개표소에서는 투표용지를 먼저 기계를 활용해 분류를 한다. 그리고 사람이 검수를 한다.

이 중에는 기계가 판단을 내릴 수 없어 "미분류"되는 표가 발생한다.

이 미분류표 중 사람이 판단해서 정상으로 인정된 표는 유효표가 된다.

2. 18대 대선에서는 미분류표 중 유효표 득표율을 살펴보면 전체 득표율에 비해 1번 후보(박근혜)의 득표가 2번 후보(문재인)의 득표보다 높았다.

이 값을 쉽게 보기 위해 상대 비율을 구해서 K라고 명명하고 그 값들을 계산해보았다.

그 결과 전국 251개 개표소에서 얻어진 K값의 분포는 1.5를 중심으로 정규 분포와 유사한 모양의 분포를 형성했다.

3. Random을 가정한다면 미분류표 역시 모집단(전체 득표율)과 같은 비율로 형성돼야 하기 때문에 K값의 분포는 1을 중심으로 분포를 형성해야 한다.

때문에 1.5를 중심으로 분포가 형성되는 18대 대선의 개표 결과는 어떠한 인위적인 조작이 개입된 것이 아닌가 하는 강력한 의심을 불러일으킨다.

여기서부터 나오는 분석들은 대학에서 간신히 통계학 학사 학위를 받았으며 졸업 후 전문적인 통계 관련 분야에서 일을 하지 않은 비 전문가의 분석으로 틀린 점이 있을 수 있음을 말씀드립니다.

#이 다큐멘터리의 통계적 주장에서 오독해서는 안 되는 것

1. 이 영상에서 K값이 1.5라고 하는 것은 1.5에 가까운 수치가 나온 전체 251개 개표소에서 모두 1.5에 가까운 수치가 나왔다는 것이 아니라 K값이 1.5에 가깝게 나온 빈도수가 가장 높다는 것입니다. 이 값을 중심으로 전국 251개 개표소의 K값들이 정규분포에 가까운 "분포"를 그렸다는 것입니다.

(즉 영상에서 예시로 나온 강원 원주, 서울 성동, 부산 금정 등은 1.5에 가까운 수치가 나온 지역을 나타내는 것일 뿐 모두가 1.5에 가까운 것은 아닙니다.)

이와 비슷하게 수천만 개의 샘플인데 1.5가 나오는 것은 말이 안 된다고 생각하시는 분들도 있는데 관측된 K값의 개수는 251개입니다. 개표소가 251개니까요. 물론 조금 더 상세하게 구한다면 1개 개표소당 투표함의 개수는 20~30개 정도라고 가정하면 5,000개 이상의 값이 관측됩니다. 하지만 여전히 K값의 개수는 수천만 개와는 거리가 멉니다.

Raw 데이터로 보이는 Table입니다. 1.5랑 먼 수치들만 표시해봤습니다. 당연히 이렇게 먼 값들도 있습니다

2. 영상에서 얘기하는 것은 251개 관측값의 분포가 정확히 정규분포를 따른다는 것이 아니라 k값의 분포가 관측값이 많아질수록 정규분포에 수렴한다고 유추할 수 있다고 얘기하고 있습니다.

어떤 확률을 가지는 독립적인 관측값들의 분포가 정규분포와 유사하게 형성되는 것은 분포의 중심이 어디냐를 차치하고 보면 매우매우 자연스러운 현상입니다. 특정 확률 변수의 표본 개수가 많아지면 정규 분포로 수렴한다는 것은 통계학의 기본이 되는 발견입니다. K값들이 정규분포에 가까운 모양을 그렸다고 인위적인 조작이 들어갔다고 볼 수는 없습니다. 오히려 매우 자연스러운 것입니다.

(키워드 중심극한정리)

또한 251개의 관측값으로 만든 Plot을 보면 위의 그래프처럼 아름답지는 않습니다. 관측값이 많아질수록 정규분포에 수렴한다고 가정할 수 있는 것이지 정확하게 정규분포를 그리는건 당연히 아닙니다.

실제 251개 관측치를 엑셀 히스토그램으로 표현한 플롯입니다.

*문득 학생들의 시험 점수 분포가 정규 분포에 가까운 모습을 그리면 희열을 느낀다고 하신 교수님이 떠오르네요. 학생들의 성적은 실제로는 왼쪽으로 많이 치우친 카이제곱 분포와 비슷한 모습이었다는 게 함정이지만..

3. 프로그램에서 제시된 16대, 17대 대선 데이터는 3개 선거구 (관악, 노원, 수지)의 자료입니다. 16대, 17대 대선의 전반적인 데이터가 아닙니다. 말 그대로 모집단 중 일부 샘플입니다. 위에서 봤듯이 K값의 분포는 다양합니다. 이 샘플 3개만 가지고 16대, 17대 대선의 K값은 1에 가깝다고 주장하기는 어렵습니다. 또한 같은 선거구라고 다른 선거 때 K값이 유지된다고 말할 수는 없습니다.

4. 조작이 가해졌다고 가정하고 시뮬레이션을 했을 때의 예상치랑 실제치가 유사하게 나왔다는 것은 조심히 봐야 합니다. 실제로 수치를 얻어내기 위해서는 확률 값뿐만이 아니라 초기 Input Data가 필요합니다. 즉 후보 1과 후보 2의 실제 득표 비율을 어떻게 설정했느냐에 따라서 값은 여러 가지가 나올 수 있습니다. 또한 확률 값이기 때문에 이 값 역시 시행에 따라 다른 값을 가지게 되고 분포를 띄게 됩니다. 이 분포의 신뢰도(즉 분포에 대한 가정과 그에 따른 표준편차가 계산되어야만)가 어느 정도인가에 대한 얘기 없이는 값 해석은 매우 제한적이게 됩니다.

5. Adjusted R^2가 0.98이 나왔다는 아래 Scatter Plot 자체는 잘 이해가 되지 않았습니다. 저는 아래 Scatter Plot의 점들이 실제 251개 개표소의 미분류표의 비율을 나타내는 것으로 이해했습니다. 이 Adjusted R^2가 0.98이 나왔다는 것은 이 점들을 회귀 분석식으로 표현했을 때 Linear 한(선형의) 상관관계가 강하게 있음을 입증하는 근거지 조작됐을 가능성이 98%라는 얘기와 같은 것은 결코 아닙니다. 또한 Plot 상의 점들을 봤을 때 결코 저 직선으로 Adjusted R^2가 0.98까지는 안 나올 것 같은데.. 이 Plot의 파란 점과 투표 인주로 표시된 점들이 각각 무엇을 의미하는지는 모르겠습니다.

#통계적 쟁점들

다큐멘터리의 주장의 전제는 K값이 1을 중심으로 분포를 그리는 것이 자연스러운데 1.5를 중심으로 분포를 그린다는 것입니다. 이에 대해서는 조금 더 명확한 증거가 필요합니다.

1. K값은 1이 나오는 것이 자연적인가?

다큐멘터리에서 현화신 교수님께서는 K값이 1.5를 중심으로 분포를 그린다고, 개표기가 "범인"이라고 생각한다고 얘기하셨습니다. 분명 개표기가 K값이 1.5를 그리는 이유일 가능성이 가장 크겠지만 그것이 반드시 개표기에 임의적인 조작이 가해졌다는 얘기는 아닙니다.

K값이 1.5이 나오는 게 자연스럽게 개표기의 로직이 짜여 있을 수 있습니다. 예를 들어 투표용지를 보면, 1번 후보가 미분류표에서 유효표로 받을 수 있는 케이스는 크게 3가지 경우이며, 2번 후보가 미분류표에서 유효표로 받을 수 있는 케이스는 2가지입니다.

기계가 판단할 수 없어 미분류표로 분류했으나 사람이 보고 유효표로 인정할 수 있는 케이스

기계가 판단할 수 없어 미분류표로 분류했으며, 사람이 봐도 무효라고 인정하는 케이스

결국 기표가 어떤 변에 걸쳤다면 미분류표가 될 가능성이 높을 것이고, 위의 빨간색 선과 파란색 선에 걸친 경우에는 누구를 선택한 것인지가 명확하기 때문에 유효표가 될 것입니다. 1번 후보는 3개의 변에서 유효표를 얻을 수 있으며, 2번 후보는 2개의 변에서 유효표를 얻을 수 있습니다. 그리고 이 비율은 3/2=1.5입니다. 즉 K값의 기댓값이 자연적으로 1.5가 될 수도 있습니다.

이 외에도 아주 비근한 예를 들자면 박근혜 후보는 상대적으로 고령층의 지지를 많이 받았고, 고령층일수록 투표를 애매하게 하는 경향이 있어 미분류표가 될 가능성이 높다면 박근혜 후보의 미분류표 중 득표율이 높을 수는 있습니다. 물론 이것이 모든 것을 설명할 수는 없지만 충분히 일부분을 설명할 수 있는 요인(Factor) 일 수는 있습니다.

*실제로 이명박 vs 정동영 때와 다르게 박근혜 vs 문재인은 세대간의 표심이 많이 갈린 선거였으며 세대간의 대결 구도로 조명을 많이 받았습니다. 때문에 K값이 17대와 18대 대선에서 차이가 나는 데 영향을 끼쳤을 가능성이 있습니다.

이런 식으로 여러 가지 다른 요인들이 조금씩 작용해 K의 기댓값이 1이 아닐 수 있습니다. 다큐멘터리에서 비유한 컨테이너에 물을 쏟아 놓는 것은 말 그대로 외부 노이즈가 없는 이상적인 랜덤 상황을 가정한 것이고 실제 선거에서는 그렇게 완벽한 실험 상태가 만들어질 수가 없으며, 개표기의 역할 역시도 랜덤으로 미분류표를 쏟아내는 것이 아닌 어떤 특정한 기준을 가지고 애매한 표들을 걸러내는 것입니다. 때문에 우리가 미처 생각하지 못한 다양한 외부 요인들이 개입될 여지가 얼마든지 있습니다. 결론적으로 K값의 기댓값이 1이어야 한다는 것은 아직 근거가 부족합니다.

결국 이를 입증하기 위해서는 전자 개표기가 도입된 16대, 17대 대선에서 K값이 어떤 분포를 이루었는지와 개표기들의 미분류표 판별 조건에 변화가 없었는지를 모두 살펴볼 필요가 있습니다. (가능하다면)

2. K의 기댓값이 1이라는 가정 하에서 1.5를 중심으로 분포를 그릴 확률은 얼마나 되는가?

또한 K값의 기댓값은 1이어야 한다고 전제한 다하더라도 실제 251개 개표소에서 1.5를 중심으로 분포를 그릴 가능성은 얼마인가에 대한 답이 필요합니다.

확률 값은 무조건적인 것이 아니고 시행에 따라 달라집니다. 즉 K의 기댓값이 1이더라도 선거마다 실제 K값은 다양해질 것이며 개표소들마다의 K값 수치들 역시 다양한 분포를 나타낼 것입니다. 우리가 목격한 18대 대선의 각 개표소들을 개별의 시행이라고 보면 "우연히" 1.5를 중심으로 분포를 그릴 수 있습니다. 문제는 그럴 확률이 얼마나 되는가입니다.

즉 과연 K의 기댓값이 1이라는 가설하에 이러한 분포가 나올 확률이 얼마나 되는 가에 대해서 한번 생각해볼 필요가 있습니다. 물론 그러한 가설하에서는 이러한 분포가 나올 확률은 매우 낮을 것입니다만 그것이 통계적으로 의미가 있는 수치가 나올지는 계산이 필요합니다. 최대한 간단히 모델링을 한다면 K의 분포는 정규 분포를 따른다고 가정하고, 각 대선을 하나의 시행으로 봤을 때 1.5가 나올 확률을 구해보면 될 것입니다.

(물론 여기에는 각 대선의 K값을 중심으로 다시 개표소의 K값이 정규 분포를 따른다는 가정이 같이 필요합니다.)

또한 이 확률이 일정 수치 이상으로 낮다고 가정했을 때, 이를 통계적으로 해석하면 18대 대선에서 K의 기댓값이 1로 정규 분포를 그린다는 가설을 기각하는 것입니다. 다시 얘기하면 이 다큐멘터리에서 보여준 통계는 K의 기댓값이 1이라고 생각한 가설하에서는 이러한 관측값들의 분포가 나올 수 없으니 18대 대선에서 K의 기댓값은 1이 아니라는 것만을 얘기해준다는 것입니다. 18대 대선에서 K의 기댓값이 1이 아닌 이유는 여러가지가 있을 수 있습니다. 이것이 결코 K의 기댓값이 1이 아닌 것이 잘못됐다와 같은 얘기가 될 수는 없습니다. 다큐멘터리에서 제시한 "조작"도 검토가 가능한 가설일 수는 있습니다. 하지만 그것이 전부는 아니며 그 확률이 얼마인지는 추가적인 논리적 검증이 필요합니다.

#판단에서 통계학의 역할

통계학은 엄밀한 수학적 논리에 따라 증명되는 학문이지만 동시에 해석 시에는 데이터의 수집부터 계산에 적용된 가정이 합리적인지 등을 항상 유의해서 살펴봐야 합니다.

또한 통계학은 오차가 허용되는 학문으로 확답을 하는 것을 좋아하지 않습니다. 우리가 어떤 판단을 할 때 통계학의 역할은 대부분 "XX라는 가설하에서 이러한 현상이 일어날 확률은 5% 미만이므로 XX 가설은 틀렸다고 보는 것이 합당하다"는 것을 제시하는 것입니다. 이 상황에서도 5% 미만으로 우리가 가설을 틀렸다고 하는 것이 틀렸을 확률은 여전히 존재합니다. 하지만 이 가능성이 적기 때문에 가설을 틀렸다고 보는 것이 합리적인 것이죠.

하지만 법정에서는 이 기준이 되는 확률을 설정하는 것이 문제가 될 수 있습니다. 예를 들어 피의자가 범인이 아니라는 가설하에서 피의 사실을 입증하는 행동을 했을 확률이 통계적으로 5% 미만이라고 유죄를 구형한다면 5%의 확률로 억울함이 발생할 가능성도 있는 것입니다. 그렇다면 몇 % 이하를 기준점으로 잡아야 할까요?

반대로 "XX 가설 하에서 이러한 현상이 일어날 확률을 7%라고 보았을 때 XX가설은 틀렸다"라고 할 수 있을까요? 사람에 따라 다를 것입니다. 이처럼 통계학은 어떤 뚜렷한 답을 내려주는 것은 아닙니다. 어디까지나 합리적인 판단을 보조하는 도구일 뿐입니다.

그런 의미에서 저는 "더 플랜"에서의 통계적인 주장들은 충분히 합리적인 의심의 출발점은 될 수 있지만 아직 논리적 빈틈이 있다고 생각합니다. 물론 다큐멘터리에서 통계 외에 제시한 다른 정황들을 보면 얼마든지 음모론이 생겨날 수 있는 찝찝함이 존재함을 인정합니다. 그렇기에 이번 19대 대선에서는 아예 그런 찝찝함을 차단할 수 있는 방법을 고민해보자는 것은 동의합니다. 하지만 그렇다고 18대 대선에 조작이 있었다고 생각하기에는 영상에서 제시한 것들만으로는 확신하기에는 합리적인 통계적 근거가 부족하다고 생각합니다.

위의 분석들은 대학에서 간신히 통계학 학사 학위를 받았으며, 졸업 후 전문적인 통계 관련 분야에서 일을 하지 않은 비 전문가의 분석으로 틀린 점이 있을 수 있음을 말씀드립니다.

keyword

작가의 이전글요즘 정치에 관한 생각들 - 스타트업투자에 비유해보면KBS 최고의 한방이 산으로 가고 있다.작가의 다음글