brunch

You can make anything
by writing

C.S.Lewis

by Amang Kim Apr 24. 2020

49. 과연 총선은 조작 되었을까?

확률의 기본 정의들과 몇가지 증명들

제목만 보고, "답이 뭐냐?" 내지는 "그래서 선거를 조작했다는거냐?"에 대한 대답이 궁금해서 이 글을 읽는 경우라면, 지금이라도 읽지 말고 그냥 가던길 가시길 권고 드립니다.

본 글은 확률의 기본정의와 증명 방법에 대한 설명을 하는 글입니다. 그래서, 글 내용이 길고 생각을 많이 하셔야 합니다. 보다 결정적으로, 여러분이 이 글을 끝까지 읽더라도 당신이 원하는 대답을 얻으실 수 없습니다. 그럼에도 불구하고 내가 글의 제목을 저렇게 만든이유는, 이번 총선 조작여부 관한 예제를 이 글 말미에 사용했기 때문입니다. 

선거조작을 통계적으로 증명할 어떤 대답을 원했던 분들께는 미리 사과의 말씀 드립니다.

죄송합니다. 당신들은 낚이셨습니다... :p



1. 확률의 기본정의 (Definitions of Probability Theory)

간만에 복습도 할 겸, 확률의 정의(Definition)와 이 정의를 기반으로 한 몇가지 증명을 해 보았다.

확률을 수학적으로 정의하는데는 여러가지 방법이 있지만, 그 중에 가장 쉽고 기본이 되는 "집합"을 이용한 확률(론)의 정의를 하도록 하겠다. 그림에 표시 된 것처럼, (1)-(4)까지는 확률(론)의 정의(Defnition)이다. 이게 별 것 아닌 것 같지만, 위의 정의는 확률론 뿐만 아니라, 통계를 포함해 데이터를 다루면서 "확률론적" 내지는 "통계적" 내지는 "수학적"이라는 이름을 갖다 붙이는 순간, 이후의 모든 분석과 전개는 위의 4가지 정의를 만족해야 한다. 그 이유는 통계적 이론은 확률이론을 기반으로 만들어졌기 때문이다. 굳이, 집합관계에서 이야기하자면, 수학(이론)이 가장 큰 집합, 확률(이론)이 수학안에 포함 되는 부분집합. 그리고, 통계이론은 확률이론 안에 포함 되는 부분집합이 된다. 즉, 


수학이론을 벗어난 확률이론이 있을 수 없고,
확률이론을 벗어난 통계이론이 있을 수 없다.


는 의미이기도 하다. 그리고, 위의 4가지를 기반으로 참(True)임이 증명된 내용들(5)-(8) 또한 그 어떤 데이터 분석이나 통계 분석의 결과보다 우선한다. 이게 무슨 말이냐 하면, 어떤 명제의 증명에 있어서, 

데이터 분석이나 통계가 아무리 참(True)라고 이야기 하더라도, 위의 8가지(1)-(8)중에 한가지라도 위배가 된다면, 그 데이터 분석이나 통계분석은 "통계적"으로 잘못 된 것(False)이다.

1. (5)-(8)의 의미

확률의 정의를 통해 확장된 내용이 실제로 어떤 의미인지 하나씩 풀어가보도록 하겠다.


(5): 불가능(P(w)==0) 하다는 것 == 사건이 일어나지 않는다 (w가 공집합)

참(True)인 명제.

이게 무슨 뜻이냐 하면, "사건이 일어난다"는 의미는 "가능성이 있다"라는 의미와 동일 하다는 뜻이다. 

즉, 사건이 일어났다면, (그 가능성이 많고 적고를 떠나) 0이 아닌 확률값이 존재 한다는 뜻이기도 하고, 

반대로, 불가능, 즉 확률값이 0이면, 그 "사건은 절대로 일아나지 않는다" 의미도 동일 하다.


(6) 사건이 일어나지 않았는데(즉, w==공집합), 0보다 큰 가능성(확률값)이 존재 한다는 명제: 거짓(False)

거짓(False)인 명제 이다.

즉, (6)이 거짓인 이유는 (5번)이 참(True)이 때문이다. 

사건이 일어 날수 있다면, 무조건 0보다 큰 확률값(즉, 가능성)이 존재해야 하고,

사건이 일어날수 없다면, 확률값은 반드시 0(즉, 불가능)이어야 한다.


(7) 사건이 일어 날수 있는데(즉, w!=공집합), 가능성이 존재하지 않는다(즉, P==0)는 명제: 거짓(False)

거짓인 명제이다.

즉, (7)이 거짓인 이유는 (5)이 참(True)이고, (6)이 거짓(False)이기 때문이다. 사실 (5)만으로도 거짓임이 증명 가능함.

사건이 일어 날수 있다면, 그 가능성은 무조건 존재 해야 하고,

(어떤 사건의) 가능성이 존재한다면, 그 사건은 반드시 일어나야 한다. 반드시 일어나야 한다는 의미

"현재"에 이미 일어 났을 수도 있고, "미래"에 일어 날수도 있다.

는 걸 뜻 한다.


(8) 가능하다는 것(P(w)!=0) == 사건(w)은 반드시 (한번은) 일어난다(w!=0)

즉, (4)과(5)이 참(True)이기 때문에 (8) 또한 참(True)이다.

다만, (7)에서 언급한 것처럼, 확률의 기본 정의에는 시간 개념이 없다. 즉, 현재를 기준으로 이미 일어 났을 수도 있고, 현재까지는 일어나지는 않았지만, 미래에 일어 날 수도 있다. 하지만, 확실한 것은 "반드시" 사건은 일어 난다는 것이다. 반드시!!!!


2. 동전 100개를 한꺼번에 던지기

당신이 동전 100개를 한꺼번에 던졌는데 전부다 앞면이 나왔다고 하자.

그런데, 이를 본 미동이가

동전 100개가 모두다 앞면이 나오는 것이 확률적으로 불가능하니까, 이 동전들은 조작되었다.

라는 주장을 했다고 하자. 


당신은 미동이의 주장을 어떻게 받아 들일 것인가? 

우선 위의 주장엔 "확률적"이라는 표현이 있다. 이 단어가 의미하는 것은 미동의 주장은 "확률의 정의"를 기반으로 한다는 의미이다. 미동이의 주장을 명제 꼴로 쓰자면,


C1: Fair한(즉, 조작되지 않은) 동전 100개 모두 앞면이 다 나오는 것이 확률적으로 불가능 하다.

S0: 동전은 조작 되었다.

S1: C1 --> S0


여기서, S1은 미동의 주장을 명제의 형태로 바꾼 것이고, 미동이 S1명제가 참(True)라는 것을 주장하는 것이다. 여기서, 미동이의 주장(S1)이 참(True)이 되려고 하면, C1이 참(True)이 되어야 한다. 그리고, C1는 거짓(False)인 명제이다. 왜냐하면, C1이 주장하는 것을 조금더 풀어 쓰자면,


Fair한(즉 조작되지 않은) 동전 100개가 동시에 앞면이 나올 가능성은 있으나 (p(w) >0) [AND] 그 사건은 일어 날수 없다(w=공집합) 

C1: p(w) >0 [AND] w=공집합


이 된다.  잘 보면 알겠지만, 위의 문장은 수학적으로 (6)과 동일한 문장이다. (6)이 왜 거짓(False)인지는 이전에 설명했으니 생락하고, 그래서, 결론은 C1

즉, "Fair한 동전 100개가 앞면이 다 나오는 것이 확률적으로 불가능 하다."는 거짓(False)

인 명제라는 것이다. 바꿔 말해, Fair한 동전 100개가 동시에 앞면이 나오는 것은 "확률적/통계적"으로 가능하다. 라는 의미이기도 하다. 이 즈음 되면 여러분께서는 한가지 의문이 들것이다. 위의 문장이 맞다면,


100개의 동전은 조작되지 않았다(모두 Fair하다)는 의미인가?

라는 질문일 것이다. 이에 대한 대답은 "알수 없다"이다. 왜냐하면, 조건부 명제에서 조건(C1)이 거짓인 경우, 원래 명제(S1)은 C1명제에 관계 없이,


(S1자체가 참(True)이면), S1은 무조건 참(True)


이라는 의미이기 때문이다. (혹시라도 위의 문장이 왜 그런지 모르겠다고 하면, 집합과 명제 파트 중에 조건부 명제의 진리표를 참고 하기 바란다). 다시 말해, 미동이는 100개의 동전이 어떻게 나오던지 "상관없이" 동전이 조작이 되었는지를 "별도로" 밝혀야 한다는 뜻이기도 하다.


3. 어떤 정치꾼의 글 

어떤 통계학자 였자 물리학자였던 정치꾼이 다음과 같은 글을 페북에 올렸다.


[투표자의 행위를 "통계적"으로 해석할 때 불가능한 일이 일어난 것이다...]
(그렇기 때문에 이 선거는 조작이다)

참고로, 위의 주장은 동전 100개 던지기의 미동이의 주장과 동일하다. 이해를 돕기 위해 위의 주장을 명제의 형태로 풀어쓰면,


C1: 투표자의 행위를 통계적으로 해석할 때 (가능성은 있으나(P(w)>0) 0(zero)에 수렴하기에, 현실에서는) 불가능한 일(w)이 일어난 것(w!=공집합)이다.

S1: 선거는 조작이다.

S1: C1 --> S0


이 된다. 원래 문장과 약간 수정이 되었음 참고하고, 읽는 이들은 가운데는 0과 0으로 수렴하는게 같은것이 아니냐는 생각을 하실 수도 있다. 결론부터 이야기하면 틀렸다. 0과, 0으로 양수(+) 쪽에서 수렴하는 것과 0으로 음수(-)에서 수렴하는 것은 다 다르다. 즉,


0  !=  0+ != 0-


이다. 혹자는, 수렴하는 것이니,  같다고 할 수 있는것 아니냐라고 이야기할지도 모르겠는데, 그 또한 기각(Reject)이다. 그 이유는 이 정치꾼이 "통계적"으로 해석했기 때문이다. 위에도 언급했지만, 통계적이라는 것은 확률적이라는 것이고, 확률적이라는 건 수학적이라는 의미이다. 수학적/확률적으로 0과 0으로의 수렴은 완전히 다른 말이다. 어쨋든 이야기가 옆으로 샜는데, C1을 다시 명제의 형태로 풀어 쓰자면, 


선거구 투표 숫자가 동일하게 나올 가능성은 있으나 (p(w) >0), [AND] 그런 일은 (현실에서)일어 날수 없다(w=공집합) 

 C1: p(w) >0 [AND] w=공집합


여기서의 질문, 

1) C1 명제는 참(True)인가? 거짓(False)인가?

2) C1이 거짓(False)이라고 했을 때, S1명제의 참/거짓에 어떤 영향을 미치는가?


위 질문에 대한 답은 여러분들이 직접 구해보기 바란다.


늘 그렇듯이 판단은 각자의 몫이다.

오늘은 페북에 내가 올려던 피딩으로 글을 마무리 하도록 하겠다.

[끝]











매거진의 이전글 48. 선거 부정과 동전던지기의 비유
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari