총선, 선거, 동전던지기, 그리고, 확률론
아는 분들은 아시겠지만, 어제 우파적인 성향을 가진 모 페친분의 페북 피딩이 난리가 났었다. 이번 총선에 관련한 시뮬레이션(Simulation)모델을 소개했다.
근데, 이 글 때문에 난리가 났었고, 지금도 논쟁이 한창이다. 원 글을 쓰신 교수님께서 원채 유능하시고, 내공이 있으신 분이니 잘 헤쳐 나가시리라 생각한다. 하지만, 아이러니 하게도 이 페친분의 논쟁들은 내가 글을 전개 해나가는데는 무척 유용하다. 오늘은 제 페친분께는 송구하지만, 위의 내용을 가지고 내가 해왔던 여러가지 이야기를 풀어 보고자 한다.
이 글을 시작하기전에 몇가지 일러둘 말이 있다. 이 글의 처음 부분은 내가 지금 유튜브로 강연중인 AES(Abstract mathematical Epistemology)중에서 과학적인 논리에 관한 내용이다. 그렇다고, AES내용을 모른다고 해서, 글을 읽는데는 크게 지장은 없다. 링크를 걸어놓았으니, 나중에 찬찬히 확인 하길 바란다. 하지만, 이글의 절반이 넘는 나머지의 내용은 무려 "고등학교" 수준의 확률을 필요로 한다. 그렇기에, 이 글을 읽기 위해서는 최소한,
1. 확률, 그중에 이항확률(Binomial Random Valiable)에 대한 이해를 하고 있을 것.
2. 늘 그렇듯이, AES의 기본이 되는 집합과 명제, 그중에 조건부 명제에 대한 이해를 하고 있을 것.
정도의 능력이 필요하다. 이 두가지는 이 글을 읽으면서 과학적사고를 하는데 기본이 되는 내용이다. 역사적(Histrocial)으로 이해하라는 말이 아니니까, 절대 오해는 없으시길 바란다. 추가로, 몇가지 일러둘 이야기들이 있다.
3. 이 글을 끝까지 읽고도 "동전던지기랑 선거부정이랑 무슨상관?"이라고 생각 한다면, 이 글을 제대로 읽지 않았거나, 제대로 읽고 싶지 않은 것이다.
4. 그러니, 더 이상의 논쟁은 무의미하다. 왜 논쟁이 무의미 한지는 나중에 별도 강의를 하도록 하겠다 (물론, 당신들은 듣지 않겠지만)
5. 이 글은 "과학적 사고"에 대한 글이다. 참고로, 많은 이들이 "(과학의 내용에 대한) 역사적(Historical)사고"를 과학적 사고로 착각하는 경향이 있다. 역사적 사고는 고증(Evidence)이고, 과학적 사고는 (수학적) 증명(Proof)이다. 그러니, 필자는 여러분이 글을 읽으면서 "과학적사고"를 하길 바란다.
6. 참고로, "전문가의 의견"은 얼핏 과학적인 사고를 대변하는 것같지만, 전형적인 "역사적사고" 방식이다. 많은 분들이 선거의 부정(으로 생각되는) 자료를 가지고 증거로 언급하는데, 이 또한 "역사적 증거"이다.
7. 이 글을 읽기 위해 필요한 것은 위에 언급한 최소한의 지식(1, 2)과, 과학적 사고를 하고자 하는 본인의 의지이다.
위의 내용을 동의 한다면, 이 글을 찬찬히 읽어 나가길 바란다.
이 부분은 짧게 언급 하겠다. 위의 교수 증명(Proof)하고자 하는 것은 주어진 명제(Proposition)가 사실(True)가 아님(False 혹은 Unknown)을 증명하는 방법론(Proof of Proof Method)이다. 과학적 증명에 대한 자세한 이야기는 링크를 참조 하기 바란다[링크참조]. 어쨋든, 여기서의 명제는,
S0: 이번 총선이 부정이다
라는 명제라는 명제가 참(True)이라고 인식하는 것에 대하여, "참이 아님"을 증명하고자 하는 전형적인 예이다. AES가 생소할테니, 결론만 짧게 말하면, 참인 명제의 거짓을 증명하는 것은 해당 명제가 참인 것을 증명하는 것보다 상대적으로 쉽다[링크참조]. 거짓(False)이 되는 상황을 하나만 증명하면 된다. 그리고, 그 때 가장 먼저 확인 하는 것이 바로,
"증명방법의 증명(Proof of Proof Method)"
이다. 그리고, 이런 거짓의 증명 방법의 증명 방법 중에 Simulation의 택했다는 것이고. Simulation이 가지는 가장 큰 장점은 모든 데이터를 순정성(Purity)검증할 필요가 없다는 점이다. 사용하는 "모든" 데이터의 순정성(Purity)를 검증해야 하는 일반적인 데이터분석과는 달리, 시뮬레이션 모델에서는 시뮬레이션에 필요한 parameter에 대한 순정성만 확인하면 된다. 위의 글에 언급한 253개의 선거구, 180여개의 선거구 등 시뮬레이션에 필요한 숫자만 맞는지 확인 하면 된다. 그 외의 데이터 순정성에 대해서는 자유롭다.
위의 교수 의견에 반대하는 댓글들의 상당수가 부정선거로 보이는 숫자의 조합 내지는 부정의 증거로 보이는 활동 등을 언급하면서 위의 시뮬레이션 모델이 거짓(False)라는 것을 증명하려고 하는데, 애석하지만, 번지수가 틀렸다. 즉, 그런 자료들이 선거 부정의 증거는 될 수도 있으나, 위의 시뮬레이션 모델에 오류가 있는지(False)는 증명하지는 못한다. 이와 같이 증명의 증명(Proof of Proof Method)에 대한 문제에 대해서 증거의 증명(Proof of Evidence)를 들이미는 것이 전형적인 거짓말이다[링크참조]. 아, 그렇다고 댓글에 제시된 증거(Evidence)들이 틀렸다는 의미가 아니다. 상관이 없다는 의미이다.
예를 들자면, 누군가가 "여름에 아이스크림 판매가 증가하니까, 상어떼가 출몰해서 사람들이 많이 다치는 겁니다."라고 주장하는 것과 비슷하다고 보면 된다. 여름에 아스크림 판매가 증가하는 것도 사실(True)이고, (여름에) 상어떼가 출몰해서 사람이 다치는 것또한 사실(True)이다. 하지만, 이 둘이 저와 같은 인과관계로 엮여 버린 명제는 거짓말(False)이 된다.
100개의 Fair한 동전을 던진다고 가정 해보자. 여기서 Fair한 동전이란, 앞이 나올 확률이 0.5인 동전(p=0.5)을 말한다. 이런 100개의 동전을 던졌는데, 60개가 앞면이 나왔다고 하자. 그리고는, 누군가가 이런 주장을 했다.
동전이 Fair하다면서, 20%나 차이가 난다는 것은 말이 안된다. 정말 Fair했다면, 50개가 나와야 정상이고, 오차가 나더라도 52~54개 정도 나올 수는 있을 것이다. 그런데, 20%나 차이가 난다고? 이건 말이 안된다. 명백한 조작(즉, p = 0.6)이다!
여러분의 생각은 어떤가? 과연 이 동전은 조작이 된 것일까? 여기 문제의 핵심은 실질적인 p값이 얼마일 것인가? 에 대한 문제이다. 이항확률(수학적인 의미의)을 가지고 과학적인 사고를 한다면, 다음 질문에 대답 해보라.
(1) 실제로 동전이 Fair (p=0.5)하다고 했을 때, 50개가 앞면이 나올 확률은 얼마인가?
(2) 실제로 동전이 Fair (p=0.5)하다고 했을 때, 60개가 앞면이 나올 확률은 얼마인가?
(3) 실제로 동전이 Bias (p=0.6)하다고 했을 때, 50개가 앞면이 나올 확률은 얼마인가?
(4) 실제로 동전이 Bais (p=0.6)하다고 했을 때, 60개가 앞면이 나올 확률은 얼마인가?
만약, 100개의 동전이 아닌, 10,000개로 같은 실험을 했다고 하자.
(5) 실제로 동전이 Fair (p=0.5)하다고 했을 때, 5,000개가 앞면이 나올 확률은 얼마인가?
(6) 실제로 동전이 Fair (p=0.5)하다고 했을 때, 6,000개가 앞면이 나올 확률은 얼마인가?
(7) 실제로 동전이 Bias (p=0.6)하다고 했을 때, 5,000개가 앞면이 나올 확률은 얼마인가?
(8) 실제로 동전이 Bais (p=0.6)하다고 했을 때, 6,000개가 앞면이 나올 확률은 얼마인가?
얼핏 생각하기에는 동전이 Fair하면(p=0.5), np근방(100번의 경우 50)의 값이 나올 가능성이 "월등히" 높다고 생각하기 쉽지만 사실은 그렇지 않다 (믿어지지 않는다면, 위의 문제를 직접 풀어보라). 그리고, 특히 모집단이 크면 클수록(n의 값이 커짐), 특정 포인트가 나올 가능성은 0에 가깝다 (그게 동전이 Fair하건 Bias하건 관계없이 말이다). 이건은 확률에서 이야기하는
Probability Distribution Function (PDF),
Probability Mass Function (PMF)
의 관계만 이해하고 있더라도 쉽게 파악이 가능하다. 참고로, 최초 언급된 시뮬레이션에서의 난수(Randome Value) 발생은 Normal Distribution을 기반으로 한다. 이 글을 읽는 이들 가운데는 CLT(Central Limit Theorem)를 들어본적이 있을 것이다. 즉, 모집단이 증가하면 증가 할 수록, 특정 포인트에 대한 확률값은 0에 근접한다.
물론, 위의 실험을 했을 때 실제로 Bias(p=0.6)가 된 동전일 수도 있다. 하지만, 위의 결과만 가지고 동전자체가 Fair한지 Bias한지를 확인 할 방법은 사실상 불가능 하다. 하지만, 확실한 것은,
위의 결과 만으로 동전이 Bais되었다는 증거는 어디에도 없다
는 점이다.
확률이라는 것이 굉장히 특이하기에 직관과는 반대되는 결과를 주는 경우가 많다. 위의 질문들((1)~(8))에 대한 실제 값들은 본인들이 직접 구해 보기 바란다. 이항확률(Bionomial Random Variables)에 대한 이해가 있다면, 답을 구하는 것은 그리 어렵지 않을 것이다.
여기서는 위의 교수의 댓글에 올라온 질문들과 이 글을 읽고 생길만한 질문들에 대한 답변을 하는 Q&A시간을 갖도록 하겠다.
1) 그래서, 위의 동전 던지기에 대한 필자의 생각은?
위에도 언급했지만, 확률이라는 것은 직관과는 반대되는 결과를 주기도 한다. 그리고, 위의 상황에서는 동전이 조작되었을 가능성 보다는 동전은 Fair하지만, "어쩌다보니" 그렇게 나온 것으로 보는게 더 타당하다고 생각 한다. 물론, 누군가가 "그럼, 동전이 조작될 가능성도 있는것 아니냐?"라고 묻는다면, 그또한 "있다"일 것이다. 하지만, 그것을 증명하는 것은 그전의 명제가 거짓임을 증명하는 것보다 훨씬 더 어렵다.
2) 왜 동전던지기인가?
여러분들이 과학적인 사고를 하면서 여기까지 글을 읽었다면, 대부분은 내가 왜 선거부정에 대해서 동전던지기를 비유 했는지 감이 잡혔을 것이리라. 동전던지기는 가장 쉬운 예제인 동시에 약간의 지식만으로도 확률의 오묘함을 그나마 직관적으로 보여 줄 수 있는 비유이다. 확률을 배워 본 분들은 알 것이다. 확률을 배우면서 가장 처음에 배우는 예제. 주사위와 동전.
3) 선거가 조작 되었을 가능성이 있는가?
물론, 있다. 다만 확인(증명)하기가 어려울 뿐. 왜 있는지, 왜 확인하지 어려운지는 동전의 비유를 참고 하기 바란다.
4) (숫자만으로) 선거가 조작 되었을 가능성은 높은가?
높지는 않다. 주어진 "숫자만"으로 선거가 조작되었다고 판단 할수는 없고, 숫자만 가지고는 조작되지 않았을 가능성이 훨씬 높다. 동전의 예에서도 언급했지만, 모집단이 커질수록 특정 포인트로 확률이 수렴할 가능성은 더 낫아진다.
5) 위의 교수는 "부정선거는 없다"라고 확정적으로 이야기 했으니, 잘못 이야기 한거 아니냐?
굳이 따지자면, 확정적으로 이야기한 것은 잘못일 것이다. 근데, 이 부분에 대해서는 논쟁에 대한 이해가 필요하다. 예를 들자면 이런거다.
당신이 누군가와 A, B 선택에 대한 문제로 논쟁을 한다고 가정해보라. 그리고, 그 누군가는 A가 답이라고 주장하고 있다. 당신은 "A가 답이 아님"을 주장 해야 하는 상황이다.
이런 상황에서 A가 답이 아닌 상황을 설명하다보면, 자연스럽게 B가 답인 것과 같은 상황으로 논쟁이 흘러가게 된다. 이번 경우도 마찬가지이다. 위의 교수가, 그리고 내가 주장하고 싶은 것은 "부정선거(A)는 아니다"라는 것을 증명 하고자 하는 것이지, "올바른선거(B)이다"라는 것을 증명하려는 것이 아니다.
물론, 수학적 명제에서는 A가 참이 아니면, A가 거짓이지만, 현실세계에 대해서는 반드시 그렇지 않다. 하지만, 주장을 전개해 가다보면, A가 참이 아닌 것을 증명하는 과정에서 B가 참인듯한 이야기를 하게 되는게 어쩌면 당연할지도 모른다.
6) 결국은 부정선거일수도 있다는건데 이런식으로 부정선거가 없다고 이야기하는건, 내부총질하는게 아니냐?
"내가 가장 싫어하는 말 가운데 가장 싫어하는 말들 가운데 하나는 "끝이 좋으면 다 좋다." 내지는 "모로가도 서울만 가면 된다."이다.
물론, 선거가 조작 되었을 가능성도 있다. 하지만, 그렇다고 해서 수학적/과학적 개연성이 부족한 근거를 들고와서 조작의 "증명"이라고 이야기하는 것은 명백한 거짓말(lie)이다. 그리고, 아닌건 아닌거다. 아닌걸 아니라고 이야기한 것에 대해서 내부총질이라고 주장하는 것이야 말로, 감정쏠림이 심한 좌빨들이나 하는 주장이다. 오른쪽 이들에게는 미안 하지만, 만약 선거부정이 맞다면, 다른 증거를 찾아야 한다.
안그래도 주말에 이와 관련한 동영상을 찍었었고, 오늘 방영이 될 예정이었는데, 아니나 다를까 이렇게 판을 깔아 준다... :p 내가 하고 싶은 이야기는 동영상으로 만들어 놨으니 참고 하기 바란다.
그리고, 추가로 몇마디만 붙인다. 위 교수 글에 대한 댓글들을 보면 증명의 증명(시뮬레이션)에 대한 논쟁을 하기보다는 해당 교수에게 자질이나 지식수준에 대해서 이러쿵 저러쿵 하는데, 그런 부류들은 주장 자체의 타당성 보다는 자신이 선호하는 감정에 따라 인식을 하는 사람들이다. 증명방법의 증명으로 논쟁을 시작했으면, 제발 주제(Objective)를 옮겨 다니지 말기 바란다 (이 또한 AES관점에서는 거짓말의 한 종류이다[링크참조]). 그런 식의 발언을 하는 이들은 논쟁의 기본조차 되어 있지 않는 사람이다. 내가 몇 일 전에 적었던 글을 걸어 둘테니 참고 바란다.
또하나, 최근 소위 현정부를 옹호하는 왼쪽 성향의 너님들 글들을 보니까, 그렇게 추앙(?)하던 김xx을 같이 까면서, 자신들은 마치 상식적인 것처럼 이야기하더라. 위의 교수 글을 인용까지 하면서 나름데로의 논리로 정신승리 하고 있던데, 제발 정신차려라. 지금 너님들이 이런 상황이 보이는 이유는 너님들이 오른쪽 사람들보다 상식이 더 있고, 이성적이라서 그런게 아니라, 단지, 서 있는 위치가 바뀌었을 뿐[링크참조]이기 때문이다. 너님들이 정말로 "상식적이고 이성적"이라고 이야기를 하려면, 그 당시, "2017년"에 김xx와 문xx에게 "대선은 조작이 아닙니다"라는 말이 너님쪽에서 나왔어야 한다고. 입장이 바뀌면 사람들은 대부분 이성적이 되고, 대부분 객관적이 되지. 자신의 위치가 바뀌었 을때나 혹은 진실이 자신이 선호하는 방향과 일치 했을 때는 대부분의 사람들은 "오~ 그렇지. 나는 참 합리적이고 이성적이야" 하게 되는 거고. 너님들이 2020년에 객관적인 관점에 이야기 할 수 있는건, 너님들이 이성적이고 합리적이서가 아니라, 너님들이 자신의 위치(혹은 시선)에 따라, 사실(김xx의 개소리에 동조했다는)조차 왜곡하면서 판단할 만큼 감정적이고, 몰상식하기 때문인 거라고.
만약, 2017년에 너님쪽에서 누군가 "대선은 조작이 아닙니다. 박근혜 대통령 당선이 민심입니다"라는 이야기를 지금과 같은 근거와 증명들을 가지고 주장 했다면 어떻게 되었을까? 아마, 그때 그런 이야기를 한 사람은 매장 되었을 꺼다. 2020년에, 총선에 이런 이야기가 나온게 그나마 오른쪽이니, 이런 논쟁이 가능하고 다수가 아닌 사람들도 자기 목소리를 내는거라고. 그러니까, 제발 정신 차려라.
물론, 이 글을 읽고 내 의견에 동의를 할 수도, 반대를 할 수도 있을 것이다.
혹시라도 내 의견에 반대하고 논쟁의 의지가 불끈 한다면, 그냥 마음속에 품고 있어라.
귀찮으니까.
늘 그렇듯이, 판단은 각자의 몫이다.
[끝]