데이터, 통계, 확률의 숨막히는 서스펜스! 그 두번째 이야기.
Who is P?
그는 도대체 누구란 말인가?
여전히 사건이 미스터리로 남을려는 순간,
사건을 뒤흔들 결정적 증거가 나타났다.
데이터, 통계, 확률의
또 한번의 염통 조이는
서스팬스!
CASE#202004280856
완벽한 동전의 문제는 동전 던지기에서 출발 한다. 통계나 확률을 배우면 남녀노소 관계 없이 배우게 되는 동전던지기 문제. 보통의 동전 던지기 문제는 다음과 같은 문장으로 시작 한다. (완벽하게 Fair한 혹은 조작되지 혹은 공정한) 동전을 던졌을 때, ......
그리고, 이들이 가장 처음 접하는 질문은 이 다음의 예제를 크게 벗어나지 않는다.
(1) 완벽한 동전을 던졌을 때, 앞면이 나올 확률은 얼마인가?
(2) 조작되지 않은 동전을 100번 던졌을때, 앞면은 몇 번 정도 나올 것인가?
(3) 무작위로 고른 동전을 100번 던지기 했더니, 앞면이 40번 나왔다.
......
이즈음 되면, 한번 즈음은 이런 생각을 해봤을 것이다. 완벽한 (혹은 완벽하게 Fair한) 동전이란 무엇인가? 보통 통계나 확률을 알고 있는 이들이라면, 다음과 같은 접근을 할 것이다. Counting Problem, 즉, 해당 동전(1개) 던지기 실험을 통해 던진 횟수와 앞면이 나온 횟수를 헤아려서(Counting)하여, 확률의 정의를 이용하여 계산 하는 것이다. 이와 같은 실험을 했을 때, 동전이 앞면이 나올 확률은
P = (앞면이 나온 횟수) / (전체 횟수)
를 구하고, 이 값이 0.5에 가깝다면(혹은 동일), 해당 동전을 "공정하다(혹은 완벽하다)"라고 유추할 수 있다고 생각할 것이다. 얼핏 보면 타당한 이 방법의 가장 큰 가정은
완벽한 동전의 앞면이 나올 확률 = 0.5
라는 것을 이미 알고 있어야 한다. 하지만, 당신은 "완벽한 동전"이 무엇인지 모른다. 알고 있다고? 그럼, 내가 정식으로 질문을 하겠다.
S0: 완벽한 동전 = 동전을 던졌을 때, 앞면이 나올 확률 값이 1/2인 동전
이라고 정의 했을 때, P의 질문이다.
완벽한 동전이란 무엇인가?
혹자는 이렇게 이야기 할지도 모른다.
. 해당 동전을 던졌을 때 그 확률이 0.5인 동전
. 동일한 동전 1000개를 던졌을 때, 정확하게 500개만 앞편이 나오는 동전
. 해당 동전 100번 던졌을때, 앞면이 50나온 동전
. 해당 동전을 "무한대" 실험했을 때, 앞면의 비율이 0.5인 동전
...
근데, 위와 같이 완벽한 동전의 확인 방법은 완벽한 동전의 확률을 이미 알고 있을 때만 가능하다. 위에 언급한 모든 문장에 반드시 필요한 기준, 즉,
동전의 완벽한 확률이 0.5라는 것을 어떻게 증명할 것인가?
의 문제가 된다. 다시 한번 말하지만, 통계나 데이터를 이용해서, 완벽한 동전의 던지기 앞면이 나올 가장 "이상적인" 확률이 0.5임을 증명하는 방법은 없다. 데이터나 확률을 통해, 완벽한 동전의 확률이 0.5라고 이야기 하는 것은,
x=y식에서,
x값을 구할려면, y를 구하면 되고,
y 값을 구할려면 x를 구하면 된다.
라고 이야기하는 것과 마찬가지이다. 통계/데이터가 할 수 있는 것은 "완벽한" 동전이 존재 할 때(혹은 알고 있을 때), 완벽에 "가까운" 동전을 찾을 수 있다. 하지만, 최초의 "완벽한" 동전의 확률을 존재하게 할 수는 없다. 이는 시뮬레이션을 통한 접근 또한 "최초의" Fair한 동전의 확률이 0.5라는걸 증명할 수 없는 것은 마찬가지이다. 그리고, 실제로 "완벽한" 동전의 던지기 확률이 0.5인 증명은 실험데이터나 통계를 이용하여 그 값을 증명한게 아니다. 그렇기에 결국 동전던지기(확률계)에서 완벽한 동전을 찾아 내려면,
동전을 던지지 않고(데이터를 사용하지 않고),
"완벽한 동전"을 찾는 문제
로 귀결된다.
(1) 완벽한 동전이란 무엇인가?
Answer: 해당 동전을 던졌을 때 그 확률이 0.5인 동전
2) 그럼, 어떤 동전이 되어야, 던졌을때 그 확률이 0.5가 되는가?
둥글고, 무게가 치우치지 않으며, 평평한 땅위에 던졌을 때 앞이나 뒤가 하늘(z-direction)로 향하는 것.
3) 보다 구체적으로 (수학 용어로)
원(X), 원통(O) -- 동전은 부피가 존재
4) 하지만, 원통의 경우 앞, 뒤가 아닌 옆면으로 서는 경우가 발생 한다
원통이긴 하지만, 그 높이(h)가 아주 낮은 원통
5) "(높이가) 아주 낮은"을 정의 하기 위해서는 다음이 먼저 정의 되어야 한다.
Answer:
옆면(즉, 원통의 높이)의 길이를 h라고 하고,
특정 값 d보다 h값이 작으면 "아주 낮음"으로 한다.
이렇게 정의 하면,
h<d 이면, 아주 낮음,
h>=d 이면 아주 낮지 않음
이 된다.
이 수준까지 정해지면 (즉, 정의가 되면), 적정한 d 값은 실험을 통해 찾아야 한다. 즉, h를 결정하기 위한 적정한 값 d를 찾으려고 할 때 통계나 데이터과학이 필요하죠.
6) 데이터가 없고, 실험을 못하니까 d를 못찾는것 아니냐?
Answer: 물론, 적정한 d값은 데이터나 통계가 필요 하다. 하지만, P가 찾고자 하는 그녀는 "완벽한"동전이다. 그리고, 완벽한 동전을 찾는데 필요한 d값은 굳이 실험을 하거나 데이터를 필요로 하지 않는다.
7) 어떤 동전이 "완벽한"지 확인하려면, d값은 얼마가 되어야 하나?
Answer: d=0+
즉, 굳이 통계나 데이터를 이용하지 않아도, 그 값은 zero(0+)이다. 그녀는 "완벽" 하니까.
이렇게 d값이 정해지면,
h<= d(=0+) --> 완벽한동전
h > 0+ --> 안 완벽한 동전
와 같이 동전의 높이(h)의 값에 따라, 그 동전이 완벽한지 완벽하지 않은지를 확인 할 수가 있는 것이다.
CASE#202004280943
지금 내 페북 피딩에서는 조용해진, 부정선거 의혹에 대한 논쟁이 아직까지도 진행 중인듯 하다. 이에 대해서 내가 알고 있는 내용만 간략하게 정리 해 보았다.
대전일지 (大戰日誌)
1차전: 박영x(명지대) vs. 이경x(경희대)
2차전: 이경x(경희대) vs. 정x(와세다)
3차전: 정x(와세다) vs. 박원x(서울대)
내 페친 분들은 아시겠지만, 나는 1,2차전에 연합군(?)으로 참전 했었다. 안물안궁이겠지만, 내가 1,2차전에 참전한 이유에 대해서는 P의 비극 1편을 참고 하면 될 것같다. 이후 3차전의 내용을 잠시 언급하자면, 사실상 3차전이 거의 마무리가 될뻔 했었는데, 승기를 잡고 있던 서울대 박모 교수께서 막판에,
"미베인교수의 코드만으로 재현성 불가하여,
미베인교수 본인 외에 다른 통계/데이터 전문가들이 확인이 어렵다"
는 식의 발언(원래는 "코드가 공개되 않았다"는 내용이 포함되어 있었으나, 현재는 해당 내용이 위와 같이 수정됨)을 하면서 재점화 되는 분위기이다. 참고로, 미베인 교수의 부정선거 탐색 모델은 전체 소스코드가 GitHub에 오픈이 되어 있다. 그리고, 실제로 해당 코드를 직접 돌려본 전문가들도 꽤 있는듯 하다. 서울대 모 교수께서 아무리 말빨이 좋고, 논리적이라고 하여도, 서로의 감정선이 첨예하게 대립되어 있는 상황에서, 충분히 거짓말로 인식 되어 질만한 발언을 하셨으니 상황이 꼬여 버린 형국이다. 어쨋든, 혹시라도 3차전 현장이 궁금하신 분들도 계실듯 하여, 해당 좌표 또한 남겨두도록 하겠다. 이게 상황이 참 거시기 하긴 한데, 이번 대전들(?), 특히 1,2차 대전을 간접적으로 치루면서 내가 느낀 것 한가지는,
(특히, 자신의 논리가 맞다는 주장을 관철 시키기 위한)
"거짓말은 하지 말자"
이다. 때로는 우둔하게 보일지는 모르지만, 거짓말은 하면 안된다.
더구나, 학자라면 말이다.
덧. 3차전 진행 확인 결과, 소스는 공개가 맞으나, 예제코드가 동작하지 않는다고 해명.
덧2. [2020.05.03] 3차전의 원글이 관련 내용에 대해 오해가 없도록 명확하게 수정이 되었고, 3차전 원글자이신 박교수님께서 댓글까지 남겨주셨기에 본문 내용도 일부 수정 함.
CASE#202005041523
...사전투표 결과 "통계적"으로 이해안돼...
무려 통계를 전공 했다는, 서울대 모 교수께서 개풀 뜯어 먹는 ㅅ...
아니, 좀 이상한 소리를 하셨다 (첫번째사진; 기사 원문 좌표는 말미에 붙임). 이에 대한 갑론을박은 현재 국지전의 형태로 진행 되고 있다 (두번째, 세번째 사진).
[첫번째 사진 -- 기사원문] https://n.news.naver.com/article/023/0003528343
[두번재 사진 -- 이x교수 피딩] https://www.facebook.com/leekj007/posts/10223362976681527
[세번째사진 -- 정x교수 피딩] https://www.facebook.com/hunchung80/posts/10157269902576728
서두가 길어 졌는데, 내가 하고 싶은 말은 한가지이다. 제발, 과학적/수학적(통계학포함) 논쟁을 할 때는 정말이지 "계급장" 좀 떼고 이야기 했으면 싶다.
과학적/수학적 논리의 증명은 누가 말했느냐가 전혀 중요하지 않다.
아니, 중요해서도 안된다.
수학(통계학 포함)/과학에서의 논쟁은 "오로지" 전개한 방법론과 근거 자료가 과학적/수학적으로 맞는지로만으로 판단한다. 유명한 교수가 말하면, 맞는게 틀린게 되고, 틀린게 맞는게 되는 경우가 인문 사회 계열엔 존재할지 모르나, 과학 수학 계열에서는 그런거 안키운다.
그리고, 소위 수학(통계학포함)/과학 한다고 하는 학자가 계급장을 운운하며 자신의 논리를 증명 하는건, 정말이지 쪽팔리는 일이다. 계급장 따지며 자신의 논리를 설명할 수 밖에 없는 그런 이가 만약 한국 통계학회 회장이었다면, 한국통계학회 전체가 쪽팔릴 일이고, 그런 이가 서울대 통계학과 교수였다면, 서울대 통계학과 전체가 쪽팔릴 일이다.
물론, (선거가 조작되었다는) 믿음이나 신념을 기반으로 논쟁을 할 수는 있다. 하지만, 거기에는 과학적 내지는 수학적(통계적)이라는 말을 함부로 갖다 붙이는거 아니다. 자신의 주장을 과학적/수학적으로 증명할 수 없거나, 상대의 합리적인 주장조차 합리적 논리로 대응할 줄 모르면서 계급장만 믿고 상대의 논리는 뭉갤려고 한다면, 날샌거다.
CASE#202005041523
여러분들 알것이다. Fair한(혹은 주작되지 않은) 동전을 던졌을 때 "앞면"이 나올 확률이 0.5라는 것을. 근데, (Fair한) 동전의 확률이 0.5라는 것이 실제 동전 던지기에서는 어떤 의미 인가? 문제가 이해하기 어렵다면, 질문을 바꿔 보겠다.
(Fair한) 동전 던졌을 때, 확률이 0.5인 "앞면"이 나올 수 있는가?
확률론 기반의 확률모델(Stochastic model)을 정의 할때, 우선 정의 하는 것이 바로, sample space(Omega)이다. 그리고, 이러한 Sample Space는 일어날 수 있는 전체 사건의 전체 집합으로 나타난다. 그리고, 여기서 중요한 것, 실제 사건이 일어나는 것은 확률값(0.5)이 아니라, sample space의 element이다.
즉, "확률이 0.5인 앞면"라는 것은 실제하지 않는 사건이라는 거다. (sample space에 있는 것은 "head(앞)" 혹은 "tail(뒤)" 이것 두가지 밖에 없다.
Omega = {"Head", "Tail"}
혹은
Omega = {1 (i.e., head), 0 (i.e., tail)}).
즉, 실제 일어나는 사건은 Sample space의 element 즉, "앞면" 혹은 "뒷면"만 일어난다. 그리고, 이런 사건이 일어났다면(과거) 원래 가진 확률값은 의미가 없어진다. 바꿔 이야기하면,
이미 던진 동전이 앞면이 나왔다면,
그 확률 값은 0.5가 아니라 1이 되어 버린다
는 의미이다. (즉, P("Head") =1 & P("Tail")=0). 반대로,
"이미" 뒷면이 나왔다면, 그 때의 확률은
뒷면이 나온 확률이 1, 앞면이 나온 확률이 0이 된다
는 의미이기도 하다. (즉, P("Head") = 0 & P("Tail") = 1). 여기서의 확률값 0,1은 Sample space의 0(tail), 1(head)와는 전혀 다른 의미이니, 착오 없길 바란다.
그렇기에 확률값은 과거의 일이 되어 버리면, 의미가 없어진다.
이와 반대로 통계는 과거의 분석을 다룬다. 이게 바로, Statistics(통계이론)와 Stochastic(확률론)의 가장 근본적인 차이이기도 하다.
CASE#202005071143
미베인 교수의 모델이 맞다는 가정하에, 분석한 결과에 대해서 확률론적으로 해석하고자 한다. 우선 수학적으로 명기를 하고 설명을 하도록 하겠다 (실제 숫자는 조금 틀릴 수 있으니 양해 하시고).
Omega = {"No Fraud", "Internal Fraud", "External Fraud"}
eq.
Omega = {0, 1, 2}
pi_0 = P(0) = 0.93
pi_1 = P(1) = 0.064
pi_2 = P(2) = 0.006
미베인 교수의 분석이 의미하는 것은, 다음(즉, 미래)에 만약 지금과 같은 똑같은 조건[작가주: 똑같은 조건이라는 의미는 A를 찍어던 사람이 또 A를 찍는다는 의미가 아니라 통계적으로 100명중 40명이 A를 찍었다면, 그 다음 시도에도 100중 40명이 A를 찍는다는 의미이다(다른 사람이 다른 후보를 찍을수는 있는 통계적으로는 같다는 의미). 좀더 유식한(?)표현을 쓰자면, statistically equivalent 되시겠다.]으로 선거를 치룬다고 했을 때, (미래의) 그 선거가
공정할 가능성(pi_0)이 93%
내부조작일 가능성(pi_1)이 6.4%
외부조작일 가능성(pi_2)이 0.6%
라는 의미이다. 이전에도 이야기 했듯이, 확률은 미래에 대한 이야기이다. 다시 말해, 미베인 교수의 분석은 현재(혹은 과거)에 분석에서 얼만큼 부정이 있었느냐의 range (혹은 spectrum)을 보여주는 것이 아니라, 오직 3가지, 즉,
"공정" 하거나,
"내부조작"이거나
"외부조작"
중에 한가지가 일어날 가능성을 보여준다. 이게 뭐하고 비슷하냐 하면, 동전 던지기를 했을때, "앞면" 이나 "뒷면"중 한가지가 일어날 가능성을 보여주는 것과 같다. 하지만,
동전을 던졌을때, 앞면이 나올 확률은 0.5이지만,
이 0.5라는 값은 실제 사건에서는 나올 수 없는 값(사건)
이다 (기억하라, 동전 던지기에서 나올수 있는 값은 sample space에서 정의한 0(tail)이거나 1(head)밖에 없다) 하지만, 이 문제에 대해서 미베인 교수는 자신의 분석을 다르게 해석하고 있다. 미베인 교수의 (분석 결과에 대한) 해석은 한번의 일어난 선거에 대해서,
93% 공정( = pi_0),
7%부정( = pi_1 + pi_2)
(동시에)
라고 말한다. 근데 말이지, 이렇게 해석하는것이 뭐랑 같은거냐 하면, 이미 일어난 동전 던지기에 대해서 동전
(한개)에 대해,
50% 앞면,
50%뒷면
(동시에),
라고 주장하는 것이랑 마찬가지라는 거다. 하지만, 이전 글[CASE#202005041523]을 보신 분들은 다들 아시겠지만,
"이미 던져진" 동전에서 "50% 앞면"
이라는건 존재하지 않는다.
그냥 "앞면"이면 앞면인거고, "뒷면"이면 뒷면인 거지. 따라서, 같은 방식으로 비베인 교수의 분석 내용의 결론은
이번 선거가 " 공정 할 가능성 93%"
(혹은 "조작일 가능성 7%")
로 해석 하는게 맞다 (공정할 가능성 93%(pi_0)와 조작일 가능성 7%(pi_1+pi_2)는 사실상 같은 말이다[i.e., pi_0 = 1 - (pi_1 + pi_2)].
물론, 미베인교수의 해석은 나와 다르다. 다만, 그렇다고 내가 굳이 미베인교수의 결론에 대해서 틀렸다 이야기 하지 않는 이유는 실제 그 교수의 (분석 이후의) 해석이 맞아서가 아니라, 이 부분에 대해서 위와 같은 방식의 설명을 제대로 하려면, 확률론 전반적인 철학에 대해서 설명 해야만 하기 때문이다. 또 한가지 이유는, (그 가능성은 무척 매우 울트라캡숑 적기는 하지만) 내가 미베인교수의 분석 모델을 잘못 이해했을 수도 있다. 그렇지만, 그 보다 더 큰 이유는 귀찮다... :p
아마도, 확률론의 철학적인 내용을 건너뛰고 설명 할 수 있는 유일한 방법이 parable(은유 혹은 예제)일 것이다. 하지만, parable의 가장 큰 약점은 실제 사건(이 경우는 선거부정 의혹 혹은 미베인 교수의 분석내용)을 직접 다루지 않는다는 점이다. 그렇기에 누군가가,
"선거부정 의혹이랑 동전 던지기가 도대체 무슨관계?"
라는 식으로 따지고 들면, 사실상 나도 할 말은 없다. 그러니, 본 내용의 결론은 각자 알아서 판단하시길 바란다. 하지만, 이 주제에 있어서, 동전 던지기와 미베인 교수의 분석 결과에 대한 연결고리를 찾아 낸 사람은 내가 무슨 이야기 하는지, 왜 내 이야기가 왜 맞는지 명확하게 이해 할 것이다. 물론, 이 글을 읽은 모두가 이 글의 내용을 이해 할 필요는 없다. 하지만, 단 몇 명이라도 이 글을
수학적으로 "직접" 생각하고,
"스스로" 합리적인 결론를 도출
해 낼 수 있다면,
그걸로 족하다.
CASE#202005110459
한국 기사들이 원체 쓰레기들이라 공유할까 말까 고민을 했지만, 그래도 이 기사는 믿을 수 있지 않을까 싶어 일단은 #뇌피셜 공유. 말도 많고 탈도 많은(?) 선거감식모델 관련한 YTN의 미베인교수 단독 인터뷰 기사이다.
사실, 이에 대한 내용은 나 뿐 아니라 많은 전문가 교수분들이 언급했던 이슈들이다. 그리고, 관련 사항을 이 논란의 중심에 있는 모 교수에게도 공유 했었다.
기사의 내용이나 댓글을 보면, 앞으로 통계자료에 관련한 더 이상의 수학적/과학적 논쟁은 무의미하다. 상대가 인지한 상황에서 논쟁을 이끌어 가는건 더 이상 합리적인 논쟁이 아니라 개싸움이다. 게임끝(QED).
물론, 나머지 선거조작에 대한 논란에 대해서는 알아서 잘 파헤치길 바란다.
May the luck be with you :p ::
CASE#202004280943
등재 확정. 드디어 됐다.
논문 작성이 완료된 이후에도 1년 가까이 둥지를 찾아 헤매던 확률론 기반의 논문이 수학 분야에서는 꽤 괜찮은 저널(JCR기준 Q1)에 단독저자로 등재가 확정 되었다. 이름하여,
"A Versatile Stochastic Duel Game"
(확률기반의 쌍방 결투게임)
이로서 올해 밥값은 한 것같다.
우리나라에서는 통계나 데이터과학을 전공한 많은 이들이 통계이론과 확률이론 분야를 같은 걸로 보는 경향이 있다. 그러다 보니, 많은 이들이 확률 이론(주로 집합론의 명기를 차용함)으로 뭔가를 입증하면, 실질적인 데이터나 사실적 증거가 없거나 사용하지 않았다는 이유만으로 인정하려 하지 않는다. 심지어, 실질적인 데이터나 사실적 증거가 없이도 수학적 증명이 가능하다는 사실(Fact) 조차 무시한다. 하지만,
확률론에서는 데이터나 통계기법없이,
확률 문제에 대한 수학적 증명이 가능
하다. 그리고, 이번 논문이 바로 데이터나 통계를 사용하지 않고 수학적인 증명을 통해 확률모델을 구현한 것이다. (참고로, 확률론에서의 "모델"은 하나 혹은 몇 개의 수식을 뜻한다. 예를 들어, F=ma, E=mc^2 같은 것들이 하나의 "모델"이다) 이 논문의 핵심은 두번째 그림 상단의 수식이다. 이 논문의 등재가 확정된 이유는 저 수식 하나를 수학적으로 전개한 나의 증명이 맞았기 때문이다. 그리고, 그보다 일억오천만배 중요한 것은
확률의 정의를 기반으로 한 논리의 전개는,
그 논리 전개의 수학적인 증명이 완료 되는 순간,
그 어떤 증명 기법보다 강력하고, 깔끔하다.
확률이란 그런거다.
#나는 확률하는 사람이다.
#학자의 실력은 논문으로 말한다, 계급장이아니라.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.