brunch

You can make anything
by writing

C.S.Lewis

by Amang Kim Apr 27. 2020

50. P의 비극: 절망의 시대

데이터, 통계, 확률의 숨막히는 서스펜스

바야흐로 2020년 대한 민국 총선이라는 대환란 속에서, 

정치의 축복을 받으며 탄생한 데이터, 

데이터 출생의 비밀을 간직한 통계, 

이 혼돈의 카오스(?)를 해결 할수 있는 유일한 목격자 확률, 

고 쫓기는 이들의 염통 조이는 서스펜스!




















0. 비극의 시작

CASE# 202004232105

무려 서울대를 나온, 그리고, 유펜에서 박사를 한, 더구나 통계물리학을 전공하고 가르쳤던 정치꾼 입에서 나온 말이다. 통계와 물리를 정통으로 전공한 이가 이딴 식으로 거짓말을 하고 다니면, 정말이지 답이 없다.

[... 투표자의 행위를 통계적으로 해석할 때 불가능한 일이 일어난 것이다...]


수학(확률)의 정의가 사랑이냐? 변하게? 다른 정치꾼은 다 저렇게 이야기해도 한 때는 통계를 배우고 가르쳤던 과학자였던 이가 이러면 안되지, 안그래?



1. 목격자 제로(0, 0+)

CASE# 202004242212


자꾸 누군가가 0과 0+가 같다고 우기는데, 0과 0+은 수학적으로 절대 같을 수가 없다. 0은 "없음"을 의미하지만, 0+는 "있음"을 의미하기 때문이다. 특히 확률론에서의 

"있음"의 의미는 그 가능성(확률)이 아무리 작아도,
"반드시 한번"은 일어 난다

는 의미이다. 단, 언제 일어날지는 알수가 없다. 과거에 이미 일어 났기에 현재에 관찰이 가능할 수도 있고, 미래에 일어날 수 있기에 현재는 관찰할 수 없을 수도 있다. 그렇지만, "한번은 반드시"일어 난다. 그리고, 이건 확률의 정의만 정확하게 이해하고 있으면 간단하게(?) 증명가능하다.
농담하는거 같지? #미안하다#진담이다.  

통계나 확률을 전공 했다고 하면서,
이 기본철학을 이해하지 못하거나 부정하는 부류는 개쓰레기

다. 어디가서 전공했다고 하지마라. 쪽팔린다.


   확률론을 포함한 수학이론은 계급놀이가 아니다. 

   오로지 정의(definition)를 기반으로 한 수학이론적 논리의 증명으로만 판단한다.


어떤 문제에 "수학적"이라는 단어가 붙는 순간, 그리고, 그 문제의 논리가 수학이론으로 증명되는 순간, 데이터라던가, 통계라던가, 머신러닝이라던가, 코딩이라던가, 논문이라던가, 역사적 자료라던가, 말빨과 같은 그 어떤 다른 논리도 수학이론 기반의 논리를 이길수 없다.
천하무적

그러니, 수학적/확률적/통계적인 문제에 대한 이론적 증명을 할 자신이 없다면, "수학적/확률적/통계적"이라는 단어를 함부로 갖다 붙이지 마라. 양아치냐?


2. 놈. 놈. 놈

CASE# 202004250247


코딩만 하는놈, 통계(데이터과학)만 하는 놈, 수학(이론)만 하는 놈


   1. 코딩만 하는 놈: 지들이 뭘 짜는지 모름.

   2. 통계만 하는 놈: 지들이 이론적으로 뭘 모르는지 모름.

   3. 수학만 하는 놈: 지들 이론이 어떻게 적용 되는지 모름.


   4. 하수: 서로 개무시.

   5. 중수: 지 꼬라지를 앎.

   6. 고수: 서로의 고수를 인정.


3. 범죄현장: 벤다이어 호수

CASE#20204250917


보통 사람들은 확률을 이야기 할때, 120%라는 표현을 쓰는 경우가 있다. 이를 확률로 바꿔 쓰면 1.2인데, 이 표현은 확률론적으로 완전히 틀렸다.


물론, 공학/데이터를 다루다 보면 120%가 나올 때도 있다. 하지만, 확률론에서는 아니다. 그리고, 이때의 120%는 확률의 개념이 아니라, 배율(Ratio)의 개념이다. 이 둘을 많이 헷갈려 하는 이유는 확률의 단위와 배율의 단위가 같기 때문이다. 그래서, 공학(통계/데이터학 포함)을 하는 사람이 120%를 쓸 때는 그 기반을 명확하게 해야 한다. 행여, 공학/데이터/통계 하는 사람이 120%라는 표현을 쓰면서,


1. "수학적"이라는 표현을 썼다면, 틀리지는 않았다. 즉, 배율 또한 수학이론 내에서 나온 것이기에 가능하다.
2. "확률적으로"라는 표현을 썼다면, 그건 명백하게 틀리게 쓴 거다. 응. 다른거 아니다. 틀린거다. (확률의 정의에 위배)
3. "통계적으로"라는 표현을 썼다면, 그 또한 명백하게 틀린거다. 통계이론은 확률이론을 기반으로 나온 것이기 때문이다.


이걸 말로 설명하면, 무지하게 헷갈리지만, 집합의 벤다이어 그램을 이용하면 쉽게 이해가 가능하다. 보면 알겠지만, 통계이론은 확률론에 완전히 덮히는 반면에, 배율(대수학)은 확률론이 덮지 못한다.

벤다이어 호수 (벤다이어그램)

물론, 어떤 값은 배율을 의미하는 동시에, 확률을 의미하는 경우도 있다. 이 경우, 설령, 해당 값(배율인 동시의 확률값)이 실제로는 배율을 의미하더라도, 100%, 즉 1을 넘을 수 없다. "확률"이라는 의미를 부여하는 순간 말이다.

.

.

.

.

확률의 단위(Unit)은 무엇일까?

#미안하다 #진담이다#갑톡집합론 #심심해서그려봤다



4. 모방 범죄

CASE#202004260704


다음과 같은 수식이 있다고 하자.


   p0 = p2 - p3, p0 + p1 = p4  


그리고, 데이터와 시뮬레이션을 통해 다음과 같은 값을을 얻었다고 하자 (각각의 값들은 모두 true).


   1) p1=2, p2=3, p3=4, p4=1
   2) p1=0.2, p2=0.3, p3=0.1, p4=0.4
   3) p1=0.2, p2=0.3, p3=0.4, p4=0.1


수학적으로는 1-3번 모두 맞는것(true)들이다 (값들을 원래 수식에 대입해보라. 방정식을 만족한다) 이제 확률계라고 가정을 하자. 이말이 뜻하는 것은 방정식에 쓰인 각각의 값들이 확률론의 정의를 따른다는 의미이다. 예를 들자면, 확률값은 0보다 작을 수 없고, 1보다 클수 없다 (즉, 0 에서 1사이의 값을 갖는다). 이 정의를 기반으로 봤을 땐, 1번은 틀린것이 된다 (이유는 직접 생각해보시라).


진짜 문제는 2번과 3번이다. 참고로, 2번은 확률론/통계적으로 맞지만(true) 3번은 확률론/통계적으로 틀렸다(false). 다시 한번 말하지만, 3번은 통계적으로 틀렸다.


왜일까?


만약, #빅데이터 혹은 #데이터사이언스 혹은 #코딩 혹은 #머신러닝 혹은 #물리통계 혹은 #바이오통계 같은 #통계_데이터과학_비스무리한 전공을 했다고 하면서, 2번과 3번의 차이를 모른다면 어디가서 전공했다고 하지마라. #당신_공부_헛했다#미안하다#진담이다.



5. 또다른 목격자 (1, 1+, 1-)

CASE#202004270412


확률에서 확률이 0인 경우와 1경우는 아주 특별한 의미를 갖는다. 0과 1은 단순히 확률값의 의미보다는 "존재성"과 "완전성"을 의미를 가지기 때문이다. 다음의 확률 값을 보자.


   (1) 1 != 1-, 1+ (불가능)
   (2) 0.5 == 0.5- == 0.5+
   (3) 0 != 0+, 0- (불가능)
  


(1)의 의미: 완전성

확률이 1이라는 것은 "완전"하다는 의미로, 확률이 1인 사건은 무조건 반드시 무한대를 반복해도 무조건 일어난다. 과거나 현재 뿐만 아니라 "미래"에도 말이다. 확률값이 1이면 미래까지 장담한다.
그리고, 확률이 1을 살짝만 넘아가도(1+) 더이상 (수학적 의미의) 확률이라는 개념을 쓸수 없다.
반대로 1-는 "불완전"을 의미한다. 이 의미는 반드시 한번은 "일어나지 않는다"이다. 이게 무슨 말이냐하면, 확률이 1에 근접하기에 이때까지는 확실하게 일어났지만, 미래는 장담할 수 없다는 말이다. 오늘까지 일어났지만, 내일은 일어나지 "않을 수도" 있다는 의미이기도 하다.


(2)의 의미: 연속성

2번의 경우가 확률론 적으로는 맞고, (저 수식만으로는) 수학적으로는 틀린 경우 이다. 하지만, 2번 수식이 수학적으로도 맞는 경우가 존재 한다. 바로 해당 값 근방이 "연속"인 경우이다. 이런 확률의 분포가 전체적으로 연속적인 경우엔 2번 수식은 수학적으로도 확률론적으로도 맞는 수식이 되는 것이다. 만약, 확률이 연속적이 아니라면, 0.5-, 0.5+라는 확률값 자체가 존재하지 않는다. 그리고, 확률값으로 존재하는 0.5를 point mass라고 칭한다 (더 궁금해도 묻지 마라. 나도 더이상은 모른다...ㅎ)


확률분포가 연속이고, 0이나 1이 아닌 경우는 약간 차이가 나도 같다고 써도 전혀 문제가 없다. 확률의 정의 또한 위배되지도 않는다. 통계나 데이터도 약간의 차이는 "같다" 존재성에 영향을 주지 않기 때문에 수치상 동일하면 같은 확률 값이다.


(3)의 의미: 존재성

0 != 0+인 이유에 대해서는 이전 사건(CASE# 202004232105)을 참고 하시고. 간단히 말해 

0+는 "존재" 함을 의미하고, 0는 "존재하지 않음"을 의미

한다. 그리고, 확률값이 0-라는 의미는 "음수"라는 말이다. 그렇기에 확률값이 0-이 나왔다면, 더이상 확률이라는 개념을 쓸 수 없다 (불가능).


통계이론은 확률이론 위에서 만들어진 것이다. 그렇기에 위의 이야기는 통계이론에서도 동일하게 적용된다.

#신기하지#진담이다.



6. 동전 1000개, 반드시 잡는다

CASE#202004261920


본 논쟁에서의 핵심은 확률에서는

"가능성이 존재하면, 무조건 반드시 한번은 일어난다"

이게 무슨 뜻이냐 하면, Fair한 동전(조작되지 않은 동전), 1000개를 동시에 던졌을 때, 1000개가 "모두" 앞면이 나올 가능성은 굉장히 희박하지만, 최소한 "한번은 반드시"일어 난다는 거다 (참고로, 동전 1000개가 모두 앞면이 나올 가능성은 1/(2^1000)이다).

응. 직관적이지 않아. 하지만, 확률론에서는 진실(True)임. 위의 문장이 "확률론"을 구성하는 한 요소니까.


다만, 이게 받아들이기 힘든 이유는 

한번은 일어나는데, 언제 일어날지는 아무도 모른다

는 점 때문이다. 그게 이미 일어나서 현재 확인 가능할 수도 있지만, 미래에 일어나서 지금은 현재는 확인이 안될 수도 있거든. 중요한 것은, 

현재까지 관찰 되지 않았다고 없어지는 것(공집합)이 아니라는 거다.

(가능성(확률값)이 "존재" 하니까).


확률론은 아주 매력적인 학문이긴 하지만, 하다보면 겸손해 진다. 어디가 인간의 영역인지, 어디가 신의 영역이 어렴풋이 병아리 눈물만큼은 보이거든. 정말이지 언제 일어날지는 신만이 아심. 가능성이 존재(수학적인 증명을 통해) 한다면 말이다 (사건이 일어나지 않는 경우는 그 가능성이 0인 경우만 해당).

지금의 숫자조합이 지금 이번 선거에 일어났다고 해서, 그것"만"으로는 이상할게 없다는 의미이다. 가능성이 존재한다면, 반드시 일어난다 (실제로는 한번보다 훨씬 많다). 그렇다고, 조작이 되지 않았다는 의미가 아니니까 오해하지는 마시라. 정확하게는 "알수 없다"라는 표현이 맞다. 그리고, 현재의 데이터만으로는

그 데이터가 아무리 꾸리하게 보여도, "알수 없다"이상의 결론은 낼수 없다."

는 것이 사실(Fact)일 뿐이고.



7. QED by P

CASE# 202004270902



8.  

CASE# 000000000000


공감이라는 감정쏠림이 국가시스템을 집어 삼킨 나라. 

수학적진실과 역사적사실조차 감정쏠림으로 덮어버리는 나라,


국민감정이 절대권력인 나라. 공감 몰이로 개인의 감정을 생매장 시키는 나라,


질문을 할 줄 모르면서, 문제 풀 줄만 아는 나라. 질문을 모르는데, 문제 잘 푼다고 정신승리 하는 나라,


"공감"은 작가를 과학자 만들고, "감동"은 연예인을 수학자 만들고, 

"감격"은 양아치를 현자로 만드는 나라,


내집단은 무조건 맞고, 당신집단은 무조건 틀린 나라. 그게 합리적이라며 정신승리 하는 나라,


정치꾼은 과학자 코스프레하고, 과학자는 정치꾼 코스프레 하는 나라,


수학적사고를 수학참고서로 땜방하고, 과학적사고를 과학교양서로 땜빵 하는 나라,


수학적 "증명"보다 수학전문가의 "계급장"을 일억오천만배 신뢰하는 나라,


당연한게 당연한게 아니고, 당연하지 아니한게 당연한 나라,


절대적으로 틀린 것을 다르다고 믿는 나라. 상대적으로 다른 것을 틀리다고 믿는 나라,


거짓이라도 공감을 얻으면 진실이 되고, 진실이라도 공감을 잃으면 거짓이 되는 나라,


감성은 인간적이라며 광적으로 열광하는 나라. 이성은 비인간적이라며 병적으로 무시하는 나라,


#대한민국. 

#절망이다.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Who is P?


매거진의 이전글 49. 과연 총선은 조작 되었을까?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari