우리는 흔히 통계에 대해 잘못된 해석을 내리곤 한다.
운전 중 신호대기를 하다가 어쩌다 앞 차의 자동차 번호판 숫자 4자리를 보았다. 그런데 그 숫자 4자리가 여자친구 전화번호 뒷자리와 같았다. 나는 너무나도 놀라웠다. 왜냐하면,
자동차 번호판 번호와 전화번호 뒷자리는 4자리 이므로, 이 때의 확률은 1/10000이다. 약 1만일(30년) 마다 한 번 일어날 법한 일이 일어났다. 정말 행운이 아닐 수 없다.
지난 주, 로또 판매점 한 곳에서 자동으로 로또를 산 2명이 동시에 당첨됐다. 로또 판매점이 국내에 어마어마하게 많은데, 이게 말이 되는가? 로또는 역시 조작임에 틀림없다.
주사위를 던졌다. 주사위 분포는 다음과 같이 나왔다. 큰 수의 법칙에 따라 주사위를 굴리면 굴릴수록 주사위의 숫자 확률은 1/6로 동일해질 것이다. 그러므로 나는 내 돈을 숫자 5가 나오는 데에 배팅하는 것이 합리적일 것이다.
출처: https://konahn.tistory.com/entry/Dice3D
-------------------------------------------------------------------------------------------------------------
우리는 필수교육과정에서 통계 과목을 배운다. 통계는 정말 너무나도 중요하다. 물리학, 화학, 사회학, 범죄학, 공학 등 온 세상을 지배하는 세상의 원리라고 해도 과언이 아니다. 이 뿐만 아니라 통계 과목이 우리 교육과정에서 필수인 것은 세상을 대하는 우리의 직관을 기르는 데에 매우 중요하기 때문이다.
그러나 우리나라의 통계 교육에서 하나 아쉬운 것이 있다면, 통계 자료를 해석하는 데에 통계의 해석법이나 이에 대한 시사점을 제시해 주지는 않는다는 것이다. 우리는 통계에 대한 해석법을 세상에 경험을 쌓으면서 스스로 배워야 되는데, 아쉽게도 세상의 경험은 통계의 속성을 모든 사람에게 이해시켜 주지 않는다. 나이 드신 분들도 통계에 대한 직관이 좋지 않을 수 있다.
위의 1), 2), 3) 의 경우를 해석해 보자.
30년 만에 한 번 일어날 법한 일이 일어났다. 정말 놀라운 일일까?
그렇지 않다. 왜냐하면 앞 차의 번호가 내 생일이거나 내 여자친구의 생일, 통장 비밀번호 4자리 와 동일하더라도 놀랐을 것이다. 적어도 내가 인지하고 있는 4자리 번호는 30가지가 넘을 것이다.
나오면 놀랄만한 번호 예시:
- 0000, 1111, 2222, ... ,9999, 1234, 2345, 3456
- 내 전화번호 앞자리와 뒷자리
- 나와 여자친구 생일, 자식, 부모님 생일과 년도
- 통장 비밀번호 4자리
- 집 비밀번호 4자리 등
등등
나타났을 때 놀랄만한 번호가 30가지라고 했을 때, 30가지/10000일 -> 1/ 300일
즉, 대략 1년 정도에 한번 놀랄만한 번호가 나올 것이다.
이 통계의 핵심은 30년만에 한번 일어날만한 놀라운 일이 일어난 것이 아니라, 1년마다 한 번 놀랄만한 일이 일어난 것 뿐이다.
자동 1등 두 명이 한 곳에서 나올 확률은 얼마일까?
전국 로또 판매점 개수는 5000개가 조금 넘는다고 한다. 그리고 로또는 지금까지 약 1162 회를 진행하였다. 현재 로또 1등 당첨자는 총 9449명 이며, 1회당 1등 당첨자가 약 9명 정도 나온다. 또한 로또 1등 당첨자 중 자동 비율은 60% 이다.
대충 계산하더라도(계산과정 생략하곘다), 자동 1등 두 명이상이 한 곳에서 나올 확률은 1/1000 이 넘는다.
즉, 현재까지 1162회 진행하였으므로, 이런 상황이 한번은 넘게 나올만 하다.
결론적으로 이 상황은 통계적으로 충분히 납득될 수 있는 상황이다.
* 단, 조심해야할 것이 있다. 통계적으로 납득할만 하다고 해서 조작 가능성이 없다는 것을 피력하진 않는다는 것이다. (랜덤으로 숫자를 잘 뽑으면서 조작을 할 수도 있기 때문)
큰 수의 법칙에 따라, 주사위를 10000번 수행하면 수행할수록 다음과 같은 그래프처럼 균일한 분포가 된다.
이전의 그래프를 다시 보자.
어떤가? 분명 숫자 5의 그래프가 올라올 테니 당연히 5에 배팅하는 것이 맞지 않을까?
결론을 말하자면 전혀 그렇지 않다.
숫자 3이 나온 횟수와 5가 나온 횟수를 보자.
숫자 3은 처음에 8번 나왔고, 5는 4번 나왔다.
즉 두 숫자가 나온 횟수 차이는 8-4 = 4 이다. 이 차이 4 때문에 그래프의 모양이 들쑥날쑥 하다.
주사위를 많이 수행했을 때는 어떻게 됐을까?
위 파란색 막대그래프에서는, 숫자 3은 약 1750 회를, 숫자 5는 1700회를 기록했다.
10000번까지 더 던지는 동안, 숫자 3은 1742번 더 나왔고, 숫자 5는 1696 번 더 나왔다.
우리 큰수의 법칙 대로 숫자 5의 막대그래프가 쑥 올라온 것이 맞다. 하지만 숫자 5는 숫자 3보다 46번 덜 나왔다. 오히려 숫자 3이 더 많이 나왔던 것이다. 즉, 5에 배팅한 나의 전략은 먹히지 않았다는 것이다.
* 큰수의 법칙에 따라 주사위 그래프는 1/6으로 거의 비슷해진다. 하지만 그것이 앞으로 숫자 5가 더 많이 나올것을 말해주진 않는다. (오히려 주사위가 균등하지 않을 가능성도 있으니, 숫자가 많이 나왔던 3에 베팅하는 것이 현실적 베팅방법일 수 있다.)
------------------------------------------------------------
잘못된 통계적 직관을 가진 사람들이 생각보다 많이 보여서 다루고 싶었던 주제였는데, 이번에 또 로또에 대한 논란이 생겨 이번 기회에 다루어 보았다. 방금 소개한 케이스 외에도, 표본의 오류 등 통계를 잘못 해석하는 다양한 사례가 있는데 기회가 된다면 다음에 소개하겠다.
통계는 항상 의도성을 가지고 해석될 수 있고, 이는 어렵지 않다. 반면에 반박에 대한 진입장벽은 높다.
설문조사, 로또 통계, 정부 성과 발표(정권 상관없이) 등 통계자료에 대한 해석을 모두 믿지 말자.