brunch

확률 다음에 통계

[책을 읽고] 데이비드 스피겔할터, <통계학 수업> (1)

by 히말

원제는 <통계학의 기술>이며, 무려 '숫자에 약한 사람들을 위한' <통계학 수업>이라는 한국어 제목은 출판사 마케팅 팀의 작품이다. 적어도 교양서 수준의 통계학 책 중에서 이 책은 최고 수준으로 어려운 책이라고 단언할 수 있다. 현직 교수인 저자는 일반인은 물론, '통계학 수업을 듣는 학생들이' 통계학을 좀 더 잘 배울 수 있게 하는 것을 이 책의 집필 목적이라 밝히고 있다. 이런 어이없는 제목으로 독자를 낚으려는 출판사들을 보면, 우리나라 사람들이 책을 안 읽는 데 기여한 일등공신은 천민 자본주의의 화신이라 할 수 있는 출판사들이라는 생각이 든다. ('숫자에 약한'이라는 문구의 뜻이 아인슈타인 식으로 숫자에 약하다는 뜻이라면 물론 말이 된다. 아인슈타인이 이 정도 책을 못 읽겠나.)



확률 먼저 배우고 통계


저자는 확률을 먼저 배우고 통계를 배우는 현재의 교육 방식이 가지는 문제점을 지적한다.


전통적으로 통계학 강의는 확률에서 시작한다. 나 또한 케임브리지에서 학생들을 가르칠 때 항상 그랬다. 그러나 이런 수학적인 시작은 통계학의 중요한 아이디어들을 이해하는 데 걸림돌이 될 수 있다. (264쪽)


생각해보자. 통계는 실존하지만 확률은 실존하지 않는다. 확률은 적어도 우리가 사는 세계의 밖에 있다. 누군가가 동전을 던지기 전에 당신에게 앞면 또는 뒷면이 나올 확률을 묻는 상황을 상상해보자. 이번에는, 그 사람이 동전을 던져 붙잡은 다음에 결과를 손바닥으로 가리면서 같은 질문을 던진다.


미묘하게 상황이 다르다. 앞의 것은 우연적 불확실성이라 부르고, 뒤의 것은 인식론적 불확실성이라 부른다. 앞의 상황에서 사건은 아직 정해지지 않았다. 반면, 두 번째 상황에서 사건은 이미 벌어졌다. 다만 당신이 모를 뿐이다. 통계란 이 경우, 즉 인식론적 불확실성이 있을 때 우리가 사용하는 도구다. 이렇게 확률과 통계는 미묘하게 다른 세계에 산다.



나는 베이즈주의자다


확률에 대한 정의는 적어도 두 가지, 즉 빈도주의적인 것과 베이즈주의적인 것이 있으며, 철학적으로 따지기 시작하면 훨씬 더 다양한 정의가 등장한다. 이 책에도 무려 다섯 가지의 정의가 등장한다.


이 책은 특히 베이즈주의에 관한 부분에서 돋보인다. 내가 요즘 읽은 통계학 책의 저자들은 대개 베이즈주의자로 추정되지만, 명시적으로 자신이 베이즈주의자라 말한 것은 이 책의 저자가 처음이다.


베이즈주의에는 사전확률이라는 것이 등장한다. 이는 어떤 사건이 일어날 가능성에 대한 주관적인 믿음의 정도다. 일견 이것은 부정확하고 부당해보이기까지 하지만 사실은 그렇지 않다.


은행 대출 금리에는 변동 금리와 고정 금리의 두 가지가 있다. 은행은 대출 고객이 이 둘 중에서 자유롭게 선택하도록 허락한다. 이게 무슨 뜻이겠는가? 0.01%의 금리에도 민감해야 할 은행의 입장에서, 이 두 가지 선택지는 무차별하다는 뜻이다. 즉, 당신에게 제시된 고정 금리는 향후 몇 년 간 대출 금리에 대해서 은행이 믿고 있는 사전확률값이다.



잡힐 듯 잡히지 않는 확률이라는 개념


동전 던지기에 관한 다음 문단을 읽어보자. <스페이스 크로니클>의 저자 닐 타이슨을 포함해서, 소위 과학자라는 사람들까지 아주 자주 혼동하는 문제에 관한 저자의 해설이다.


시행의 초기에 비율은 50 대 50과 다소 거리가 있을지 모른다. 이를테면 앞면이 연속해서 나올 수 있다. 그런 경우에 당신은 비율이 균형을 이룰 수 있도록 이제 뒷면이 나올 때가 되었다고 믿고 싶은 유혹에 빠질 수 있다. 이것은 '도박사의 오류'라고 알려져 있는데, (내 경험상) 극복하기 상당히 어려운 심리적 편견이다. 그러나 동전은 기억하지 못한다. 여기서 중요한 통찰이 나온다. 동전은 지나간 불균형을 '보상'할 수 없다. 하지만 동전 던지기의 반복이 불균형을 '제압'한다. (299쪽)


자신을 천체물리학자라 소개하는 닐 타이슨이 뻘소리를 해서 놀라기는 했지만, 사실 도박사의 오류는 도처에 널려 있다. 타율 3할인 타자가 3타수 무안타로 4번째 타석에 섰으니 이제 안타가 나올 때가 됐다는 말을 나는 거의 모든 야구 중계 방송에서 듣는다. 그러나 기억하자. 야구공이나 방망이는 앞선 3개의 타석을 기억하지 못한다.


unnamed.png 3타수 무안타니까 이번 타석은 자동 안타 ㅋㅋㅋ


keyword
매거진의 이전글둔필승총 210628