brunch

You can make anything
by writing

C.S.Lewis

by 버킷랩 Aug 27. 2018

통계로 착각을 부수자

통계적으로 생각하기, 유리 브람

1.
안녕하세요, 버킷랩입니다. 오늘 소개해드릴 책은 ‘유리 브람’의 ‘통계적으로 생각하기’입니다.


2.
이 책은 버킷랩에서 운영하는 독서모임 한주한권에서 서른번째로 함께 읽는 책입니다. 서른번째 책을 준비하는 시점에서 구독자가 300명이 되었네요. 영상을 봐주시는 분들 모두 감사합니다. 이로써 총 8,349(+128)페이지째 함께 읽게 되었네요.

이번 책은 가벼운 내용이지만 ‘통계학’이라는 것을 다루는 만큼 제가 부정확하게 이해한 부분이 있을 지 걱정이 됩니다. 혹시라도 제가 잘못 이해하고 있는 부분이 있다면 댓글로 알려주세요. 저에게도, 이 영상을 보시는 다른 분들께도 큰 도움이 될 거에요! 

3.
[통계적으로 생각하는 것]이 어떻게 일상과 연관될 수 있을까요? 가령 이런 일들에 도움이 됩니다.

예를 들어 여러분이 휴대폰을 바꿔야할 때 매장직원이 석달 간 비싼 요금제를 사용하면 휴대폰 할부금이 더 싸진다는 제안을 할 때, 단순히 직원분의 말을 신뢰하기 보다는 실제로 그분의 제안과 원래 내가 사고하자는 구매조건을 비교하는 것도 일종의 통계적 사고라고 볼 수 있습니다.

두 개 이상의 비교군을 실제 숫자로 비교하여 더 나은 의사결정을 하게 만들기 때문입니다. 책의 저자 유리 브람은 정보가 많아도 너무 많은 현 시대에 사는 사람들이 통계적으로 사고하는 것을 연습하면 수많은 옵션 안에서 피로할 때 도움이 될 거라고 말합니다.

4.
그리고 우리가 통계적으로 사고하는 것을 도와주기 위해 통계학에서 중요한 3가지 소재를 제시하고 있습니다. [선택편향, 내생성, 베이즈정리]가 그것인데요. 이 3가지만 머릿 속에 염두해두고 있어도 이를 알지 못하고 있는 사람들보다 보다 훨씬 논리적이고, 훨씬 현실적으로 사고할 수 있을 거라 확신합니다.

5. 선택편향
첫번째 주제인 선택편향selection bias이란, 비무작위 표본을 마치 무작위 표본인 것처럼 생각하고 사용할 때 발생하는 오류를 뜻합니다. 쉽게 말하자면 확률을 구하기 위해서 모은 자료들이 랜덤하다고 착각하는 것인데요. 우리가 일상에서 매우 자주 착각하는 유형이기도 합니다.

예를 들어 여러분이 자두를 사러 갔다고 생각해볼까요? 과일가게 매대에는 자두가 많이 쌓여있네요. 수 많은 자두 중에서 대충 두, 세개를 골라보니 매우 신선합니다. 우리는 많은 자두 중에서 3개만 확인했지만, 3개 모두가 신선하다는 걸 통해서 나머지 자두들도 신선하다고 예측합니다.

그런데 만약 이렇게 표본이 되는 자두를 가게 주인이 골라줬다면 어떨까요? 소비자처럼 무작위로 골랐을 수도 있지만, 장사를 하시는 입장에서 더 좋은 상품을 표본으로 보여줬을 가능성도 있습니다. 만약 그랬다면 '이 매장에 있는 자두는 신선하다'는 예측을 하기 위해서 표본이 된 자두들에는 가게 주인의 ‘작위성’이 들어가고 그렇기 때문에 이 예측은 신뢰도가 매우 떨어지게 되는 것이죠.

6. 내생성
두번째 주제인 내생성endogeneity은 통계학을 잘 모르는 사람들이 이해하기도 설명하기도 난감한 내용입니다. 아마도 내생성을 유발하는 원인의 종류는 아주 많겠지만, 책에서는 우리에게 보다 쉽게 설명해주기 위해서 ‘누락변수편향’을 집중적으로 이야기하고 있습니다.

6-1.
자 어려운 단어들이 많이 나오고 있지만 아직 포기하지 마시고, 책에서 제시한 사례를 통해 조금 더 쉽게 이해해보겠습니다. 대학생에게는 ‘평균학점’이라는 것이 있습니다. 자신이 지금까지 받은 성적의 평균을 낸 수치로 취업을 할때 가장 기본적으로 그 사람에 대해 판단하는 기준이 되는 것인데요. 일반적으로 평균학점이 높을 수록 그 학생이 성실하며, 공부도 잘 한다고 판단하죠. 이를 공식으로 나타내보면 아래와 같이 나타낼 수가 있겠네요.

평균학점 = X(노력) + Y(학업능력)

6-2.
그런데 아무리 성실한 학생이더라도 가끔씩 개인사정으로 결석을 한다던지, 시험을 제대로 치루지 못할 수 있습니다. 이런 경우가 학점에도 조금은 영향을 미쳤을 테니 우리는 이런 미미한 점들을 공식에 반영하여 아래처럼 수정해보겠습니다.

평균학점 + E(오차) = X(노력) + Y(학업능력) 

얼추 정확한 식이라고 볼 수 있을까요? 아닙니다. 여기에는 아주 중요한 변수가 빠져있기 때문입니다. ‘학점 자체가 잘 나오는 수업’의 존재가 반영되어 있지 않다는 점입니다. 만약 모든 학생들이 동일한 교수에게 동일한 수업을 들었다면 위의 공식은 맞을 지도 모르겠습니다. 하지만 모든 학생들은 동일한 수업을 듣지 않고 언제나 더 점수가 잘 나오는, 편한 수업을 듣기 위해 열심히 수강신청을 합니다.

6-2
평균학점을 구성하는데에 ‘점수가 잘 나오는 수업을 들었는가’는 상당히 큰 영향을 미치는데 위의 공식에서는 이것이 E(오차)라는 것에 뭉뚱그려 내포되어 있습니다. 상당히 중요한 변수를 놓친 셈이죠. 이렇게 중요한 변수가 누락된 것을 ‘누락 변수 편향’이라고 말하고 ‘오차’가 아닌 것을 ‘오차’의 영역에 놓음으로써 치명적인 내생성이 생기게 되었습니다.

7. 베이즈 정리
마지막 주제인 베이즈 정리Bayes' theorem는 이전에 리뷰했던 ‘누가 내 생각을 움직이는가’라는 책에서 살짝 맛본 적이 있습니다. 그 때 들었던 사례와 비슷한 사례를 다시 한번 들어볼까요?

안타까운 상상을 한번 해보겠습니다. 암에 걸릴 확률은 단 1%밖에 되지 않는데, 여러분의 건강검진 결과에서 암 양성 판정이 나왔습니다. 의사는 어두운 표정으로 이 검사의 정확도가 90%라고 말하네요. 자, 그럼 여러분은 90%라는 높은 확률로 암에 걸렸다고 생각해야할까요?

7-1.
통계적으로 사고하는 일은 우리의 걱정을 덜어줍니다. 위의 사례를 베이즈 정리를 통해서 천천히 계산해보겠습니다. 이를 위해서 전세계 인구가 1000명이라고 가정하겠습니다. 표를 함께 봐볼까요? ( 페이지 하단 [표 1] )


전세계 인구 중에서 실제로 암에 걸릴 확률은 1% 임으로 1000명 중 10명 만이 실제로 암 환자입니다. 990명은 암에 걸리지 않는군요.

7-2.
이 사람들에게 위의 암검사를 한다면 어떤 결과가 나올까요? 암에 걸린 10명에게 이 암검사를 실시하면 90%의 확률로 정확하게 진단하니, 9명은 암이라는 양성판정이, 1명은 암이 아니라는 판정을 받을 것입니다.

7-3.
암에 걸리지 않은 사람에게 암검사를 하면 마찬가지의 과정을 거쳐 891명은 정확하게 암이 아니라고 진단하고, 나머지 99명은 암이라고 오판을 내립니다.

7-4.
우리가 알고 싶은 것은 [양성판정이 나온 내가 실제로 암일 확률]입니다. 그러면 전체 양성판정을 받은 101명 중에서 실제로 암인 9명의 비율을 계산해보면 되겠네요. 우리가 실제로 암에 걸렸을 확률은 9÷101 = 0.083, 즉 8.3% 입니다. 정말 다행이죠?

이렇게 통계적으로 생각해보면 무지에서 오는 불안을 크게 줄일 수 있습니다.

8.
오늘은 조금 길게 책에 나오는 전체 주제를 다뤄보았는데요. 선택 편향, 내생성, 베이즈 정리 모두 여러분들이 일상 생활을 하면서 조금 더 나은 쪽으로, 조금 더 편안한 쪽으로 의사결정을 하는데에 큰 도움이 될거라고 생각합니다. 통계가 사람들과 가까워졌으면 하는 귀여운 통계학자의 애정이 듬뿍 담긴 책, [유리 브람]의 [통계적으로 생각하기] 였습니다.


[표 1]




작가의 이전글 그럼에도 불구하고 처음처럼
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari