brunch

You can make anything
by writing

C.S.Lewis

by 동경 Jul 14. 2020

통계적 삼단논증

귀납 논리 #4

서울 아파트 청약 경쟁률이 2020년 상반기에 99:1을 기록했다고 합니다. 아흔아홉 명 중 단 한 명만이 대박(!)을 손에 쥘 수 있었던 셈이죠. (청약 가점제를 고려하면 모든 사람이 같은 확률로 당첨되진 않겠지만) 대강 1인당 평균적으로 1/99, 그러니까 약 1.01% 정도의 확률로 당첨 기회를 노릴 수 있었겠네요. 그러니 서울 아파트 청약이 "로또"라는 말도 나오게 됩니다.

나름 열심히 저축했지만 우린 안 될거야…

그래서 사람들은 이렇게 얘기합니다.

2020년 상반기 서울 아파트 청약을 신청한 사람이 당첨될 확률은 1.01%다.
A는 2020년 상반기 서울 아파트 청약을 신청했다.
∴ A는 당첨되지 않을 것이다.

어떤가요? 슬프지만 그럴듯하죠? 실제로 이 논증은 상당히 올바릅니다. 당첨 확률이 1%를 겨우 넘는 수준인데 당첨을 기대하지 않는 게 합당하겠죠 :-(

물론 그럼에도 불구하고 당첨 확률이 0은 아니기 때문에 결론이 거짓일 가능성은 여전히 존재합니다. A가 당첨될 수도 있는 일이잖아요?

올바름에도 불구하고 결론이 거짓일 수 있다? 그렇기 때문에 이 논증은 귀납적이라고 볼 수 있겠습니다.


이 논증은

F의 x%는 G다.
a는 F다.
∴ a는 G가 아니다 (혹은 G다)

와 같은 형식을 갖습니다.


이런 논증을 통계적 삼단논증statistical syllogism이라 불러요.



통계적 삼단논증의 강약


아마도 눈치채셨겠지만 통계적 삼단논증이 올바른 정도는 x값의 크기에 따라 좌우됩니다. 위 논증의 경우엔 x값이 작으면 작을수록 논증은 더더욱 올바르겠죠. 반대로 x값이 계속해서 커지면 어느 순간엔 전제가 결론을 지지하지 않을 것이고, 그보다도 더욱 커지면 도리어 전제가 결론의 부정문을 지지하는 지경에 이르겠죠? 그때는 논증이 그르다고 말할 수 있을 겁니다.


논리학자 웨슬리 새먼Wesley C. Salmon은 올바름과 그름을 나누는 기준으로 50을 제안합니다. x값이 50 미만일 땐 논증이 올바르고, 반대로 50을 넘어서면 그르다는 거죠. (딱 50이면 전제가 결론과 결론의 부정문 중 어느 하나 지지하는 게 없다고 봐야겠죠?)

물론 여기서 "올바르다" 혹은 "그르다"는 개념은 모호하기 때문에 그 기준을 50으로 두는 데에는 이견이 있을 수도 있겠습니다.


아, 그 명칭에 "통계"가 등장하니 반드시 수치가 등장해야 할 것 같지만 꼭 그렇지는 않습니다.

F의 x%는 G다

대신

F는 대부분 G다
거의 모든 F는 G다
F 중 상당수가 G다
F가 G일 확률이 높다

를 넣어도 괜찮아요. 그저 그 올바름의 정도를 정확히 비교하기가 어려워질 뿐이죠.



A는 아마 당첨되지 않을 거야


그렇습니다. 2020년 상반기 서울 아파트 청약 당첨률이 1.01%이니까, 그 청약을 신청한 A는 아마probably 당첨되지 않을 겁니다. 결코necessarily 당첨되지 않을 거라고 생각하면 곤란하겠죠? 이건 귀납 추론이니까요.

이 지점에서 주의할 게 있습니다.


2020년 상반기 서울 아파트 청약을 신청한 사람이 당첨될 확률은 1.01%다.
A는 2020년 상반기 서울 아파트 청약을 신청했다.
∴ A는 아마 당첨되지 않을 것이다.


과연 이 논증은 귀납 논증일까요? 아니면 연역 논증일까요


연역 논증입니다.

"A가 당첨되지 않을 것"이란 말과 달리 "A가 아마 당첨되지 않을 것"이란 말은 A가 당첨될 가능성probability이 낮다는 것, 그러나 그 확률이 0이 아니라는 것을 암시합니다. 그리고 이 점은 전제들이 모두 참일 때 결코 거짓일 수 없죠.

A가 당첨되지 않으리란 결론은 거짓일 수도 있습니다. 작은 확률로나마 A가 당첨될 수도 있으니까요. 다만, A가 아마 당첨되지 않으리란 결론은 거짓일 수가 없습니다. 당첨 확률이 1%에 불과한데 떨어질 가능성이 높겠죠. 안 그렇겠어요?



시한부 선고를 받은 35세 미국인 남성


시한부 선고라는 게 의학적으로 정의된 것인지는 사실 잘 모릅니다. 그냥 논의를 위해 1년 내 사망할 확률이 90% 이상인 경우에 시한부 선고를 받는다고 해볼게요.

다른 한편으로 35세 미국인 남성이 1년 이상 생존할 확률은 어떨까요? 모르긴 몰라도 굉장히 높을 겁니다. 미국인 남성 중 35세 미만의 나이에 사망한 사람을 제외하고 남은 집단 내에서 36세가 되기 전에 사망한 사람이 차지하는 비중이 10%를 넘진 않겠죠? 일단 35세 미국인 남성이 1년 내 사망하지 않을 확률이 90% 이상이라고 가정해보죠.


그럼 이런 논증을 펼칠 수가 있을 겁니다.

시한부 선고를 받은 사람은 1년 내 사망할 확률이 90% 이상이다.
데이비드는 시한부 선고를 받았다.
∴ 데이비드는 1년 내 사망할 것이다.

이 논증은 올바른 듯 보입니다. 문제는

35세 미국인 남성이 1년 내 사망할 확률은 10% 이하다.
데이비드는 35세 미국인 남성이다.
∴ 데이비드는 1년 내 사망하지 않을 것이다.

이 논증도 올바른 듯 보인다는 거죠.


이들 논증의 전제는 모두 참입니다. 그리고 둘 다 올바른 논증이죠. 그런데 두 가지 결론은 서로 충돌해요. 둘 중 하나는 거짓일 수밖에 없어요.


직관적으로는 첫 번째 논증이 더 좋은 논증인 것 같습니다. 그걸 어떻게 가려낼 수 있을까요?

35세 미국인 남성이 굉장히 커다란 집단이란 점에 주목할 필요가 있습니다. 이 집단은 워낙 커서 그 안에는 당장 오늘 사망할 사람부터 80년을 더 살 사람까지 다양한 사람들이 포함되어 있을 겁니다. 데이비드가 이 집단에 속한다는 사실은 딱히 데이비드의 남은 수명에 대해 유용한 정보를 제공하지 않죠.

그렇지만 시한부 선고를 받은 이들의 집단은 다릅니다. 1년 내 사망할 확률이 90% 이상인 사람은 그리 흔치 않습니다. 때문에 데이비드가 이들 중 하나라는 사실은 그에게 남은 시간이 얼마인지를 추론하는 데에는 매우 중요한 정보가 되죠.

때문에 우리는 첫 번째 논증을 보다 설득력 있는 논증이라고 여기게 됩니다.


두 번째 논증처럼 데이비드의 잔여 생존 기간에 관련된 정보(=데이비드가 시한부 선고를 받았다는 사실)를 생략하는 논증을 더러 불완전 증거 오류fallacy of incomplete evidence를 범했다고 말해요.


확률론이 필요해


통계적 삼단논증을 제대로 평가하기 위해서는 확률론을 익힐 필요가 있습니다.

F의 x%는 G다.
a는 F다.
∴ a는 G다.

이 논증의 올바름을 평가하는 일이야 x값만 주어지면 그만입니다. 전제를 참이라고 가정한 후에 결론도 참일 가능성이 높은지 혹은 낮은지만 보면 되니까요.


하지만 "F의 x%가 G"라는 전제의 진위를 따지고 싶다면 그 x%라는 수치가 어떻게 나온 것인지, 그리고 제대로 계산이 된 것이 맞는지 따질 필요가 있겠죠.

이 지점에서 귀납 논리는 수학, 조금 더 좁게는 통계학과 맞닿게 됩니다.


열거법을 다룬 글에서 로또 538회에 걸쳐 샀지만 단 한 번도 1등에 당첨되지 않 사례를 잠깐 언급했었는데요.

사례가 538개로써 꽤 많으니

1번 복권도 낙첨이다.
2번 복권도 낙첨이다.
3번 복권도 낙첨이다.

538번 복권도 낙첨이다.
∴ 앞으로 사게 될 복권도 모두 낙첨일 것이다.

이렇게 주장해도 되는 걸까요?


그렇지 않습니다. 로또 1등 당첨 확률은 0.001% 정도 됩니다. 그 확률이 워낙 낮기 때문에 538장을 사더라도 그중에서 1등이 단 한 번도 나오지 않을 확률이 99.3%가 넘어요. 그러니 538번에 걸쳐 산 복권이 모두 낙첨된 건 굉장히 자연스러운(?) 일입니다.

그래서 이 문제를 열거법으로 접근해서는 곤란할 것 같습니다. 추첨 번호가 이룰 수 있는 조합의 수(=대략 815만)를 고려해서 1등 당첨 확률은 먼저 구한 다음 미래에 사게 될 복권 당첨에 대해 썰을 풀어야 하겠죠.


그게 아니라면 사례의 수를 아주아주 많이 늘리거나요. 로또를 50만 장 긁는다면 1등에 적어도 한 번 당첨될 확률은 99.8% 정도입니다. 그 많은 복권을 긁고도 1등에 단 한 번도 되지 않았다면글쎄요? 그땐 본인의 운을 의심해볼 수도 있지 않을까요? 하지만 그렇게 많은 사례는 모으기가 어려울 겁니다. 일주일에 100장을 긁어도 96년이 걸릴 테니까요. 성인이 되자마자 시작해도 115살 정도가 되어야 겨우 가능하겠네요.

이렇게 생각해볼 때 고작 538장의 낙첨 로또에 근거해서 미래에 긁게 될 복권에 대해 왈가왈부하는 건 충분하지 못한 사례에 근거한 그릇된 귀납 추론이라고도 볼 수 있겠군요!




매거진의 이전글 유사성에 근거한 논증
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari