증거 앞에 줄어드는 불확실성
[♪ 밝은 음악]
이지은: 안녕하세요, '안개 속을 걷다'의 이지은입니다! 오늘도 불확실성과 친해지는 시간, 함께해요!
어제 정말 재미있는 경험을 했어요. 친구들이랑 카페에서 수다를 떨고 있었는데, 창밖을 보니 건너편에 새 가게가 하나 생겨 있는 거예요. 옆면에 커다란 환풍기가 달려 있고 사람들이 계속 드나드는 걸 보니 음식점이나 카페인 건 확실한데, 간판이 안 보이니 정확히 어떤 곳인지 알 수가 없었거든요. 그래서 자연스럽게 추리 게임이 시작됐어요. "저기 뭐가 들어왔을까?"
처음엔 "한식집, 중식집, 일식집, 파스타집, 카페 중 하나니까 각각 20%씩이야"라고 시작했는데, 앉아서 지켜보니 단서가 하나씩 보이는 거예요. 단체 손님이 우르르 들어가는 걸 보니 카페일 확률은 확 떨어지고 한식집이나 중식집의 확률이 올라갔어요. 거기에 배달 오토바이까지 자주 드나드는 걸 보니 중식집의 확률이 또 뛰더라고요. 그런데 재미있는 건, 확률이 올라갈 때 모두 똑같이 올라간 게 아니라 가설마다 다르게 변한다는 거였어요!
[띠링!]
바로 이게 오늘 이야기할 '사후 확률'의 핵심이에요. 새로운 증거를 얻었을 때, 각 가능성에 대한 믿음이 어떻게 함께 달라지는지. 그리고 왜 가설마다 확률이 다르게 변하는지!
한 청취자분이 이런 사연을 보내주셨어요. "지은님, 저희 팀에 신입사원이 왔는데 일을 정말 잘해요. 처음엔 '운이 좋았나?', '선배가 도와줬나?', '진짜 실력인가?' 여러 가능성을 비슷하게 열어두고 있었는데, 지켜보니 실력 있는 친구라고 확신이 들더라고요. 이것도 베이지안 추론인가요?"
네, 맞아요! 오늘은 새로운 증거를 만났을 때 우리 믿음의 지형이 어떻게 바뀌는지, 그 안에 숨은 법칙을 알아볼 거예요. 같이 시작해 볼까요?
지난 시간에 여러분은 베이즈 정리를 통해 사전 확률을 데이터 지지도와 결합해 사후 확률을 계산하는 법을 배웠습니다. 하지만 베이지안 추론의 핵심은 개별 숫자의 변화가 아니라, 전체 가설 공간에서 확률 분포가 어떻게 변하는지에 있습니다.
이미 친숙한 케이크 예시로 시작해 보죠. 다음은 Ep.9에서 사용했던 케이크 데이터 모델입니다.
버터의 양에 대한 초기 믿음(사전 확률)이 이렇다고 해볼까요. 50g일 확률 20%, 150g일 확률 70%, 250g일 확률 10%. 당연히 합계는 100%입니다. 이제 케이크를 먹어보니 촉촉함의 세 단계 중 '더 촉촉'에 해당하는 거예요. 이 증거는 버터가 많다는 가설을 더 강하게 지지하겠죠. 세 가설의 데이터 지지도는 각각 5점, 10점, 80점. 베이즈 정리를 적용하면 사후 확률은 50g이 6%, 150g이 44%, 250g이 50%가 됩니다. 합계는 여전히 100%고요. (계산 과정이 이해되지 않는 분들은 지난 에피소드(Ep.10)를 복습하세요.)
250g의 확률이 10%에서 50%로 크게 올라갔는데, 이 40%의 증가분은 어디서 온 걸까요? 바로 다른 가설들이 내준 겁니다. 50g은 14%를 내주고, 150g은 26%를 내줬죠. 마치 시소처럼, 한쪽이 올라가면 다른 쪽은 내려가야 합니다.
이것이 바로 확률의 시소 원리입니다. 확률의 총합은 항상 100%여야 하므로, 어떤 가설의 확률이 올라가면 다른 가설들의 확률 합은 반드시 내려가야 해요. 그렇다고 나머지 가설들이 모두 내려가는 건 아닙니다. 어떤 가설은 크게 내려가고, 어떤 가설은 오히려 올라갈 수도 있죠. 하나의 가능성이 제거되거나 크게 감소하면, 그 확률은 나머지 가설들에게 재분배됩니다. 다만 균등하게 나눠 갖는 게 아니라, 증거에 의한 지지가 높은 가설일수록, 그리고 원래부터 확률이 높았던 가설일수록 더 많이 가져가죠. (여기서 우리는 세 가설이 상호배타적이고 완전하다고 가정하고 있습니다. 이 전제 하에서만 시소 원리가 작동합니다.)
셜록 홈즈는 이렇게 말했죠. "불가능한 것을 모두 제거하고 나면, 아무리 믿기 어려워도 남은 것이 진실이다."[1] 베이지안 관점에서도 비슷한 원리가 작동합니다! 어떤 가설들의 확률이 0에 가까워지면, 남은 확률은 자연스럽게 다른 가설들에게 재분배됩니다.
이런 현상은 어디서나 볼 수 있습니다. 범죄 수사에서 용의자 한 명의 알리바이가 확인되면, 그 사람이 범인일 확률이 떨어지고 나머지 용의자들의 확률이 올라갑니다. 질병 진단에서도 특정 질병이 배제되면, 다른 질병들의 가능성이 상대적으로 높아지죠. 일상에서도 마찬가지입니다. 친구에게서 갑자기 전화가 왔을 때, 목소리가 어두우면 '무슨 일이 생겼나' 확률이 올라가고 '그냥 안부 전화겠거니' 확률은 내려가죠.
증거를 얻을수록 불확실성은 어떻게 변할까요?
불확실성을 이해하려면 먼저 확률 분포의 형태를 살펴봐야 합니다. 케이크 예시를 조금 다르게 시작해 봅시다. 이번에는 사전 확률 분포가 50g이 20%, 150g이 50%, 250g이 30%라고 해보죠. 이전보다 더 평평한 분포입니다. 150g 가설이 제일 그럴듯하다고 믿고 있지만 그럼에도 '잘 모르겠다'는 상태죠.
이제 케이크를 먹어보니 '촉촉하다'는 증거를 얻었습니다. 각 가설의 데이터 지지도가 15점, 80점, 15점이라면, 베이즈 정리를 적용한 후 사후 확률은 약 6%, 84%, 9%가 됩니다. 분포가 훨씬 뾰족해졌어요! 150g에 확률이 집중되면서 불확실성이 크게 감소한 겁니다.
여기서 흥미로운 점은 사후 확률 분포가 사전 확률과 데이터 지지도가 힘을 합친 결과라는 겁니다. 이 예시에서는 사전 확률도 150g을 가장 높게 보고, 데이터 지지도도 150g을 가장 강하게 지지합니다. 둘이 같은 방향을 가리키니, 사후 분포는 어느 쪽보다도 더 뾰족해져요.
반대로 사전 확률과 데이터 지지도가 서로 다른 가설을 지지한다면 어떨까요? 앞의 첫 번째 예시가 바로 이런 경우였습니다. 사전 확률은 150g 가설(70%)을, 데이터 지지도는 250g 가설(80점)을 지지했죠. 줄다리기의 결과, 사후 분포(6%, 44%, 50%)는 오히려 사전 분포보다 평평해졌습니다. 일시적으로 불확실성이 커진 거예요. 하지만 케이크를 한 숟가락씩 더 먹어볼 때마다 '더 촉촉하다'는 증거가 쌓이면, 250g 가설의 확률은 점점 올라가고 분포는 다시 뾰족해집니다. 데이터가 많을수록 데이터 지지도 쪽으로 끌려가는 거죠.
데이터가 결국 주도권을 잡는다면, 처음부터 넓게 퍼진 사전 분포로 시작하는 건 어떨까요? 모든 가설에 비슷한 확률을 부여하는 '평평한' 분포로 시작한다면, 이는 '데이터로 하여금 말하게 하라'는 철학을 담고 있습니다. 특정 가설에 대한 편견 없이, 증거가 이끄는 대로 따라가겠다는 열린 자세죠.
그렇다면 불확실성을 어떻게 측정할까요? 이를 이해하려면 먼저 놀람(surprisal)이라는 개념에서 시작해 봅시다.
확률이 낮은 일이 일어나면 우리는 놀랍니다. 비 올 확률 10%인 날 비가 오면 놀라지만, 90%인 날 비가 오면 당연하게 여기죠. 정보이론에서는 이 직관을 놀람이라는 개념으로 포착합니다. (수학적으로는 확률의 역수에 로그를 취한 값으로 정의됩니다. 확률이 작을수록 역수는 커지고, 로그를 취해도 그 관계는 유지되니, '일어나기 어려운 일일수록 놀람이 크다'는 직관을 정확히 포착하는 셈이죠.)
놀람은 개별 사건에 적용되는 개념입니다. 그렇다면 확률 분포 전체의 불확실성은 어떻게 측정할까요? 여기서 엔트로피(entropy)가 등장합니다. 엔트로피는 가능한 모든 결과에 대한 놀람의 평균입니다. 평평한 분포에서는 어떤 결과가 나와도 어느 정도 놀랍기 때문에 평균 놀람이 높습니다. 반면 뾰족한 분포에서는 대부분의 확률이 한 곳에 몰려 있으니, 예상대로 되는 경우가 많아 평균 놀람이 낮죠.
케이크 예시로 돌아가면, 사전 분포(20%, 50%, 30%)는 상대적으로 평평해 불확실성(엔트로피)이 높았지만, 사후 분포(6%, 84%, 9%)는 매우 뾰족해 불확실성(엔트로피)이 크게 감소했습니다. 이것이 일반적인 패턴입니다. 유용한 증거를 얻으면 대부분 불확실성이 감소합니다.
하지만 모든 증거가 같은 정도로 불확실성을 줄이는 건 아닙니다. 예를 들어, '설탕이 많이 들어갔다'는 증거보다 '버터 냄새가 진하다'는 증거가 버터 양에 대한 불확실성을 더 크게 줄일 겁니다. 불확실성이 크게 줄어드는 경우는, 증거의 데이터 지지도가 특정 가설에 대해서는 매우 높고 나머지에 대해서는 매우 낮을 때입니다.
불확실성이 계속 감소하면 어떻게 될까요? 유용한 증거를 얻을 때마다 분포는 점점 더 뾰족해지고, 특정 가설에 대한 확신은 점점 강해집니다. 이것이 바로 학습의 과정입니다. 신입사원이 들어왔을 때 실력을 판단하기 어렵지만, 여러 프로젝트를 함께 거치며 그 사람의 역량이 점점 분명해지는 것처럼요. 물론 앞에서 보았듯이 사전 믿음과 모순되는 데이터가 나타나거나, 신입사원이 무난한 보고서를 하나 냈을 때처럼 실력이 있어도 없어도 나올 수 있는 애매한 증거를 만나면 일시적으로 불확실성이 커질 수 있습니다. 하지만 유용한 증거가 계속 쌓이면 대체로 불확실성은 감소하는 방향으로 나아갑니다.
사후 확률을 해석할 때는 몇 가지 함정을 조심해야 합니다.
첫째, 확증 편향의 함정입니다. 원하는 가설의 확률만 보고 '봐, 올라갔잖아!'라고 하지만, 다른 가설이 더 많이 올라갔을 수도 있어요. 예를 들어 '우리 아이는 수학 영재야'라고 믿고 싶은 부모가 있다고 해봅시다. 아이가 시험에서 90점을 받으니 '영재다'라는 가설이 20%에서 35%로 올라갔네요! 하지만 '열심히 공부했다'라는 가설은 30%에서 60%로 더 많이 올라갔을 수도 있습니다. (나머지 가능성들은 줄어들었겠죠.) 전체 그림을 보는 것이 중요해요.
둘째, 절대적 사고의 함정입니다. '이제 90%나 되니까 확실해!'라고 생각하기 쉽지만, 10%의 가능성도 무시할 수 없죠. 날씨 예보가 '비 올 확률 90%'라도 우산 안 가져가면 10%의 경우에 낭패를 볼 수 있죠. 90%도 여전히 불확실성을 담고 있습니다.
셋째, 고정된 가설 공간의 함정입니다. 때로는 여러분이 고려하지 않은 가설이 진짜 답일지 모릅니다. 케이크가 촉촉한 이유를 버터의 양으로만 설명하려 했는데, 사실은 특별한 시럽을 발랐을 수도 있습니다. 모델 자체가 틀렸을 가능성을 항상 염두에 둬야 합니다.
그렇다면 사후 확률을 일상에서 어떻게 활용할 수 있을까요?
의사결정 기준으로 사용할 수 있습니다. 모든 가설의 사후 확률을 비교해서 가장 높은 것을 선택하는 게 기본입니다. 하지만 두 번째로 높은 가설도 무시할 수 없을 만큼 높다면, 추가 정보를 구하는 게 현명해요. 1위 가설이 45%, 2위 가설이 40%라면 아직 결정하기엔 이릅니다.
불확실성의 척도로 활용할 수 있습니다. 모든 가설의 사후 확률이 비슷하다면 불확실성이 크고, 특정 가설 하나에 확률이 몰려 있다면 불확실성이 낮다고 볼 수 있죠. 이를 통해 "더 알아봐야 할까, 아니면 지금 결정해도 될까?"를 판단할 수 있습니다.
소통의 도구로 활용할 수 있습니다. "제 판단으로는 A가 70%, B가 20%, C가 10% 정도 됩니다"라고 말하면, 단순히 "A인 것 같아요"라고 말하는 것보다 훨씬 풍부한 정보를 전달합니다. 여러분의 확신 정도와 다른 가능성까지 한 번에 보여주는 거죠.
마지막으로, 확률적 사고를 머릿속에서 시각화하는 방법을 소개하겠습니다. 복잡한 상황을 단순하게 이해하는 데 도움이 됩니다.
산의 지형을 떠올려보세요. 수평선을 따라 가능한 답들이 펼쳐져 있고, 지형의 높이가 그 답에 대한 믿음의 강도입니다. 처음엔 지형이 완만해서 어디가 높은지 분간이 안 되지만, 증거를 얻을수록 한 지점이 솟아오르고 나머지는 가라앉습니다. 결국 뾰족한 봉우리 하나가 남죠.
물의 비유도 유용합니다. 전체 확률 100%를 물 한 컵 분량이라고 생각하세요. 이 물이 여러 잔에 나눠 담겨 있는데, 증거가 나타나면 물이 한 잔에서 다른 잔으로 흘러갑니다. 총량은 변하지 않지만 분배가 바뀌는 거죠.
이런 시각화를 통해 복잡한 확률 계산을 직관적으로 이해할 수 있습니다. 처음엔 어색하겠지만, 연습하다 보면 '아, 지금 내 믿음의 지형이 이렇게 바뀌고 있구나'를 느낄 수 있을 거예요.
사후 확률은 끝이 아니라 새로운 시작입니다. 오늘의 사후 확률은 내일의 사전 확률이 되죠. [2,3] 여러분은 매일 조금씩 더 정확한 이해를 향해 나아갈 수 있습니다. 과학자들이 이론을 계속 수정해 나가듯, 여러분도 일상에서 끊임없이 믿음을 갱신합니다. 이게 바로 열린 마음으로 살아가는 것이고, 지혜가 쌓이는 과정입니다.
[♪ 차분한 음악]
이지은: 어떠셨나요? 새로운 증거는 특정 가설 하나에 대한 믿음만 바꾸는 게 아니라, 전체 믿음의 지형을 바꾸는 거였네요! 바로 '시소 원리' 때문이에요. 한 가설에 대한 믿음이 커지면 나머지에 대한 믿음의 합은 줄어들어야 하는 법칙! 처음엔 미미했던 가설도 증거가 쌓이면 1등이 될 수 있다니, 진실에 다가갈 수 있다는 뜻이기도 하죠.
셜록 홈즈처럼 불가능한 것들을 하나씩 제거해가다 보면, 결국 진실이 드러난다는 것. 정말 멋지지 않나요?
[띠링!]
오늘의 미션! '믿음의 시소게임' 해보기!
원인이 궁금한 일 하나를 정하고:
가능한 원인(가설) 3-4개를 나열하기
각각에 확률(사전 확률) 부여하기 (합 = 100%)
새로운 정보를 얻을 때마다 확률(사후 확률) 재조정하기
어떤 가설의 확률이 올라가고 내려가는지 관찰하기
예시: "왜 친구가 연락이 없을까?"
다른 일로 바쁨 (40%)
나에게 화남 (30%)
핸드폰 분실 (20%)
기타(내가 떠올리지 못하는 어떤 이유) (10%)
만약 친구의 SNS 활동을 확인했다면 '핸드폰 분실'일 확률은 급감, '바쁨' 확률도 감소, '나에게 화남' 확률은 증가하겠죠.
다음 시간에는 정보를 하나씩 차례로 처리하며 믿음을 갱신(조정)해나가는 '순차적 갱신'에 대해 알아볼 거예요. 첫 번째 정보를 처리해 믿음을 조정한 뒤 두 번째 정보가 들어오면, 처음부터 다시 계산해야 할까요, 아니면 조정된 믿음에서 이어가면 될까요? 만약 정보를 받는 순서가 바뀌면 최종 결론도 달라질까요? 순서에 상관없이 같은 결론에 도달할 수 있다면, 정보가 올 때마다 그때그때 믿음을 조정해 나가기만 하면 되는 거예요. 정말 실용적이지 않나요?
오늘 어떤 가능성이 줄어들었다면, 그건 실패가 아니라 다른 가능성이 선명해졌다는 뜻이에요. 확률의 시소가 움직일 때마다, 우리는 진실에 한 발짝 더 가까워지고 있는 겁니다. 저는 이지은이었습니다.
[♪ 밝은 음악]
참고문헌
Doyle, A. C. (1890). The Sign of the Four. Spencer Blackett.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian data analysis (3rd ed.). CRC Press.
Kruschke, J. (2014). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan (2nd ed.). Academic Press.