Ep.12 한 번에 하나씩, 순서는 상관없어!

증거를 따라가면 모두 같은 곳

by 배지안

[♪ 밝은 음악]


이지은: 안녕하세요, '안개 속을 걷다'의 이지은입니다! 오늘도 불확실성과 친해지는 시간, 함께해요!


어제 갑자기 문자 메시지가 왔어요. 오래전에 연락이 끊긴 대학 동창한테서요. "지은아, 잘 지내? 갑자기 생각나서..." 처음엔 '오랜만에 반갑네' 생각했죠 (순수한 안부 인사일 확률 60%). 그런데 두 번째 메시지가 "요즘 뭐 하고 지내?"... 음, 뭔가 의도가 있나? (확률 50%로 하락) 세 번째, "혹시 시간 되면 만날 수 있을까?"... 이제 좀 의심스러워요 (40%로 하락). 네 번째, "사실 너한테 소개하고 싶은 사업이..."... 아하! (5%로 급락) [웃음]


[띠링!]


보셨나요? '순수한 안부 인사'라는 가설이 어떻게 점점 힘을 잃고 사라져 가는지! 오늘 우리는 두 가지 주제를 살펴볼 거예요. 첫째, 정보를 하나씩 처리하면서 어떻게 믿음을 순차적으로 업데이트하는가? 둘째, 그 과정에서 잘못된 가설은 어떻게 자연스럽게 사라지는가?


자, 그럼 시작해 볼까요!




우리는 보통 정보를 한꺼번에 받지 않습니다. 아침에 일기예보를 보고, 점심에 하늘을 올려다보고, 퇴근길에 구름이 몰려오는 것을 보면서 비 올 확률을 계속 조정하죠. 이처럼 새로운 정보를 접할 때마다 (베이즈 정리를 적용하여) 믿음을 조정하는 것을 순차적 베이지안 업데이트(sequential Bayesian updating)라고 합니다. 통계학에서는 흔히 '베이지안 갱신'이라 번역하죠. 핵심은 간단해요. 현재의 사후 확률이 미래의 사전 확률이 된다는 것[1,2].


새로 오픈한 카페를 평가하는 과정을 예로 들어볼까요? 첫날, 정보가 없으니 '좋은 카페일 확률 50%'로 시작합니다. 세련된 인테리어를 보고 믿음이 60%로 상승했어요. 둘째 날, 60%에서 시작해서 커피를 마셔보니 쓴 맛이 강해서 35%로 하락했습니다. 셋째 날, 35%에서 시작해서 불친절한 직원을 경험하고 10%로 떨어졌죠. '좋은 카페'라는 가설이 점점 힘을 잃어가는 과정이 보이시나요?


여기서 한 가지 짚을 것이 있습니다. 정보를 처리하는 순서를 바꿔도 최종 결과는 똑같다는 겁니다[1,3]. 위 예시에서 순서를 완전히 뒤집어도 - 서비스 → 커피 맛 → 인테리어 순으로 정보를 처리해도 - 최종 확률은 여전히 10%가 됩니다.


이건 수학적으로 증명된 사실입니다. 왜 그럴까요? Ep.10에서 살펴본 것처럼, 증거들이 독립적이라면 여러 증거의 데이터 지지도는 개별 데이터 지지도의 곱과 같습니다. 그리고 곱셈은 순서와 상관없이 같은 결과를 내죠. 2 × 3 × 4 = 4 × 2 × 3 = 24인 것처럼요. 어느 길로 가든 같은 곳에 도착합니다.


이게 왜 중요할까요? 기다릴 필요가 없다는 겁니다! 모든 정보가 모일 때까지 판단을 미룰 필요가 없어요. 지금 가진 정보로 최선의 판단을 하고, 새로운 정보가 들어오면 업데이트하면 됩니다.


주식 트레이더를 생각해 보세요. 아침에 경제 지표를 보고 특정 종목에 대한 전망을 세웁니다. 점심에 기업 공시가 나오면 즉시 믿음을 조정하고, 오후에 업계 뉴스가 터지면 또 업데이트합니다. 하루 종일 기다렸다가 한꺼번에 처리한 트레이더와 순차적으로 업데이트한 트레이더의 최종 판단은 같습니다. 하지만 후자는 그 과정에서 더 나은 실시간 의사결정을 할 수 있었겠죠.


Ep.10에서 다룬 학원 사례를 다시 살펴봅시다. 그때는 "선생님이 무서워"와 "친구들도 싫어해"라는 두 증거를 동시에 처리했습니다. 이번엔 순차적으로 처리해 볼까요?



표에서 핵심은 첫 번째 업데이트의 사후 확률(23%, 77%)이 그대로 두 번째 업데이트의 사전 확률이 된다는 점입니다. 바로 앞에서 말한 원리 — 현재의 사후 확률이 미래의 사전 확률이 된다 — 가 작동하는 거죠.


Ep.10에서 두 증거를 동시에 처리했을 때도 정확히 같은 결과였습니다! 순서를 바꿔서 "친구들도 싫어해"를 먼저 듣고 "선생님이 무서워"를 나중에 들어도 역시 같은 결과가 나옵니다.


물론 이론과 달리 실제로는 심리적 편향이 작용할 수 있습니다. 첫인상이 강하게 남는 닻내림 효과(anchoring effect)[4]가 대표적입니다. 처음 받은 정보에 과도하게 영향을 받아, 나중 정보를 충분히 반영하지 못하는 거죠.


반대로 최신성 편향(recency bias)[5]도 있습니다. 가장 최근에 받은 정보를 과대평가하는 경향이죠. 관리자가 연간 인사 평가에서 최근 몇 달의 성과에 치우치는 것이 대표적입니다.


이런 편향을 어떻게 극복할까요? 막연한 느낌이 아닌 구체적인 확률로 기록하는 것이 도움이 됩니다[6]. '좀 의심스러워'가 아니라 '60%에서 40%로 떨어졌어'라고 기록하면, 나중에 더 객관적으로 판단할 수 있어요.


감정적 반응이 강한 정보를 받았다면 시간을 두고 판단하는 것도 중요합니다[7,8]. '이 정보가 반대 순서로 왔다면?'이라고 자신에게 물어보는 것도 좋은 방법입니다[5].


순서 편향 외에 확증 편향(confirmation bias)도 순차적 업데이트를 방해합니다[9]. 자신의 기존 믿음을 지지하는 정보만 선택적으로 받아들이는 경향이죠. 확증 편향을 극복하려면 의도적으로 반대 증거를 찾아보세요. '내 가설이 틀렸다면 어떤 증거가 나타날까?'를 생각하고, 그런 증거가 있는지 적극적으로 탐색하는 겁니다. 과학자들이 자신의 이론을 반증하려 노력하는 것과 같은 태도죠.


순차적 업데이트의 또 다른 매력은 잘못된 가설이 자연스럽게 도태된다는 점입니다. 의식적으로 '이 가설은 틀렸어!'라고 버리지 않아도, 증거가 쌓이면서 현실을 설명할 수 없는 가설의 확률은 점점 낮아지게 됩니다.


여기서 셜록 홈즈의 추리와 베이지안 추론의 중요한 차이가 드러납니다. 홈즈는 종종 "이것은 불가능하다"라고 단언하며 특정 가설(용의자)을 완전히 배제합니다. 즉, 그 가설의 확률을 순식간에 0%로 만드는 거죠. 하지만 베이지안 추론에서는 보통 점진적으로 확률이 감소합니다. 60%에서 30%, 10%, 1%로 줄어들지만, 완전히 0%가 되는 경우는 없습니다.


왜 이런 차이가 있을까요? 홈즈는 특정 가설의 데이터 지지도를 0점으로 봅니다. '왼손잡이만 가능한 범행'이라는 증거가 있다면, 오른손잡이 용의자들의 데이터 지지도는 0점이 됩니다. 사전 확률에 0을 곱하면 결과도 0이니, 사후 확률도 자동으로 0%가 되죠. 하지만 현실에서는 '왼손잡이만 가능'이라고 100% 확신하기 어렵습니다. 범행 흔적 분석이 틀렸을 수도 있고, 우리가 미처 생각하지 못한 가능성이 있을 수도 있으니까요.


카페 예시를 다시 봅시다. 커피의 쓴 맛이 강하다는 것은 '좋은 카페'를 부정하는 증거가 아닙니다. 다만 '좋은 카페'보다 '평범한 카페'나 '나쁜 카페'를 더 강하게 지지하는 증거일 뿐이죠. 불친절한 서비스도 마찬가지입니다. 확률의 총합은 항상 100%이기 때문에 다른 가설들의 확률이 올라가면, '좋은 카페'의 확률은 그만큼 줄어듭니다. 이렇게 50%에서 시작한 믿음이 10%까지 떨어지는 거죠.


충분한 데이터가 쌓이면, 처음 믿음이 현실과 달랐더라도 결국 현실에 가까워집니다[1,3]. 통계학에서는 이를 '사전 확률의 소멸'이라고 부릅니다. 처음에 '좋은 카페'를 90% 믿었든 10% 믿었든, 커피를 충분히 마셔보면 비슷한 결론에 도달하게 되죠. 이로부터 자연스럽게 따라오는 결론이 있습니다. 서로 다른 사전 믿음을 가진 두 사람도, 같은 증거를 충분히 접하면 결국 같은 결론에 도달한다는 것입니다. 단, 이 수렴이 가능하려면 처음부터 어떤 가능성도 완전히 배제하지 않아야 합니다 — 바로 뒤에서 다룰 크롬웰의 법칙이 이 조건을 말합니다.


자신의 가설이 틀렸다는 걸 받아들이기가 항상 쉽지만은 않습니다. 감정적 애착이 있는 믿음일수록 더 그렇죠. '우리 아이는 수학 영재야'라고 믿었는데 계속 낮은 점수가 나온다거나, '이 투자는 반드시 성공할 거야'라고 확신했는데 지속적인 손실을 보거나. 하지만 베이지안 접근법에 따르면 이러한 변화는 개인적 실패가 아닌 자연스러운 학습의 결과입니다. 틀린 건 여러분이 아니라 가설이에요!


과학의 역사도 집단 수준에서 진행된 순차적 베이지안 업데이트로 읽어볼 수 있습니다. 천동설에서 지동설로, 뉴턴 역학에서 상대성 이론으로. 쿤은 이런 전환을 '과학 혁명'이라 불렀습니다[10]. 베이지안 관점에서 보면, 이 혁명도 결국 증거에 의한 점진적 업데이트의 결과입니다. 기존 패러다임이 새로운 관측을 설명하지 못할 때마다, 그 패러다임에 대한 믿음(확률)이 조금씩 줄어들고, 어느 순간 대안적 패러다임이 더 큰 믿음(확률)을 받게 되는 거죠.


다만 주의할 점이 있습니다. 베이즈 정리를 다시 떠올려보세요. 사후 확률은 사전 확률과 데이터 지지도의 곱에 비례합니다. 만약 어떤 가설의 사전 확률이 0%라면? 아무리 강한 증거가 나와도 0 × 데이터 지지도 = 0이죠. 그에 따라 사후 확률도 0%가 되며, 이는 다시 새로운 증거를 처리하기 위한 사전 확률이 됩니다. 결국 어떤 가설에 대한 강한 증거를 반복적으로 관찰했음에도 그 가설에 대한 믿음은 0%에 머무는 거죠.


반대로 어떤 가설에 대한 사전 믿음이 100%라면? 다른 모든 가설의 사전 확률이 0%이므로, 새로운 증거를 아무리 많이 봐도 믿음은 전혀 변하지 않습니다.


이런 이유로 어떤 가설에도 0%나 100%의 사전 확률을 부여해서는 안 됩니다. 이 원칙을 크롬웰의 법칙(Cromwell's Rule)이라고 합니다[11,12]. 17세기 영국의 정치가 올리버 크롬웰이 스코틀랜드 교회에 보낸 편지에 이렇게 썼다고 하죠: "나는 그리스도의 자비로 간청하노니, 당신이 틀릴 수도 있다는 가능성을 생각해 보라[13]."


이는 단순한 겸손의 문제가 아닙니다. 수학적으로도, 철학적으로도 중요한 원칙입니다. 언제나 약간의 여지를 남겨둬야 새로운 정보를 받아들이고 믿음을 업데이트할 수 있어요. '절대 아니야'보다는 '거의 확실히 아니야(0.1%)'가, '100% 확실해'보다는 '거의 확실해(99.9%)'가 더 현명한 태도입니다.


크롬웰의 법칙은 과학철학과도 맞닿아 있습니다. 칼 포퍼(Karl Popper)가 말했듯, 과학에서 어떤 이론도 '증명된' 것이 아닙니다[14]. 뉴턴의 법칙도 200년 이상 가장 강력한 이론으로 여겨졌지만, 설명하지 못하는 관측이 나타났고, 결국 아인슈타인의 상대성 이론에 자리를 내주었죠.


또한 성장 마인드셋과도 깊은 관련이 있습니다. '나는 수학을 못해'(0%)가 아니라 '아직은 수학이 어려워'(20%)라고 생각하면, 배움의 가능성이 열립니다. 실패는 끝이 아니라 가설을 수정하는 기회거든요. 이것이 Ep.29에서 자세히 다룰 베이지안 마인드셋의 핵심입니다.


열린 마음은 단순히 좋은 태도가 아닙니다. 크롬웰의 법칙이 보여주듯, 합리적 사고의 필수 조건입니다.




[♪ 차분한 음악]


이지은: 정보를 하나씩 처리하면서 잘못된 가설이 자연스럽게 사라지는 과정, 정말 흥미롭지 않나요?


가장 인상적인 건 순서가 중요하지 않다는 거예요! 좋은 소식을 먼저 듣든, 나쁜 소식을 먼저 듣든, 편향에 흔들리지 않고 차분하게 처리한다면 결국 같은 결론에 도달해요.


그리고 크롬웰의 지혜를 잊지 마세요. '우리가 틀릴 수도 있다'는 열린 마음이 진정한 학습을 가능하게 합니다. 0%나 100%라고 단정 짓는 순간, 배움의 문이 닫힙니다.


[띠링!]


오늘의 미션! 도태되는 가설 관찰하기.

이번 주에 여러분이 갖고 있는 추측이나 믿음 중 하나를 선택해서:

현재 몇 % 정도 믿는지 적기 (절대 0%나 100%는 안 돼요!)

매일 관련된 새로운 정보나 경험 기록하기

그때마다 믿음(확률)이 어떻게 변하는지 추적하기

특히 확률이 낮아질 때의 느낌 관찰하기


예시:

'이번에 시작한 운동 루틴이 체력 향상에 도움이 될 거야' (시작: 70%)

Day 2: 운동 후 개운한 느낌 (→ 75%)

Day 4: 하지만 일상에서 오히려 더 피곤 (→ 55%)

Day 6: 운동을 자꾸 빼먹게 됨 (→ 35%)

Day 7: 트레이너 친구가 "그 루틴은 초보자한테 과해"라고 조언 (→ 20%)


기억하세요! 가설이 틀렸다는 건 실패가 아니라 학습입니다. 더 나은 가설을 찾아가는 과정이죠.


지금까지는 하나의 모델 안에서 추론했는데, 만약 모델 자체가 여러 개라면 어떨까요? 다음 시간에는 여러 가지 모델을 동시에 고려하는 법, 더 큰 그림을 보는 법에 대해 알아볼 거예요!


모든 정보가 모일 때까지 기다릴 필요 없어요. 지금 가진 정보로 최선의 판단을 하고, 새로운 증거가 오면 그때 업데이트하면 됩니다. 어차피 같은 곳에 도착하니까요. 저는 이지은이었습니다.


[♪ 밝은 음악]




참고문헌


1. Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian data analysis (3rd ed.). CRC Press.

2. Kruschke, J. (2014). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan (2nd ed.). Academic Press.

3. Bernardo, J. M., & Smith, A. F. M. (1994). Bayesian theory. Wiley.

4. Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185 (4157), 1124--1131. https://doi.org/10.1126/science.185.4157.1124

5. Hogarth, R. M., & Einhorn, H. J. (1992). Order effects in belief updating: The belief-adjustment model. Cognitive Psychology, 24(1), 1--55. https://doi.org/10.1016/0010-0285(92)90002-J

6. Tetlock, P. E., & Gardner, D. (2017). 슈퍼 예측, 그들은 어떻게 미래를 보았는가 (이경남 역). 알키. (원서출판 2015)

7. Loewenstein, G. F., Weber, E. U., Hsee, C. K., & Welch, N. (2001). Risk as feelings. Psychological Bulletin, 127(2), 267--286. https://doi.org/10.1037/0033-2909.127.2.267

8. Lerner, J. S., & Keltner, D. (2001). Fear, anger, and risk. Journal of Personality and Social Psychology, 81(1), 146--159. https://doi.org/10.1037/0022-3514.81.1.146

9. Nickerson, R. S. (1998). Confirmation bias: A ubiquitous phenomenon in many guises. Review of General Psychology, 2(2), 175–220.

10. Kuhn, T. S. (2013). 과학혁명의 구조 (김명자, 홍성욱 역, 4판). 까치. (원서출판 1962)

11. Lindley, D. V. (1982). Scoring rules and the inevitability of probability. International Statistical Review, 50(1), 1--11. https://doi.org/10.2307/1402448

12. Jaynes, E. T. (2003). Probability theory: The logic of science. Cambridge University Press.

13. Cromwell, O. (1904). The letters and speeches of Oliver Cromwell (Vol. 2, T. Carlyle, Ed.). Chapman and Hall.

14. Popper, K. R. (2002). 추측과 논박 1 (이한구 역). 민음사. (원서출판 1963)


월, 수, 금 연재
이전 11화Ep.11 넓은 의심, 뾰족한 확신