경험과 데이터가 만드는 사전 확률
[♪ 밝은 음악]
이지은: 안녕하세요, '안개 속을 걷다'의 이지은입니다! 오늘도 불확실성과 친해지는 시간, 함께해요!
지난 시간 케이크 이야기, 재미있게 들으셨나요? 한 청취자분이 정말 흥미로운 사연을 보내주셨어요.
"지은님, 오늘 친구랑 새로 생긴 카페에 갔어요. 메뉴판에 '수제 스콘'이라고만 쓰여있더라고요. 그런데 신기한 게, 저는 '당연히 버터로 만들었겠지'라고 생각했는데, 제빵 학원 다니는 친구가 '요즘은 크림치즈 스콘이 대세야'라고 하는 거예요. 아직 먹어보지도 않았는데 왜 이렇게 다른 예상을 하는 걸까요?"
[웃음] 정말 좋은 질문이에요! 사실 이게 오늘 이야기할 주제의 핵심이거든요.
저도 비슷한 경험이 있어요. 엄마와 함께 처음 가는 맛집에서 메뉴를 보는데, '특제 된장찌개'라고만 적혀있는 거예요. 주문하기 전에 저는 "여기도 멸치 육수겠지?"라고 했더니 엄마는 "아니야, 요즘 맛집들은 조개 육수를 쓰더라"라고 하시더라고요. 결국 먹어보니... [웃음] 둘 다 들어갔대요!
[띠링!]
왜 우리는 아무 정보 없이도 어떤 추측은 '그럴듯하다'라고 느끼고, 어떤 추측은 '아닐 것 같다'라고 느낄까요?
오늘은 바로 이 '첫 번째 추측', 즉 사전 확률에 대해 이야기해 볼게요. 우리가 무언가를 추측할 때 출발점이 되는 이 믿음은 어디서 오는 걸까요?
자, 그럼 우리 머릿속 첫 번째 추측의 비밀을 파헤쳐볼까요?
지난 시간(Ep.7)에 우리는 베이지안 모델이 두 가지 구성요소로 이루어진다는 걸 배웠습니다. 첫 번째는 가설 공간에 할당된 사전 확률 분포, 두 번째는 데이터 모델이었죠. 오늘은 첫 번째 구성요소의 핵심인 사전 확률을 자세히 들여다보겠습니다.
사전 확률(prior probability)은 데이터를 관찰하기 전에 각 가설에 대해 갖는 믿음의 정도를 확률로 표현한 것입니다. 쉽게 말해, 아직 아무런 단서가 없을 때 '아마 이럴 거야'라고 생각하는 정도죠.
왜 이런 사전 확률이 중요할까요? 우리는 절대 백지상태에서 추론하지 않기 때문입니다. 누구나 어떤 배경 지식이나 경험을 갖고 있고, 이는 새로운 정보를 해석하는 출발점이 되죠. 사람마다 출발점이 다를 수 있기 때문에, 같은 데이터를 처리하더라도 믿음이 다를 수 있습니다. 이 때문에 베이지안 접근법이 객관적이지 않다는 비판도 있습니다. 하지만 배경 지식이나 경험에서 출발하는 건 약점이 아닙니다. 오히려 강점이죠.
만약 매번 백지상태에서 시작해야 한다면 어떻게 될까요? 아무리 경험이 쌓여도 활용할 수 없고, 매 상황마다 처음부터 다시 배워야 할 겁니다. 사전 확률은 지속적인 학습을 가능하게 합니다. 어제의 경험이 오늘의 출발점이 되고, 오늘의 발견이 내일의 기초가 됩니다. 이것이 바로 Ep.12에서 배울 '순차적 베이지안 믿음 갱신'의 토대입니다.
또 다른 장점도 있습니다. 적절한 사전 확률을 활용하면 적은 데이터만으로도 좋은 추론이 가능합니다. 의사가 희귀병을 진단할 때를 생각해 보세요. 의사 개인이 수만 건의 사례를 직접 경험할 수는 없지만, 의학 문헌의 통계를 사전 확률로 활용하면 몇 가지 증상만으로도 정확한 진단에 다가갈 수 있습니다.
지난 시간(Ep.7)에 살펴보았던 케이크 예시로 돌아가 봅시다. 카페에서 케이크를 주문했는데, 아직 맛보기 전이라고 상상해 보세요. 메뉴판에는 그저 '오늘의 케이크'라고만 적혀 있습니다. 이때도 우리는 이미 어떤 추측을 합니다. '버터가 150g 정도 들어갔다'라고 70% 정도로 보고, '250g은 너무 많다'라고 생각해 10%만 가능성을 두며, '50g은 너무 적다'라고 판단해 20%의 가능성을 고려하죠. 이런 초기 추측을 우리는 사전 확률이라고 부릅니다.
대체 이런 사전 확률을 어떻게 정할 수 있을까요? 크게 세 가지 방법이 있습니다.
첫째, 과거 데이터나 통계를 활용하는 방법입니다. 가장 객관적인 접근이죠. 버터케이크 레시피를 추측하고 싶다면, 실제 레시피들을 조사해 볼 수 있습니다. 예를 들어, 제빵책 10권의 버터케이크 레시피를 분석했더니 이런 패턴이 보였습니다: 버터 150g(100-200g)을 사용하는 레시피가 일곱 권(70%)으로 가장 많았고, 50g(100g 미만)을 사용하는 레시피가 두 권(20%), 250g(200g 이상)을 사용하는 레시피는 한 권(10%)에 불과했습니다. 이런 통계가 있다면, 우리의 사전 확률도 이를 반영하는 것이 자연스럽습니다. 새로운 케이크를 만나면 '아마 이 케이크도 버터 150g을 썼겠지'라고 70%의 확신을 갖고 시작하는 거죠.
물론 통계에도 맥락이 있습니다. 한국 레시피는 버터를 적게 쓰는 경향이 있고, 미국 레시피는 많이 쓰는 편이죠. 고급 베이커리의 케이크라면 일반 레시피보다 버터를 더 넉넉히 쓸 가능성이 높습니다. 이런 맥락을 고려해 통계를 해석하는 것이 중요합니다.
둘째, 개인의 경험을 활용하는 방법입니다. 항상 관련 통계 자료를 찾을 수 있는 건 아닙니다. 이때는 개인의 경험이 중요한 역할을 합니다. 최근 제빵 학원에서 크림치즈로 스콘을 만들어 본 친구는 크림치즈일 확률을 높게 잡고, 집에서 늘 버터로만 스콘을 구워 먹은 사람은 당연히 버터일 거라고 생각합니다. 이처럼 개인마다 축적된 경험이 다르기에, 같은 메뉴를 보고도 서로 다른 예상을 하게 되는 거죠.
경험이 사전 확률을 형성한다는 것은 인지과학 연구를 통해 뒷받침됩니다. 실제로 우리의 일상적 예측은 환경의 통계적 규칙성을 놀라울 정도로 잘 반영하는 것으로 나타났습니다 [1]. 구체적으로 보면, 우리는 반복되는 패턴을 감지하고 ('엄마의 김치찌개는 늘 돼지고기'), 인상 깊은 사건을 기억하며 ('그때 먹은 특별한 김치찌개는 참치'), 최근 경험에 더 가중치를 두고 ('요즘 유행하는 묵은지 김치찌개'), 이를 종합해 확률적 판단을 내립니다 ('돼지고기 70%, 참치 20%, 기타 10%'). 특히 정서적으로 강렬한 경험은 더 쉽게 기억되고 판단에 더 큰 영향을 미칩니다 [2]. 한 번 먹었던 특별한 음식이 실제 빈도보다 더 자주 떠오르는 것도 이 때문입니다.
셋째, 비슷한 사례를 참고하는 방법입니다. 완전히 새로운 상황에서는 참고할 통계도 없고, 축적된 경험도 없습니다. 대신 '이건 뭐랑 비슷하지?'라고 생각해 볼 수 있습니다. 처음 보는 프랑스 디저트 까눌레의 레시피를 추측한다고 해봅시다. 까눌레가 뭔지 전혀 모르지만, 메뉴 설명에 '겉은 바삭하고 속은 부드러운 디저트'라고 적혀 있습니다. 그러면 이렇게 유추할 수 있죠. '겉이 바삭한 건 피낭시에랑 비슷하네. 속이 부드러운 건 마들렌 같기도 하고. 그럼 계란과 버터가 주재료일 확률이 높겠다.'
유추는 강력한 도구지만 한계도 있습니다. 까눌레는 사실 럼을 넣는 것이 특징인데, 마들렌이나 피낭시에에는 럼을 쓰지 않으니 이 부분은 놓치게 되죠. 그래도 완전히 무작위로 추측하는 것보다는 훨씬 나은 출발점을 제공합니다.
하지만 사전 확률을 정할 때 조심해야 할 인지적 함정들이 있습니다. 첫째는 가용성 휴리스틱으로, 최근 경험이나 인상 깊은 경험에 과도하게 영향을 받는 현상입니다 [3]. 어제 뉴스에서 '일부 카페가 원가 절감을 위해 마가린을 쓴다'는 보도를 봤다면, 오늘 카페에 가서 아직 스콘을 맛보기도 전에 '마가린일 확률 80%!'라고 과도하게 의심하게 됩니다.
실제로는 어떨까요? 뉴스는 특이한 사례를 보도하는 경향이 있습니다. '대부분의 카페가 정직하게 버터를 씁니다'는 뉴스거리가 안 되니까요. 하지만 우리의 뇌는 생생한 뉴스 하나에 크게 영향을 받아, 실제보다 마가린 사용 확률을 훨씬 높게 추정하게 됩니다. 비행기 사고도 비슷합니다. 큰 사고가 한 번 보도되면 '비행기는 위험해'라고 생각하지만, 실제로는 자동차보다 훨씬 안전한 교통수단이죠. 생생한 기억이 통계적 사실을 압도하는 것입니다.
둘째는 확증 편향으로, 자신의 믿음을 지지하는 정보만 받아들이는 경향입니다 [4]. 베이지안 추론의 관점에서 보면, 특정 가설에 지나치게 큰 사전 확률을 부여한 것과 비슷한 효과를 냅니다. 예를 들어, '비싼 레스토랑은 다 재료를 아낀다'라고 믿는 사람을 생각해 봅시다. 이런 사람은 고급 레스토랑에서 요리를 맛보기도 전에 '분명 저렴한 재료를 써놓고 조리 기술로 맛을 낸 거야'라고 생각합니다. 너무 강한 믿음은 반대 증거를 통해 변화시키기 어렵습니다 (이에 대한 수학적 설명은 Ep.10에서 제시됩니다). 사실 확증 편향에는 이런 출발점의 왜곡뿐 아니라 증거를 해석하는 과정의 편향도 함께 작용하는데, 이 부분은 다음 시간에 살펴보겠습니다.
셋째는 대표성 휴리스틱으로, 전형적인 특징에 과도하게 의존하는 오류입니다 [5]. '이탈리안 레스토랑이니까 올리브 오일을 많이 썼겠지'라고 생각하지만, 실제로는 한국인 입맛에 맞춰 버터를 더 많이 사용했을 수 있습니다.
고정관념도 이런 오류의 한 형태입니다. '프랑스 요리는 복잡하고 어려워'라는 선입견이 있으면, 메뉴판에 적힌 간단한 프랑스 가정식 요리를 보고도 '분명 복잡한 기술을 썼을 거야'라는 가설에 과도한 사전 확률을 부여하게 됩니다.
이러한 인지적 편향의 공통점은 특정 가설에 대한 사전 확률을 지나치게 높게 설정한다는 것입니다. 그렇다면 어떻게 해야 사전 확률을 합리적으로 설정할 수 있을까요?
극단을 피하고 유연성을 유지하세요. 어떤 가설에도 0%나 100%의 사전 확률을 부여해서는 안 됩니다 [6]. '절대 불가능해'나 '100% 확실해'라는 태도는 두 가지 문제를 일으키죠.
첫째, 새로운 증거를 받아들일 여지를 없애버립니다. '이 빵에는 절대 계란이 안 들어갔어'라고 0%의 확률을 부여했다면, 나중에 계란 알레르기 주의 표시를 봐도 무시하게 됩니다.
둘째, 학습과 성장이 불가능해집니다. 우리 믿음은 새로운 정보에 따라 조정될 수 있어야 합니다. '경험상 김치찌개엔 돼지고기가 들어갈 확률이 80%야'라고 생각했다가 메뉴판에 '참치 김치찌개'를 보면 즉시 수정할 수 있어야 하죠.
수학적으로도 극단적 사전 확률은 치명적입니다. Ep.10에서 베이즈 정리를 배우면 명확해지겠지만, 데이터를 보기 전의 믿음이 0%이면 아무리 강한 증거가 나와도 데이터를 본 후의 믿음도 0%가 되고, 100%면 어떤 반대 증거가 나와도 여전히 100%가 됩니다. 약간의 불확실성을 인정하는 것이 역설적으로 더 정확한 추론으로 이끕니다.
불확실성을 인정하세요. 모르는 건 모른다고 인정하는 것이 중요합니다. 정보가 부족할 때는 각 가능성에 동등한 확률을 부여하는 게 합리적입니다 [6].
처음 가는 식당의 김치찌개에 뭐가 들어갔을지 추측한다면? 돼지고기, 참치, 햄, 두부 등 4가지 가능성이 있다면 각각 25%씩 동등하게 배분하는 거죠. 이를 무정보 사전 확률(uninformative prior)이라고 합니다. 아무 정보가 없을 때 가장 정직한 출발점입니다.
하지만 무작정 무정보 사전 확률을 할당하기 전에 자신이 어떤 정보를 가지고 있는지 생각해 보세요. 현실에서 정말 아무 정보도 없는 경우는 거의 없습니다. 과거 식당에서 김치찌개를 먹었던 경험, 한국 요리에 대한 일반적인 지식 등이 모두 유용한 정보입니다. 베이지안 추론의 힘은 바로 이런 사전 지식을 활용하는 데 있으니까요.
사실 우리는 매 순간 사전 확률을 사용하고 있습니다. 날씨를 예측할 때 '4월에 비 올 확률은 30% 정도?'라고 과거 경험으로 추측합니다. 기상청 데이터를 본 것도, 작년 4월의 기억도, 꽃샘추위라는 개념도 모두 이 30%에 녹아 있죠. 교통을 예상할 때 '금요일 저녁 강남역은 막힐 확률 90%'라고 패턴을 인식합니다. 수없이 경험한 금요일 저녁, 뉴스에서 본 교통 정보, 친구들의 하소연이 모두 합쳐져 90%라는 숫자가 되는 거예요. 사람을 판단할 때 '첫인상이 좋으니 믿을 만한 사람일 확률 70%?'라고 직관적으로 평가합니다. 과거에 만난 사람들, 첫인상과 실제가 일치했던 경험, 배신당한 기억 등이 복잡하게 얽혀 70%를 만들어냅니다.
이런 사전 확률들이 우리 판단의 출발점이 됩니다. 중요한 것은 이를 의식하는 것입니다. '내가 왜 이렇게 생각하지? 이 믿음은 어디서 왔지? 혹시 편향된 건 아닐까?'라고 자기 자신에게 물어보는 습관을 기르면, 더 나은 판단을 할 수 있습니다.
베이지안 추론의 강점은 이런 주관적인 출발점도 충분한 증거가 쌓이면 객관적 진실로 수렴한다는 것입니다. 처음에는 '버터 150g일 것 같아'와 '크림치즈를 썼을 것 같아'로 다르게 시작했어도, 충분한 단서를 모으면 결국 진짜 레시피에 도달하게 됩니다.
그런데 사전 확률만으로는 추론이 완성되지 않습니다. 촉촉한 케이크를 한 입 베어 물었을 때, 그 촉촉함이라는 증거가 버터 50g, 150g, 250g 가설을 각각 얼마나 뒷받침할까요? 데이터가 자신의 원인을 지목하는 과정을 함께 추적해 봅시다.
[♪ 차분한 음악]
이지은: 어떠셨나요? 우리가 무언가를 추측할 때 백지상태에서 시작하는 게 아니라, 이미 어떤 '선입견'을 가지고 시작한다는 게 흥미롭지 않나요?
그런데 이 선입견이 꼭 나쁜 것만은 아니에요! 합리적인 사전 확률은 우리의 경험과 지식을 활용해서 더 효율적으로 진실에 다가가게 해 주거든요.
중요한 건 이런 사전 확률을 인식하고, 필요할 때 조정할 수 있는 유연성을 갖는 거예요. '내가 왜 이렇게 생각하지?'라고 자기 자신에게 물어보는 습관, 정말 중요합니다!
[띠링!]
오늘의 미션! 평소 관심 있는 현상 하나를 골라, 그 원인에 대한 여러 가설을 세우고 각각에 확률을 부여해 보세요.
첫째, 여러분이 떠올린 가설들을 나열하고 각각 몇 퍼센트 확률인지 적어보세요. 둘째, 왜 그런 확률을 부여했는지 생각해 보세요 - 통계 자료? 과거 경험? 유사 사례? 셋째, 나중에 어떤 증거를 발견하면 이 확률들을 어떻게 조정할지 미리 생각해 보세요.
최근 들어 커피를 많이 마시기 시작했다면, 다음과 같이 미션을 수행할 수 있어요. 스트레스 때문일 확률 50%, 시험이 다가와서일 확률 35%, 날씨가 추워서일 확률 15%. 스트레스에 높은 확률을 준 이유는 최근 업무가 많았기 때문이고, 주말에도 많이 마신다면 업무 스트레스가 원인이 아닐 수 있으므로 스트레스 가설의 확률을 낮추고 시험 가설의 확률을 높일 거예요.
오늘은 데이터를 보기 전에 각 가설에 대해 우리가 갖는 믿음, 즉 사전 확률에 대해 알아봤어요. 다음 시간에는 정반대 관점에서 접근해 볼 거예요. 이번엔 우리의 경험이나 선입견은 잠시 제쳐두고, 오직 데이터만 봤을 때 어떤 가설이 더 그럴듯한 지 판단하는 방법을 배워볼 거예요. 같은 증거가 서로 다른 가설들을 얼마나 다르게 뒷받침하는지 살펴보는 흥미로운 시간이 될 거예요!
선입견은 나쁜 게 아니에요. 다만 '내가 왜 이렇게 생각하지?'라고 물을 수 있다면, 그 선입견은 편견이 아니라 출발점이 됩니다. 저는 이지은이었습니다.
[♪ 밝은 음악]
참고문헌
1. Griffiths, T. L., & Tenenbaum, J. B. (2006). Optimal predictions in everyday cognition. Psychological Science, 17(9), 767–773. https://doi.org/10.1111/j.1467-9280.2006.01780.x
2. Kahneman, D. (2018). 생각에 관한 생각 (이창신 역, 2판). 김영사. (원서출판 2011)
3. Tversky, A., & Kahneman, D. (1973). Availability: A heuristic for judging frequency and probability. Cognitive Psychology, 5(2), 207–232. https://doi.org/10.1016/0010-0285(73)90033-9
4. Nickerson, R. S. (1998). Confirmation bias: A ubiquitous phenomenon in many guises. Review of General Psychology, 2(2), 175–220. https://doi.org/10.1037/1089-2680.2.2.175
5. Kahneman, D., & Tversky, A. (1972). Subjective probability: A judgment of representativeness. Cognitive Psychology, 3(3), 430–454. https://doi.org/10.1016/0010-0285(72)90016-3
6. Lindley, D. V. (2006). Understanding Uncertainty. John Wiley & Sons.