Ep.5 소개팅 프로필의 함정

거꾸로 읽는 확률의 비밀

by 배지안

[♪ 밝은 음악]


이지은: 안녕하세요, '안개 속을 걷다'의 이지은입니다! 오늘은 정말 재미있는 사연을 받았어요.


"지은님, 저는 20대 직장인인데요. 요즘 소개팅 앱을 하고 있어요. 프로필에 '책 읽기가 취미'라고 쓴 사람을 만났는데, 실제로 만나보니 1년에 책 한 권도 안 읽더라고요. 그래서 생각해 봤어요. '책 읽기가 취미'라고 쓴 사람이 진짜 책을 좋아할 확률이 얼마나 될까요?"


[웃음] 아, 정말 현실적인 고민이네요! 사실 우리 모두 비슷한 경험 있지 않나요? 제 친구는 '요리가 취미'라고 쓴 남자를 만났는데, 라면 끓이는 게 요리의 전부였대요. 또 다른 친구는 '운동을 좋아한다'는 사람을 만났는데, 1년에 한 번 등산 가는 게 다였다고... [한숨]


그런데 이 사연에는 정말 중요한 교훈이 있어요. 생각해 보세요. 소개팅 앱에서 '독서가 취미'라고 쓴 100명을 만난다면, 그중 몇 명이나 진짜 책을 좋아할까요? 자, 이번엔 반대로 책을 정말 좋아하는 100명이 있다면, 그중 몇 명이나 프로필에 '독서'라고 쓸까요? 같은 숫자일 것 같죠? 그런데 아니에요!


[띠링!]


어라? 뭔가 머리가 살짝 아프시죠? 분명 비슷한 얘기 같은데 다르다니… 오늘은 바로 이 차이, '조건부 확률'이라는 흥미로운 개념에 대해 이야기해 볼게요. 이걸 알면 소개팅뿐만 아니라 일상의 많은 판단이 달라질 거예요!


자, 그럼 시작해 볼까요?




우리는 일상에서 여러 사건이 어떻게 연결되어 있는지 따져봅니다. 비 오는 날 아침 지하철은 왜 그렇게 붐빌까요? 금요일 저녁 그 맛집엔 빈자리가 있을까요? 상사 기분이 좋은 날이라면 연차 승인 가능성은 높아질까요? 이는 모두 한 사건이 다른 사건과 어떻게 맞물려 있는지를 묻는 질문들이죠.


소개팅 앱 사연을 한번 살펴보죠. 누군가 호기심에 소개팅 앱 사용자 100명을 조사했다고 해봅시다. 인터넷 설문을 통해 각 사람에게 두 가지를 물어봤어요. 진짜로 책을 좋아하는지, 그리고 프로필에 '독서'라고 썼는지. 두 가지 질문에 대한 답을 동시에 살펴보면 각 조합의 확률을 계산할 수 있는데, 이를 결합 확률이라고 부릅니다.



이 표의 구조를 자세히 들여다봅시다. 첫 번째 변수는 '책을 좋아하는가'입니다. 좋아하거나 좋아하지 않거나, 둘 중 하나죠. 두 번째 변수는 '프로필에 독서라고 썼는가'입니다. 역시 썼거나 쓰지 않았거나 둘 중 하나입니다. 각 변수의 두 값은 서로 겹치지 않으며, 모든 가능성을 빠짐없이 포함합니다. 표의 네 칸은 이 두 변수의 모든 가능한 조합을 보여줍니다. 한 사람은 정확히 하나의 칸에만 속합니다. 책을 좋아하면서 동시에 싫어할 수는 없고, 프로필에 '독서'라고 썼으면서 동시에 쓰지 않았을 수는 없으니까요. 모든 사람은 반드시 네 칸 중 어딘가에 속합니다. 중간은 없습니다. 그래서 40 + 30 + 10 + 20 = 100, 정확히 100명이 됩니다.


통계학에서는 이처럼 두 무작위 변수의 모든 조합을 정리한 표를 분할표(contingency table)라고 부릅니다. 왜 '분할'이냐고요? 전체 집단을 네 개의 칸으로 깔끔하게 나누기 때문입니다. 이 표에서 우리는 앞서 언급한 결합 확률을 직접 읽을 수 있습니다. 책을 좋아하면서 동시에 프로필에 '독서'라고 쓸 확률, P(책을 좋아함, 프로필에 '독서'라고 씀) = 40/100 = 0.4 (40%)입니다.


결과를 살펴보니 흥미로운 패턴이 드러납니다. 100명 중 정직한 사람은 60명뿐입니다. 책을 좋아하면서 프로필에도 '독서'라고 쓴 사람 40명, 책에 관심 없어서 프로필에도 쓰지 않은 사람 20명. 나머지 40명 중 30명은 책을 좋아하지 않으면서도 프로필엔 '독서'라고 썼습니다. 소개팅 프로필의 고전적인 거짓말이죠. 반대로 10명은 책을 좋아하면서도 프로필엔 쓰지 않았습니다. 겸손일까요, 아니면 '독서'라는 취미가 너무 평범해 보여서일까요?


이제 청취자 사연을 이해하기 위해 다음 질문을 살펴봅시다. 프로필에 '독서'라고 쓴 사람을 만났을 때, 그 사람이 진짜 책을 좋아할 확률은 얼마일까요? 이런 질문에 답하는 것이 조건부 확률입니다. 수식으로는 P(책 좋아함|프로필에 '독서')라고 씁니다. 세로 막대(|) 뒤에 오는 것이 조건입니다. "프로필에 '독서'라고 썼다는 조건 하에서, 책을 좋아할 확률"이라고 읽습니다.


표를 사용하면 조건부 확률을 쉽게 계산할 수 있습니다. 프로필에 '독서'라고 쓴 사람은 40명 + 30명 = 70명입니다. 이 70명 중 실제로 책을 좋아하는 사람은 40명입니다. 따라서 P(책 좋아함|프로필에 '독서') = 40/70 ≈ 0.57, 약 57%입니다.


조건부 확률의 핵심은 관심 대상이 줄어든다는 점입니다. 처음엔 100명 전체를 봤습니다. 하지만 "프로필에 '독서'라고 썼다"는 조건이 붙으면, 이제 우리는 70명만 살펴보면 됩니다. 조건부 확률은 이 70명 중에서 책을 좋아하는 사람의 비율입니다.


한 가지 주의할 점이 있습니다. P(책 좋아함|프로필에 '독서')에서 세로 막대 뒤의 조건이 시간상 먼저 일어났다는 뜻은 아닙니다. 프로필을 쓴 시점과 책을 좋아하게 된 시점은 전혀 다른 이야기죠. 조건부 확률은 시간 순서가 아니라, 알고 있는 정보와 알고 싶은 정보의 관계를 나타냅니다.


이번엔 반대 방향을 계산해 봅시다. 책을 좋아하는 사람이 프로필에 '독서'라고 쓸 확률은 얼마일까요? 책을 좋아하는 50명 중 40명이 프로필에 그렇게 적었으니, P(프로필에 '독서'|책 좋아함) = 40/50 = 0.8, 즉 80%입니다. 앞서 계산한 57%와는 상당한 차이가 있죠. 그런데 많은 사람이 이 두 확률을 같다고 착각합니다 [1]. 조건부 확률의 대표적인 함정이죠.


이제 같은 분할표에서 읽을 수 있는 다른 정보도 살펴봅시다. 표의 가장자리를 보세요. 각 행과 열의 합계가 적혀 있죠. 이 숫자들로 각 사건의 전체 확률을 계산할 수 있는데, 이를 주변 확률(marginal probability)이라고 부릅니다. 가장자리(margin)에 있어서 주변 확률입니다. 책을 좋아하는 사람은 전체 100명 중 50명이므로 P(책 좋아함) = 50/100 = 0.5 (50%)입니다. 프로필에 '독서'라고 쓴 사람은 70명이므로 P(프로필에 '독서') = 70/100 = 0.7 (70%)입니다.


주변 확률은 두 가지 방법으로 계산할 수 있습니다. P(프로필에 '독서') = 0.7을 예로 들어보죠. 첫 번째는 방금 한 것처럼 표에서 직접 세는 방법입니다. 프로필에 '독서'라고 쓴 사람 70명을 총 인원수 100으로 나누면 됩니다. 두 번째는 전체 확률의 법칙(law of total probability)을 사용하는 방법입니다. 어떤 사건이 일어날 확률을 여러 가지 가능한 상황으로 나누어, 각 상황에서 그 사건이 일어날 확률을 구한 뒤 모두 더하는 방법입니다.


프로필에 '독서'라고 쓴 사람을 두 그룹으로 나눌 수 있습니다. 책을 진짜 좋아하는 사람과 좋아하지 않는 사람. 전체 확률의 법칙은 이렇게 나눈 각 경우의 확률을 더하라고 말합니다. P(프로필에 '독서') = P(책을 좋아함, 프로필에 '독서') + P(책을 좋아하지 않음, 프로필에 '독서'). 표에서 읽으면 40/100 + 30/100 = 0.7입니다. 앞서 직접 센 70/100과 같은 값이죠.


그렇다면 결합 확률인 P(책을 좋아함, 프로필에 '독서') = 40/100은 어떻게 계산할까요? 두 가지 방법이 있습니다. 첫째는 분할표에서 직접 읽는 방법입니다. 둘째는 주변 확률과 조건부 확률의 곱으로 계산하는 방법입니다.


두 번째 방법을 자세히 봅시다. 책을 좋아하면서 동시에 프로필에 '독서'라고 쓰려면, 일단 책을 좋아해야 합니다. P(책을 좋아함) = 50/100 = 0.5. 그다음 책을 좋아하는 사람 중에서 프로필에 '독서'라고 쓴 비율을 구합니다. P(프로필에 '독서'|책을 좋아함) = 40/50 = 0.8. 이 둘을 곱하면 0.5 × 0.8 = 0.4가 됩니다. 일반적으로 P(A, B) = P(A) × P(B|A) = P(B) × P(A|B)입니다. P(A)부터 시작해도 P(B)부터 시작해도 결과는 같지만, 각각에 곱하는 조건부 확률의 방향은 달라져야 합니다.


한 가지 특별한 경우가 있습니다. A를 알아도 B의 확률이 변하지 않는다면, 즉 P(B|A) = P(B)라면, A와 B는 독립(independent)입니다. 이때 결합 확률은 단순히 각각의 확률을 곱한 것이 됩니다. P(A, B) = P(A) × P(B|A) = P(A) × P(B) (A와 B가 독립이므로 P(B|A) = P(B)). 공정한 동전 두 개를 동시에 던지면, 첫 번째 동전의 결과가 두 번째 동전에 영향을 주지 않죠. 반대도 마찬가지입니다. 독립은 항상 양방향이거든요. 하지만 소개팅 프로필의 경우는 다릅니다. 책을 좋아하는지 여부가 프로필에 '독서'라고 쓸 확률에 영향을 주니까요. 이 둘은 독립이 아닙니다.


잠깐, 앞서 소개한 전체 확률의 법칙을 다시 생각해 봅시다. P(프로필에 '독서')를 구하려면 P(책을 좋아함) 같은 다른 주변 확률과 조건부 확률이 필요했습니다. 순환 논리 아닌가요? 분할표가 있으면 직접 세면 그만이니까요. 하지만 현실에서는 전체를 조사한 분할표를 만들기 어려운 경우가 많습니다. 대신 조건부 확률은 실험이나 조사로 쉽게 구할 수 있어요.


예를 들어봅시다. 한 회사가 세 공장에서 제품을 생산합니다. A공장 50%, B공장 30%, C공장 20%. 전체 불량률을 알고 싶지만 모든 제품을 검사할 수는 없습니다. 대신 각 공장의 불량률은 표본 조사로 쉽게 구할 수 있죠. 이때 전체 확률의 법칙을 쓰면 전체 불량률을 계산할 수 있습니다. 고객 만족도도 마찬가지입니다. 온라인 구매 60%, 오프라인 30%, 전화 주문 10%. 각 채널별 만족도는 설문으로 파악하기 쉽지만, 전체 고객을 조사하기는 어렵습니다. 이처럼 전체를 조사하기 어렵거나 비용이 많이 들 때, 조건부 확률과 전체 확률의 법칙이 강력한 도구가 됩니다.


전체 확률의 법칙은 복잡한 문제를 작은 조각으로 나누어 해결하는 도구입니다. 시즌 2에서는 이 법칙이 더욱 중요해집니다. 새로운 정보를 얻었을 때 기존 믿음을 어떻게 수정할지 계산하는 베이즈 정리의 핵심 요소거든요. 지금 확실히 이해해 두면 나중에 큰 도움이 될 겁니다.


지금까지 소개팅 앱 사례를 통해 조건부 확률을 살펴봤습니다. 이번엔 의료 검사를 살펴봅시다. 여기서도 조건부 확률의 방향을 혼동하면 불필요한 걱정을 하거나 잘못된 판단을 내릴 수 있습니다. 참고로 검사의 정확도를 나타낼 때 두 가지 조건부 확률을 지표로 사용합니다. 민감도(sensitivity)는 실제로 병이 있는 사람을 양성으로 판정할 확률, P(양성|질병 있음)입니다. 특이도(specificity)는 건강한 사람을 음성으로 판정할 확률, P(음성|질병 없음)입니다.


민감도 95%, 특이도 90%인 검사가 있다고 해봅시다. 꽤 정확해 보이죠? 많은 사람이 이렇게 생각합니다. '양성 판정을 받았으니 95% 확률로 병에 걸렸구나.' 틀렸습니다. 이는 P(양성|질병 있음) = 95%를 P(질병 있음|양성) = 95%로 착각한 것입니다. 이 둘은 전혀 다른 확률입니다. 특히 희귀병처럼 전체 인구 중 환자가 1%뿐이라면, 양성 판정을 받아도 실제로 병에 걸렸을 확률은 10%도 안 됩니다. 놀랍지 않나요?


왜 이런 일이 일어날까요? 기저율(base rate)을 무시했기 때문입니다. 기저율은 아무 정보도 없을 때의 기본 확률입니다. 이 경우 P(질병) = 1%가 기저율이죠. 인구 100명 중 1명만 병에 걸린다는 뜻입니다. 검사가 아무리 정확해도 애초에 환자가 드물면, 양성 판정 대부분은 오진입니다. 건강한 99명 중 10%(특이도가 90%이므로 거짓양성률은 10%)인 약 10명이 양성으로 잘못 판정되는데, 실제 환자는 1명뿐이니까요. 정확한 계산법은 시즌 2의 Ep.10에서 다룹니다.


법정에서도 같은 실수가 일어납니다. 검사의 오류(prosecutor's fallacy)라고 부르죠. 예를 들어, DNA 증거를 살펴봅시다. 범죄 현장에서 수집된 DNA 프로필이 피고인과 일치합니다. 검사가 주장합니다. "무작위로 선택한 사람의 DNA 프로필이 현장 증거와 일치할 확률은 100만 분의 1입니다. 따라서 피고인이 무죄일 확률도 100만 분의 1입니다."


그럴듯하게 들리지만, 그 검사는 P(DNA 일치|무죄)와 P(무죄|DNA 일치)를 혼동했습니다. 생각해 보세요. 도시 인구가 500만이라면, DNA가 일치하는 사람이 평균 5명 있습니다. 다른 증거가 없다면 피고인이 무죄일 확률은 얼마일까요? 4/5, 즉 80%입니다. 검사가 주장한 100만 분의 1과는 천지 차이죠.


실제로 이런 오류가 비극을 낳기도 했습니다. 대표적인 사례가 영국의 샐리 클라크(Sally Clark) 사건입니다. 그녀는 두 자녀가 영아돌연사 증후군(SIDS)으로 사망한 후 살해 혐의로 기소되었습니다. 재판에서 전문가는 이런 일이 일어날 확률을 7300만 분의 1이라고 증언했습니다. 배심원들은 이를 근거로 샐리 클라크에게 유죄를 선고했죠. 하지만 항소심에서 이 통계적 추론의 오류가 밝혀졌고, 결국 무죄가 선고되었습니다. 그녀는 석방 후 후유증에 시달리다 2007년 사망했습니다. 조건부 확률의 오해가 한 사람의 인생을 파괴한 것입니다.


일상에서도 P(A|B)와 P(B|A)를 구분하는 일은 생각보다 중요합니다. 몇 가지 예를 더 살펴봅시다. 인플루언서가 추천한 제품이 좋은 제품일 확률과 좋은 제품이 인플루언서에게 추천받을 확률은 다릅니다. 범인이 현장에 있었을 확률과 현장에 있었던 사람이 범인일 확률도 마찬가지입니다. 성공한 아이돌이 오랜 연습생 시절을 거쳤을 확률은 매우 높지만, 연습생이 성공한 아이돌이 될 확률은 극히 낮습니다.


이 차이를 이해하면 더 나은 판단을 내릴 수 있습니다. 조건부 확률은 단순한 수학 공식이 아닙니다. 새로운 정보를 얻었을 때 우리의 믿음을 어떻게 수정해야 하는지 알려주는 도구입니다. 소개팅 앱에서 프로필에 '독서'라고 쓴 사람을 만났다고 해봅시다. 이 정보를 얻기 전, 그 사람이 책을 좋아할 확률은 P(책을 좋아함) = 50%였습니다. 하지만 프로필 정보를 본 순간, 합리적인 사람이라면 이 확률을 P(책을 좋아함|프로필에 '독서') = 57%로 조정해야 합니다. 이것이 바로 조건부 확률의 힘입니다.




[♪ 차분한 음악]


이지은: 조건부 확률, 어떠셨나요? 처음엔 복잡해 보였는데 생각해 보니 우리가 매일 하는 판단들이었죠?


소개팅 프로필을 믿을지 말지, 양성 판정 후 얼마나 걱정해야 할지, 심지어 답장이 늦은 친구가 정말 바쁜 건지 화난 건지까지. 우리는 계속 '이런 상황에서 저럴 확률이 얼마나 될까?'를 묻고 있어요. 그동안 이게 조건부 확률이었다는 걸 몰랐을 뿐이죠.


오늘의 핵심은 딱 하나예요. P(A|B)와 P(B|A)는 다릅니다! '지각한 날 버스가 늦었을 확률'과 '버스가 늦은 날 지각할 확률'이 다른 것처럼 말이에요. 이 차이만 기억해도 여러분은 이미 많은 사람보다 똑똑한 판단을 하고 있는 거예요.


[띠링!]


오늘의 미션입니다! 첫째, 일상에서 'A일 때 B일 확률'과 'B일 때 A일 확률'이 다른 예시를 3개만 찾아보세요. 힌트 드릴게요. 식당, 교통, SNS를 생각해 보면 쉽게 찾을 수 있을 거예요. 둘째, 그중 하나를 주변 사람에게 설명해 보세요. "있잖아, 이거 알아? 맛집이 붐빌 확률이랑 붐비는 곳이 맛집일 확률은 달라!" 이런 식으로요. 셋째, 전체 확률의 법칙이 쓰일 만한 상황을 하나 생각해 보세요. 하나의 사건을 여러 경우로 나누어 생각할 수 있는 상황이면 됩니다. 예를 들어, 지각할 확률을 구할 때 이용하는 교통수단별로 나누어 계산하는 것처럼요!


다음 시간엔 우리 머릿속 확신의 온도계를 들여다봅니다. '아마도', '거의 확실해', '글쎄... 반반?' 같은 표현들, 매일 쓰지만 정확히 몇 퍼센트를 의미하는지는 모호하죠. 이런 모호한 말들을 숫자로 바꾸는 방법을 배워볼 거예요. 여러분의 직감과 느낌도 확률로 표현할 수 있다는 걸 알게 되실 겁니다!


P(A|B)와 P(B|A)는 다르다. 이 한 문장만 기억해도, 여러분은 뉴스도, 통계도, 사람도 더 정확하게 읽을 수 있어요. 저는 이지은이었습니다.


[♪ 밝은 음악]




참고문헌


1. Gigerenzer, G., Gaissmaier, W., Kurz-Milcke, E., Schwartz, L. M., & Woloshin, S. (2007). Helping doctors and patients make sense of health statistics. Psychological Science in the Public Interest, 8(2), 53–96. https://doi.org/10.1111/j.1539-6053.2008.00033.x

월, 수, 금 연재
이전 04화Ep.4 동전 앞면 확률은 정말 50%?