사전확률, 사후확률 그리고 베이지안 (Bayes)_1편

by 박정수

이제 두 번째 글에서는 조건부 확률에서 Bayesian 통계로 확장하는 내용을 다루겠습니다. Bayesian 통계는 조건부 확률의 개념을 기반으로 하며, 데이터를 통해 사전 확률(prior probability)을 업데이트하여 사후 확률(posterior probability)을 계산하는 강력한 도구입니다.



OIG15.jpg


파이썬과 함께 하는 베이지안 통계: 사전 확률에서 사후 확률로


1. Bayesian 통계란?

Bayesian 통계는 베이즈 정리(Bayes' Theorem)를 중심으로 한 통계적 접근법입니다. 이 접근법은 기존의 믿음(사전 확률)을 새로운 데이터(증거)를 통해 업데이트하여 더 나은 결론(사후 확률)에 도달하는 과정을 제공합니다.


베이즈 정리는 다음과 같은 수식으로 표현됩니다:


P(H|D)=P(D|H)⋅P(H)/P(D)


여기서:

P(H|D): 데이터 D가 주어졌을 때 가설 H가 참일 확률 (사후 확률)

P(H): 가설 H가 참일 확률 (사전 확률)

P(DIH): 가설 H가 참일 때 데이터 D가 관측될 확률 (우도, Likelihood)

P(D): 데이터 D가 관측될 확률 (정규화 상수)


Bayesian 통계는 우리가 새로운 정보를 얻을 때마다 기존의 믿음을 갱신하는 방법을 제공합니다. 이는 의료 진단, 기계 학습, 자연어 처리 등 다양한 분야에서 활용됩니다.



2. 수학식 없는 Bayesian 통계 설명


마치 "오늘 비가 올까?"라고 생각할 때, 아침에 구름을 보고 확률을 다시 계산하는 거예요. 수학 공식은 최소한으로 하고, 비유로 설명할게요. 하나씩 따라와 보세요!



1) 사전확률 (Prior Probability): "처음부터 내가 믿는 확률"

사전확률은 "새로운 증거가 들어오기 전에, 내가 이미 알고 있는 확률"을 의미해요. 이는 과거 경험, 데이터, 또는 직관에 기반합니다.

쉬운 비유: 친구가 "오늘 비가 올까?"라고 물었어요. 당신은 "어제 뉴스에서 30% 확률이라고 했어"라고 답합니다. 이 30%가 사전확률이에요. 아직 창밖을 보지 않았죠? 기존 지식에 기반한 '초기 믿음'입니다.

왜 중요할까? 베이즈 통계에서 모든 게 이 사전확률부터 시작해요. 이게 틀리면 나중 계산도 엉망이 될 수 있어요.

수학적으로: P(H)로 표현. H는 가설(Hypothesis, 예: "비가 온다")을 뜻해요.


2) 사후확률 (Posterior Probability): "새로운 정보로 업데이트된 확률"

사후확률은 "새로운 증거가 들어온 후, 업데이트된 확률"입니다. 사전확률을 기반으로 증거를 반영해 더 정확한 믿음을 만듭니다.

쉬운 비유: 위 비 예시에서, 창밖을 보니 구름이 잔뜩 꼈어요. 그래서 "이제 비 올 확률이 70%로 올라갔어!"라고 생각합니다. 이 70%가 사후확률이에요. 기존 믿음(사전)을 새로운 정보(구름)로 업데이트한 거죠.


왜 중요할까? 현실에서 우리는 항상 새로운 데이터를 받잖아요. 사후확률은 이 데이터를 활용해 더 나은 결정을 돕습니다.

수학적으로: P(H|D)로 표현. D는 데이터(증거)를 뜻해요. "데이터 D가 주어졌을 때 가설 H의 확률"입니다.


지금은 P(H|D)인지, P(D|H) 인지도 혼동이 오지만 첩보부대인 "HID"로 기억하세요. 저는 물론 HID 출신이 아닙니다. 그리고 반대로 구글링을 하니, DIH란 약자가 무진장 많은 것도 알았는데요, Digital Image Hub (DIH)는 HID와 다르다는 의미만 이해하세요 디지털 이미지 허브


3) 확률 (Probability) vs. Likelihood: "이 둘은 다르다!"

이게 초보자들이 가장 헷갈리는 부분이에요. 확률과 Likelihood는 비슷해 보이지만, 완전히 다릅니다.

확률 (Probability): "어떤 사건이 일어날 가능성"입니다. 항상 0에서 1 사이로, 전체 합이 1이 돼요. (예: 동전 던지기에서 앞면 나올 확률 0.5)

비유: "비가 올 확률 30%" – 이는 미래 사건의 가능성을 말해요.

Likelihood: "주어진 데이터가 특정 가설 아래에서 얼마나 잘 맞는가"를 의미해요. 확률처럼 0~1 사이가 아니고, 그냥 숫자예요. (합이 1이 될 필요 없음)

비유: "이미 비가 왔어. 이 비가 '구름이 많았던 날' 가설에 얼마나 잘 맞아?" – Likelihood는 데이터를 설명하는 '적합도'예요. 베이즈에서 Likelihood는 "증거가 가설을 얼마나 지지하나?"를 계산합니다. 수학적으로: 확률은 P(D|H) – "가설 H가 주어졌을 때 데이터 D의 확률". Likelihood는 이걸 가설 H에 대한 함수로 봅니다. (HID가 아닙니다)

간단한 차이는 차이: 확률은 "미래 예측", Likelihood는 "과거 데이터 설명". 베이즈에서 Likelihood는 사전확률을 업데이트하는 '증거의 힘' 역할을 해요.


4) Bayes Theorem: "모든 걸 연결

비유: 비 예시로 돌아가요.

사전: 비 올 확률 30% (P(H) = 0.3)

Likelihood: 구름이 많을 때 비 올 확률 80% (P(D|H) = 0.8)

전체: 구름이 많을 확률 (P(D))은 따로 계산 (예: 0.5)

사후: (0.8 * 0.3) / 0.5 = 0.48 (48%로 업데이트!)

이 공식으로 "새로운 정보가 들어올 때마다 믿음을 업데이트"할 수 있어요. 머신러닝, 의학, 마케팅 등에서 엄청 쓰입니다!



3. 사전확률, 사후확률 개념 다시 정리

베이지안 정리는 어렵지는 않지만 개념에 혼란이 오른 부분이라 다시 한번 정리를 합니다. 개념을 잘 아시는 분은 그냥 SKIP 하셔도 됩니다.


1) 사전확률 (Prior Probability)
사전확률은 어떤 사건이 발생하기 전에 그 사건에 대한 믿음을 수치적으로 표현한 것입니다. 이는 사건에 대한 초기 정보나 가정에 기반합니다. 예를 들어, 동전을 던졌을 때 앞면이 나올 확률은 0.5로 설정할 수 있습니다. 이는 동전이 공정하다는 가정에 기반한 것입니다.


2) 사후확률 (Posterior Probability)
사후확률은 새로운 증거가 주어진 후 사건의 확률을 업데이트한 것입니다. 즉, 사건에 대한 초기 믿음을 새로운 정보에 따라 조정한 결과입니다. 예를 들어, 동전을 던져서 앞면이 3번 연속으로 나왔다면, 사후확률은 동전이 공정할 확률을 업데이트하게 됩니다. P(H|D) 사건 D가 발생했을 때 사건 H가 발생할 확률입니다.


3) 우도 (Likelihood)

몽타주를 그렸는데, 실제 얼굴과 얼마나 유사할까?, 우리 아니가 판다곰을 그렸는데 얼마나 곰처럼 생겼을까? 이 개념이 likelihood입니다.

우도는 베이지안 통계학에서도 중요한 역할을 합니다. 베이지안 정리에서 우도는 사전확률과 결합하여 사후확률을 계산하는 데 사용됩니다. 즉, 우도는 주어진 데이터가 특정 가설이나 모델 하에서 얼마나 가능한지를 평가하는 데 필수적입니다.


4. 베이즈 정리의 직관적 이해 (예제를 통한 설명)


문제: 학생의 시험 준비

어느 학교에서 학생들이 시험을 준비하는 방법에 대해 조사했습니다. 데이터에 따르면:

전체 학생 중 70%는 시험 준비를 한다(공부하는 학생).

시험 준비를 한 학생 중 80%는 시험에 합격합니다.

시험 준비를 하지 않은 학생 중 30%만 시험에 합격합니다.


지금 어떤 학생이 시험에 합격했다는 소식을 들었습니다. 이 학생이 시험 준비를 했을 확률(사후확률)은 얼마일까요?

해결 과정

베이지안 확률을 계산하기 위해 다음을 정의합니다:

A: 학생이 시험 준비를 했다.

B: 학생이 시험에 합격했다.

우리가 구하고자 하는 것은 HID, 즉 P(A∣B), 또는 학생이 시험에 합격했을 때 시험 준비를 했을 확률입니다. (우리는 준비를 했을 때 합격한 확률을 알 뿐이고, 지나가는 많은 학생 중 고른 합격한 학생이, 시험준비를 했는지에 대한 정보가 없다)


베이즈 정리를 사용하면:

P(A∣B)=P(B∣A)⋅P(A) P(B)


1) 각 확률을 계산하기

P(A)=0.7: 시험 준비를 한 학생의 비율.

P(not A)=1−P(A)=0.3: 시험 준비를 하지 않은 학생의 비율.

P(B∣A)=0.8: 시험 준비를 한 학생이 합격할 확률.

P(B∣not A)=0.3: 시험 준비를 하지 않은 학생이 합격할 확률.


P(B), 즉 학생이 합격할 전체 확률은 다음과 같이 계산됩니다: 공부를 해서 합격을 했거나 안 했는데도 합격을 한경우 9 담임선생님이나 같은 반 학생들은 알고 있다)


P(B)=P(B∣A)⋅P(A)+P(B∣not A)

P(B)=(0.8⋅0.7)+(0.3⋅0.3)=0.56+0.09=0.65


2) 베이즈 정리 적용하기

이제 P(A∣B) P(A∣B)를 계산합니다:

P(A∣B)=P(B∣A)⋅P(A) P(B) P(A∣B)=P(B) P(B∣A)⋅P(A)

P(A∣B)=0.8⋅0.70.65=0.560.65≈0.8615P(A∣B)=0.650.8⋅0.7=0.650.56≈0.8615


3) 결과

이 학생이 시험에 합격했을 때, 시험 준비를 했을 확률은 약 86.15%입니다.


아직은 다소 혼란스러울 수 있는데, 다음 편에 더 많은 예제를 통해 이해를 해보기로 해요. 대신 오늘은 사전, 사후, 우도에 대한 개념만 잡으세요.

OIG5.jpg



이전 07화조건부확률, 확률에 왜 조건이 붙어요?