베이즈 정리는 조건부 확률을 알고 있을 때 정반대의 조건부 확률을 구하는 방법이다. 확률은 절대적인 사실이 아니라 믿음이라는 점에 착안하여 믿음을 계속 개선시켜나가는 방법이다. 공식은 다음과 같다.
P(A|B)는 B라는 조건이 주어졌을 때 A가 일어날 확률을 말한다. 베이즈 조건이 유용한 이유는 P(A|B)는 모르지만 그 반대인 P(B|A)는 알 수 있어서 역확률을 구할 수 있기 때문이다. 예컨대, '대출'이라는 단어가 들어 있는 이메일이 스팸일 확률은 얼마일까? 이전까지의 스팸 메일을 살펴보면 된다. 스팸 메일 중 '대출'이란 단어가 얼마나 들어가 있는지 확률을 먼저 알아내고, 베이즈 정리로 역확률을 구하여 문제를 해결한다.
문제1. 코로나 검사에서 양성 판정이 나왔다. 실제로 코로나에 감염되었을 확률은 얼마일까?
조건은 다음 표와 같다. 실제로 코로나에 걸릴 확률은 0.01 (1퍼센트)로 알려져 있다.
답:
위 표는 감염되었을 때 양성판정은 370, 음성판정은 15인것을 나타낸다. 정확도는 370/(370+15) = .961 즉 96.1%이다. 양성판정을 받은 경우, 사람들은 코로나에 걸렸을 확률이 96.1%라고 대답한다. 물론 오답이다. 베이즈 정리로 코로나에 걸렸을 확률을 계산할 수 있다. 공식은 다음과 같다.
= (370/385)x0.01 / {(370/385) x 0.01 + (10/170) x0.99}
= 0.40
양성판정을 받았을 경우에도 실제로 코로나에 감염 되었을 확률은 40%이다. (정확도가 상당히 떨어지는 코로나 검사 장치이다.)
파이썬으로는 다음과 같이 계산할 수 있다.
문제2. 검은 구름이 있다면 비가 올 확률은 얼마일까?
7월, 서울은 덥고 비가 자주 온다. 밖을 보니 검은 구름이 보인다. 비가 내릴까?
통계를 살펴보니, 7월에 비가 오는 날은 30%이다. 비가 오는 날은, 95%의 확률로 아침에 검은 구름이 있었다. 비가 오지 않는 날은, 25%의 확률로 검은 구름이 있었다.
검은 구름이 있다면 비가 올 확률은 얼마일까?
답:
조건부 확률이므로 베이즈 정리를 사용하여 계산한다.
R = 비 올 확률
C= 검은 구름
문제는 P(R|C)이다. 위 문제를 수식화하면 다음과 같다.
P(R) = 0.3
P(C|R) = 0.95
P(C| not R) = 0.25
베이즈 정리를 정리 공식에 대입한다.
P(R | C) = P(R and C) / P(C) = P(C | R) P(R) / Pr (C) = .95 * .30 / P(C)
P(C) = P( C and R) + P(C and not R) = .95*.30 + P(C | not R) P(not R) = .95*.30 + .25*.70 = 0.46
그러므로, P(R | C ) = (.95)(.30) / .46 = .619
아침에 검은 구름이 있다면 비올 확률은 61.9%이다.
2016년 미국 통계학회는 p-value의 사용을 경고했다. p-value는 전통적으로 학자들이 연구 결론을 내리는통계기법이다. 그러나 잘못된 사용과 남용으로 인하여 잘못된 의사결정을 내릴 수 있다. 베이즈 정리는 불확실성을 인정하고 믿음을 계속 개선시켜나가기 때문에, p-value를 사용하는 통계기법 보다 나을 수 있다.