brunch

You can make anything
by writing

C.S.Lewis

by 조영필 Zho YP Jul 24. 2016

베이즈의 정리

조영필

귀무가설과 대립가설 그리고 1종 오류와 2종 오류에 대해 생각하다가 이것이 베이즈의 정리와 기본 구조가 같다는 생각이 들었다. 통계학 처음 배울 때, 조건부 확률 공부하면서 나오는 것인데 알 것 같다가도 돌아서면 모르겠던 그 정리이다.

문제는 다음과 같다.

희귀한 질병이 인구 1,000명 당 1 사람을 감염시킨다. 그리고 이 질병에 대해 완벽하진 않지만, 좋은 검사법이 있다. 질병을 가진 사람의 99%는 그 검사에서 양성반응이 나온다. 그런데 문제는 질병이 없는 사람들의 2% 또한 그 검사에서 양성반응이 나온다는 것이다.

당신이 그 검사를 하였는 데, 양성반응이 나왔다. 당신이 그 병에 걸렸을 확률은?


이것은 조건부 확률이란 것으로서  P(E|O)과 같이 표현한다.

귀무가설과 대립가설처럼 문제의 구조를 도해하면 다음과 같다.
                          귀무가설    대립가설
                           건강(H)      감염(E)
   음성반응(X)        옳음              β
   양성반응(O)          α              옳음

질병과 검사 결과 관련 가능한 경우의 구조는 다음과 같다.

                           건강(H)      감염(E)        합계
   음성반응(X)

   양성반응(O)  
   합계                  0.999        0.001           1

문제에서 건강한 사람이 검사에서 양성반응 나올 확률 P(O|H) = 0.02, 감염된 사람이 검사에서 양성반응 나올 확률 P(O|E) = 0.99이므로
 
   P(H) Π P(O) = P(O|H) • P(H)

                      = 0.02 * 0.999 = 0.01998
   P(E) Π P(O) = P(O|E) • P(E)

                      = 0.99 * 0.001 = 0.00099

                          건강(H)      감염(E)        합계
  음성반응(X)
  양성반응(O)     0.01998    0.00099    0.02097
                         0.999        0.001          1

문제의 질문은 양성반응 중 감염자 확률은 P(E|O)

   P(E) Π P(O) = P(E|O) • P(O)
   P(E|O) =  P(E) Π P(O) / P(O)
              = 0.00099 / 0.02097  = 0.04721
                     
                         건강(H)       감염(E)        합계
 음성반응(X)     0.97902     0.00001    0.97903   
 양성반응(O)     0.01998     0.00099    0.02097
                        0.999         0.001          1


대략적으로 1,000 명을 기준으로 도해하면

                        건강(H)       감염(E)        합계
 음성반응(X)          979            0             979  
 양성반응(O)           20             1               21
                            999             1          1,000

검사의 높은 정확도에도 불구하고 실제로 양성반응이 나타난 사람의 5% 미만이 그 병을 갖고 있다. 이를 거짓 양성반응의 역설이라고 한다.
                           
1,000 명의 집단에서 평균적으로 21명만이 양성반응을 보이고, 그중 1명만이 그 병을 갖고 있다.

양성반응의 검사 결과로 인해, 검진자의 감염 가능성은 1,000명 중 1명에서 21명 중 1명으로 증가하였다.  

다시 가설검정 기법으로 생각해보면

α = 0.02, β = 0.00001, 1-β = 0.99999

즉, 이 검사기법은 1종 오류도 5% 이하로 적정한 판별력을 가지고 있으며, 검정력도 높은 훌륭한 검사법이다. 그럼에도 불구하고, 양성반응 검진 결과의 95%가 질병이 없는 사람이라고 본다면, 가설검정 시, 그 판단에 신중해야 할 충분한 필요를 예시하고 있다고 할 수 있다.


질병 대신 범죄로 치환하고 읽어 보자. 1,000명으로 구성된 사회에서 아무 죄없는 시민 20명이 진범 1명과 함께 구속된 것이다. 따라서 범죄 수사에 있어서 무죄 추정의 원칙과 99% 신뢰수준은 무고한 시민의 억울한 누명과 불의한 고통을 줄여주기 위해서 마땅히 요구되는 것임을 이해할  수 있다.

베이즈의 정리

P(A|B) = {P(A)•P(B|A)} / {P(A)•P(B|A)+P(~A)•P(B|~A)}
           = P(A Π B) /  {P(A Π B) + P(~A Π B)}
           = P(A Π B) / P(B)

(고닉 & 스미스, [통계학 길잡이], pp 46-50 참조)

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari