brunch

You can make anything
by writing

C.S.Lewis

by 문 진영 Sep 24. 2023

챕터 6. Empirical Bayes

Computer age statistical inference

테일러 급수를 맞닥뜨린 후의 결심은 모든 증명을 다 이해할 수는 없다는 것이다. 이 책은 여러 번 인쇄를 거친 비교적 잘 쓰여진 책이기 때문에 이해가 안가는 증명이 있다면 통채로 눈에 바르고 넘어가기로 한다. 전체적 맥락을 이해하는게 우선이기 때문이다.


가장 핵심은 Robbins Formula이다. 이 robbins formula는 한 마디로 반복적으로 일어나는 사건의 경우 과거의 발생 정보를 이용하여 미래의 발생을 예측할 수 있다는 것이다. 이 개념을 자동차 보험에 가입한 사람들이 실제로 청구를 몇 번이나 하는지 예시를 통해 보여준다. 


포아송 분포를 따른다고 가정하면 다음과 같은 전개가 가능하다. 

이게 경험적 robbin's formulal이다. 

여기서 f(x)는 x의 marginal density인데, 경험적으로 관찰값을 사용한다.

결국 반복되는 large dataset은 그 자체로 안에 베이지안 정보를 가지고 있다는 것이 이 추론의 핵심이다.

fisher는 참고로 원래 이 방법을 고안할 때 nonparametric이 아니라 parametric인 감마분포를 사용했는데 감마분포를 사용하면 식이 약간 달라져서 위와 같이 된다. 


또 다른 예는 butterfly 데이터이다. 한 나비학자가 말레이시아에서 2차 대전 직후에 나비채집을 하는데, 1번 관측된 종이 118종, 2번 관측된 종이 74종, 이런식의 데이터이다. 이 경우 만약에 2년을 관찰했는데 추가로 1년을 더 관찰하면 기존에 관찰되지 않던 새로운 종이 몇 종이나 나타날 것으로 기대할 수 있느냐는 것이다. 같은 방식으로 포아송 분포를 가정하여 전개하는데, 증명은 생략한다. 결과적으로 다음과 같은 empirical Robbin's formula가 산출된다.


위는 같은 예시에 대해서 각 t에 대해 E(t)와 sd(t)를 nonparametric 방식으로 산출한 것과 gamma 분포를 가정하여 parametric 방식으로 산출한 것이다. t가 1이 넘어가면 E(t)에 대해서 감마분포 parametric 분포를 가정하는 것이 더 안정적인 결과를 가져다준다. 

세 번째 예시는 셰익스피어의 단어 사용인데 한 작품에서 884647 단어가 총 사용되었고, 그 중 14376개의 단어는 한 번 사용되었고, 4343개의 단어는 두 번 사용되었고, 이런 식으로 진행된다. 이 경우 비슷한 단어 갯수를 가진 작품이 하나 더 발견되었을 때 (t=1, 884647단어) 그 안에 이 작품에서는 한 번도 사용 안 되었던 단어가 몇 개나 나올 것으로 기대할 수 있느냐가 아까 나비문제와 같은 format이다. 여기서 empirical Robbin's formula를 이용하면 11430 플러스마이너스 178개의 결과를 계산할 수 있다. 

missing mass라는 개념을 이 부분에서 소개하는데 한 마디로 쎄타 케이를 전부 합친 것 중에 관측되지 않은 즉 한 번도 등장하지 않은 단어에 대한 쎄타 케이를 전부 합친 것의 비중이다. 포아송 분포에서는 쎄타 케이를 모든 케이에 대해 전부 합친 쎄타가 실제 관측 빈도의 기대값이므로, 위의 missing mass는 모든 단어의 갯수에 대한 관측되지 않은 단어의 갯수로 볼 수 있다. 이를 수식으로 전개하면 missing mass는 결국 이전에 1번 관측된 단어의 갯수 나누기 관측된 해당 작품의 전체 단어의 갯수와 같다는 것을 알 수 있다. 이를 계산하면 0.016으로 결국 전체 셰익스피어가 알고 있는 단어 중 1.6%가 해당 작품에 나타나지 않았다고 추론할 수 있다.

 

마지막 예시는 의사들에게는 이해하기 쉬운 수술장 림프노드 총 절제 갯수 중 악성종양 양성 림프노드 갯수의 비율을 p로 표현했다. 총 환자는 844명이다. 각 환자 k에 대해 개별 노드의 양성이냐 음성이냐는 확률이 쎄타 케이인 이항분포를 따른다고 가정했다. 그러면 여기서 총 nk번 노드를 잘라봤을 때 양성인 노드의 갯수 xk는 식 6.36과 같은 평균과 분산을 따른다. 여기서 베이지안 분석을 수행해보면 쎄타 케이의 사전 분포가 g(쎄타)라 하고 이 g(쎄타)에 로그를 취한 것을 4개의 알파값을 포함하는 행렬을 이용한 4차 다항식으로 나타낼 수 있다고 가정하자. 

그럼 여기서 f알파(엑스케이)를 환자 케이에 대해 관측값 엑스 케이의 marginal probability라고 하면 6.40과 같은 수식 전개가 가능하고 결국 베이지안 추론을 진행해보면 모든 환자 k는 1부터 N까지 이 모든 f알파(엑스케이)값의 곱을 가장 최대로 만들 수 있는 알파 행렬 4개의 구성성분을 계산하는 것이 maximum likelihood estimate이다. 이를 계산할 수 있다. 


그렇게 해서 각 p에 대한 기대값 쎄타에 대해서 계산된 사전분포는 위의 figure 6.4와 같다. 

여기서 각각 x와 n을 어떻게 설정하느냐에 따라 사후분포가 달라진다. 첫번째 환자가 파란 대시 라인, 두 번째 환자가 갈색 실선 라인, 세 번째 환자가 검정 점선 라인이다. 각각의 경우에 대해 대략적인 쎄타의 분포를 알 수 있다. (쎄타는 p의 기대값이다.)


마지막으로 두 번째 환자에 대해서 직접 계산한 쎄타의 기대값은 3/6=0.5지만 위의 empirical 방식으로 계산하면 0.446으로 약간 다르다. 이 책의 뒤로 가면 이 차이가 점점 커지는 예시들을 다양하게 보여준다.


즉 반복되는 사건이 거대하게 관측된 자료가 있을 때, empirical bayes 기법으로 미래의 발생을 예상할 수 있다.


작가의 이전글 챕터 4. 피셔리안 추론 및 최대우도추정법

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari