brunch

You can make anything
by writing

C.S.Lewis

by 문 진영 Sep 09. 2023

챕터 4. 피셔리안 추론 및 최대우도추정법

Computer Age Statistical Inference

이번에는 챕터 4 피셔리안 추론 및 최대우도추정법에 대해 다루도록 하겠다. 통계를 배운 사람이라면 (완전 정통코스가 아니라면) 많이 들어는 보았으나 그 확실한 이론적 background는 약간 부실할 수 있다. 이번 챕터에서 완전히 concrete하게 다져보자. 


기본적인 내용은 다 넘어가고 고급 내용만 다룬다.


처음은 우도 즉 가능도와 최대 우도 즉 최대 가능도에 관한 이야기다. 

가능도에 자연로그를 취한 값, 즉 로그 우도를 중심으로 이야기가 펼쳐진다. 

로그 우도에 대한 심플한 정의다.


사전분포가 constant, flat 함수라 하면 최대 가능도 추정치에 해당하는 parameter 추정치는 베이지안 통계에서 사후확률을 최대화시키는 값이다.


주어진 데이터에 2개의 maximum-likelihood density estimates를 제시하는데 검정색 라인이 정규분포를 가정한 것이고 파란색 점선이 감마분포를 가정한 것이다. 

요건 각각 최대가능도추정법을 사용하여 parameter를 추정한 것이다.

MLE는 추정해야하는 parameter의 갯수가 늘어날 수록, 각각 한 개의 parameter에 대해서는 추정을 잘 하는 편이지만, 일군의 parameter 그룹에 대해서는 추정치가 부정확한 경우가 종종 보인다. 그래서 high dimensional application에서 "maximum coordinate value"에 관심이 있을 때는 변수를 표준화하여 (regularized version of MLE) 최대우도추정법을 적용하라고 한다. 


두 번째 파트는 fisher 정보량에 대해 다룬다. 앞에 증명들은 쭉 따라가보면 된다. 고등학교 수학 미적에서 배운 미분 적분 원리 적용 및 영어로 몇 가지 미적용어를 알면 대부분 이해가 가능하다. 

이게 fisher 정보량의 핵심인데, 한 마디로 여러 증명을 통해 parameter 추정치 쎄타가 정규분포를 따른다고 가정하면 관측치 쎄타를 기준으로 알려진 표본분산을 표본의 갯수로 나눈만큼의 분산을 가지고 정규분포한다는 것이다. 이걸 피셔 정보량이란 개념을 이용해서 증명한다. 

 

크래머 라오 하한이 여기서 나오는데 만약에 우리가 쎄타의 불확실한 추정치가 아니라 n개의 가상의 표본으로부터 정말로 unbiased 추정치 쎄타를 알 수 있다면, 여기서 얻어진 unbiased estimate 세타의 분산이 무조건 피셔 정보량을 이용하여 얻어진 분산의 추정치보다 크거나 최소한 같을 수 밖에 없다는 증명이다. 


세 번째 파트는 conditional inference인데 한국말로 조건부 추론이라 하면 될 것 같다. 조건부 추론은 한 마디로 빈도주의자들이 모수의 분포를 예상해서 parameter 추정치를 결정하는데 반해 이 모수의 분포에 대한 parameter 추정치를 이미 관측된 값을 기준으로 판단한다는 것이다. 즉 베이지안 통계에서 사전분포의 확률 곱하기 likelihood 값을 곱하여 사후확률을 구하는데, 여기서 사전분포만 없는 것과 같다. 


사실 이 방식은 이미 많은 빈도주의 통계에 확산된 방법으로 회귀직선에서 각 point에서의 신뢰구간을 구할 때도 각 x값이 주어졌다는 가정 하에 contioned on the observed value of x 된 신뢰구간을 구한다. 


이 파트의 마지막 논의는 최대우도추정치가 얼마나 정확한지에 대해 다룬다. 4.36은 parameter 추정치의 정규분포에서 피셔정보량 (타우헷) 곱하기 샘플 갯수의 역수가 이 parameter의 분산을 나타낸다는 걸 이야기하고, Fisher는 이 샘플 갯수 곱하기 피셔정보량은 I(x)라는 부호로 나타내는 걸 선호했는데, 이는 실제로 관찰된 피셔 정보량을 이야기한다 (피셔 정보량은 표본이 주어지면 직접 계산이 가능하다).

4.38과 같은 식으로 I(x)를 계산하는데, 최대우도의 2차 미분에 음수를 붙인 것이 I(x)이다 (이는 앞에서 피셔 정보량을 이용한 MLE 방법에 대한 증명을 보면 자연스레 나온다.)

여기에서 I(x)의 기대값은 샘플갯수 곱하기 피셔정보량인데, 따라서 샘플의 갯수가 커질수록 I(x)는 샘플갯수 곱하기 타우헷으로 수렴해서 4.37은 4.36으로 수렴한다. 근데 충분히 샘플 갯수가 많기 전에 피셔는 I(x) 자체가 parameter 쎄타의 분산에 대해 더 나은 정보를 제공한다고 주장했다. 

그래서 이를 실제로 코시분포에서 20개의 샘플을 추출하는 (independent and identically distributed) 컴퓨터 시뮬레이션을 10000번 돌렸고, 각 경우마다 피셔정보량의 역수인 information bound 1/I(x)를 각각 계산했다. 그리고 이 10000번의 경우를 I/I(x)를 x축으로 쭉 나열했고, y축에 실제 20개의 샘플에서 관측된 쎄타 추정치의 경험적 분산을 표기했다. 


Figure 4.2가 그 결과인데 우리는 피셔가 이야기한대로 쎄타 추정치의 경험적 분산에 1/(x)이 근접하는 것을 알 수 있다. 실제 샘플이 20개가 아니라 어마어마하게 크면 unconditional variance 샘플 갯수 곱하기 타우헷은 위 그래프의 빨간색 수평 점선 0.10인데 20개의 샘플에서 계산한 conditional variance는 0.50~0.20의 분포를 보이는 것을 알 수 있다. 

피셔 정보량이 커질수록 쎄타의 분산이 매우 작아지고 이는 베이지안이 빈도주의자를 공격하는, 즉 빈도주의자들은 실제로 보이는 데이터와 매우 다른 데이터셋 (모수의 분포라 여겨지는 분포에서 추출된)을 염두에 두고 있다는 것을, 상당부분 반박한다.

multiparameter families에서는 이 식을 쓰면 된다.


네 번째 파트는 permutation and randomization이다. 피셔의 MLE는 정규분포 가정에 너무 심하게 의존한다. 이에 대해 피셔는 신뢰구간 계산의 다른 대안으로 퍼뮤테이션이란 방법을 제안하는데, 

한 마디로 두 군에서 각각 얻어진 값을 t-test로 비교할 때, 이 두 집단을 집단 표지 없이 다 섞어버린 후 랜덤하게 나누어보아 t값을 계산했을 때, 이 10000번 계산된 t값이 분포를 그림으로 그리면 figure 4.3과 같이 나타나는데, 이 중 우리가 실제로 알고자 하는 차이 값보다 큰 t 값이 몇개 존재하는지 세서 유의확률을 계산하자는 것이다. 여기서는 10000번 중 26번이 나타나서 0.0026이 p-값이 된다.


permutation을 정리해보면 결국 permutation의 귀무가설은 우리가 보고자 하는 값 (여기서는 두 군에서 얻어진 특정 값의 차이)이 iid sample이라는 것이다. 여기서 모분포가 정규분포를 따른다는 가정은 없다. 즉, 정규분포가 아니더라도 같은 분포면 된다. 이게 같은 분포에서 온 거면 permutation 방법으로 두 군을 섞어서 어떻게 두 군을 분리해내도 그 우리가 보고자 하는 특정한 값의 차이를 계산해보면 같은 분포에서 나왔으므로 극단값이 매우 희귀하게 나올 것이다. 하지만 이 분포를 쭉 그려봤을 때 우리가 보고자 하는 값이 극단값에서나 그 와 비슷한 구간에서 나와야 한다면, 이 특정값이 차이가 같은 분포에서 나왔다는 귀무가설을 기각할 수 있다. 이는 피셔의 inductive inference의 한 예이다. 이 permutation에서는 정규분포 가정이 필요 없다.


실험조건에서는 피셔는 randomization이라는 설계를 주장했는데 이게 RCT이다. randomizationdm은 permutation test의 결론을 더 강화해준다. 즉 결과값에 영향을 미칠 수 있는 다른 변수까지 모두 동일하게 맞춰버리는 것이다. 




매거진의 이전글 챕터 6. Empirical Bayes
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari