brunch

You can make anything
by writing

C.S.Lewis

by 문 진영 Sep 05. 2023

챕터 3. 베이지안 추론

Computer Age  Statistical Inference 


오늘부터 통계학 교과서를 하나 선정해 챕터 별로 분석 및 요약해 보는 글을 써볼까 합니다. 이렇게 챕터별로 하나씩 요약해두면, 통계가 필요한 공부하는 학자들에게는 도움이 될 것입니다. (나중에는 도서별로 글을 묶어 발행할 것입니다.)


이번 글은 Bradley Efron과 Trevor Hastie의 Computer Age Statistical Inference라는 교과서의 챕터 3, 베이지안 추론입니다. (Bayesian Inference)


이 글은 통계 기본과 중급 이상을 배운 다양한 도메인 분야를 가진 학자들을 위한 글로 일반 기초 통계학을 배우려는 사람들의 수준과는 맞지 않음을 미리 알려드립니다. 


너무나 유명한 모두가 다 아는 베이즈 룰이죠. 자세한 설명은 생략합니다. 딱 보면 다 아시죠.



베이즈 룰을 아주 쉽게 설명한 것이라 생각됩니다. 그냥 바로 영어를 읽으시면 이해가 될 것입니다.



사전 분포를 모를 때 이렇게 3개를 지정해보면 flat prior를 지정했을 때보다 jeffreys를 지정하면 좀 과대평가되고, Triangular를 지정하면 좀 과소평가되죠.



Attention shifts from choosing a good frequentist procedure to choosing an appropriate prior distribution.


빈도론자가 분포를 신중히 가정하고 얻어진 데이터에서 모수를 계산하는 것에 주력한다면, 

베이지안 추론은 이미 데이터는 고정되었다고 가정하고 더 적합한 사전분포를 찾는데 집중합니다. 혹은 사전분포를 찾았다고 가정하고 사후분포를 계산하거나 다음 결과를 예측하는데 관심을 둡니다. 


빈도론자는 과도한 관측값은 selection bias로부터 비롯되었을 수 있다고 생각하는 반면, 

베이지안론자는 관측값은 절대 불변이라 가정하고, likelihood function도 사전분포가 주어져 있다면 바뀔 수 없다고 가정합니다. 따라서 selection bias는 이론상 없습니다 (사전분포가 정말로 맞다면).

베이지안 방식은 사전분포과 완벽히 알려질 경우 selection bias를 완전히 배제할 수 있으나, 사전 분포를 임의로 정하는 경우에는 주의해야 합니다. 이 경우는 selection bias의 혼입이 가능합니다.  


 Frequentism replaces the choice of a prior with the choice of a method, or algorithm, t(x), designed to answer the specific question at hand. This adds an arbitrary element to the inferential process.


베이지안론자는 사전분포를 정하는데 심혈을 기울이고 이를 기반으로 사후확률을 계산하는데 심혈을 기울입니다. 빈도론자는 분포를 신중히 가정하고 모수를 찾아내는데 심혈을 기울입니다. 빈도론자가 분포를 가정하는데서 주관적인 생각이 개입될 여지가 있습니다.


일단 사전분포가 정해지면 관측치에 기반한 사후확률의 분포는 확정됩니다.

하지만 빈도론자는 분포 자체를 신중히 찾아내고 얻어진 데이터를 잘 설명할 수 있느지 여러 방식으로 시도합니다. 더 신중한 접근입니다. 

베이지안은 사전분포만 정해지면 그 이후는 간단합니다. 사전분포가 정확하냐 안 정확하냐에 올인하는 도박꾼과 비슷하다고 보면 됩니다. 빈도론자는 더 방어적인 태도를 취합니다. 

베이지안은 사전분포를 정하면 모든 통계적 질문에 한 방에 대답할 수 있습니다. 빈도론자는 그때그때 질문질문마다 다른 분포를 가정할 수도 있고, 더 많은 사고와 사유를 해서 가능성을 시험합니다. 이는 더 문제를 더 세부적으로 볼 수 있게 합니다. 

베이지안은 심플해서 끊임없이 데이터가 다이내믹하게 들어오고 사전분포를 빠르게 가정해서 사후분포를 계산하고 다음 결과를 예측하는 작업에 맞습니다. 굳이 빈도론자에서 찾자면 maximum likelihood estimation이겠네요. 

정말 정확한 사전분포를 알 수 없다면 베이지안 통계는 어느정도 주관성이 들어갑니다. 고전적인 빈도주의자의 통계는 극단적 과학적 객관성을 장점으로 하고, 특히 이는 신약 테스트나 승인, 첨예한 학문분야 같은 논쟁적인 분야에 맞습니다.  



***결론적으로 학문을 하고 논문을 쓰는데는 고전적 빈도주의가 더 맞는 통계방법이란 걸 알 수 있습니다.

작가의 이전글 [NBC news] 하와이 산불현장 바이든
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari