brunch

You can make anything
by writing

C.S.Lewis

by 문 진영 Sep 27. 2023

챕터10. 잭나이프 및 부트스트랩

Computer age statistical inference

잭나이프 및 부트스트랩은 한 마디로 신뢰구간을 구하는 방법에 대한 이야기다. 우리가 모수에 대한 어떤 특정 분포를 가정하면 현재 관측된 관측값들을 기반으로 모수를 추정할 수 있고, 이 추정한 모수에 대해 추정의 신뢰구간을 이야기할 수 있다. 물론 이 모수 추정값과 신뢰구간은 어떤 분포를 가정하느냐에 따라 계속 바뀐다.

잭나이프나 부트스트랩은 기본적으로 모수에 대한 가정이 없다. 즉 기본적으로는 nonparametric 기법이다. 물론 parametric 잭나이프나 부트스트랩도 존재한다. 하지만 기본적으로는 비모수적이다. 주어진 관측값에서 반복추출을 허용해서 표본을 계속 새로 만들어 이 새로운 표본들을 기반으로 모수의 분포를 산출한다. 따라서 기본적으로는 관측값에 의존적이라고 볼 수 있다. 또한 관측값의 분포에 기댄다고 할 수 있다.

기본적인 건 다 건너뛴다. 잭나이프나 부트스트랩이 뭔지 모르시는 분은 구글링하면 쉽게 검색되니 보고오시는 게 좋을 것 같다. 핵심은 다음 내용들이다.

잭나이프는 기본적으로 nonparametric이다. 잭나이프로 잭나이프 표준편차를 산출하는 것은 사실상 자동화된 프로세스로 알고리즘으로 요약가능하다. n에서 1개를 뺀 n-1개의 기반으로 작동하며, smooth behavior를 가정한다 (샘플이 어떻든 같은 방식으로 작동). 아래 캡쳐 내용까지 설명하자면, 잭나이프는 true standard error의 추정값으로서 약간 upward bias되는 경향이 있다.

잭나이프가 부트스트랩에 비해서 약점은 local derivatives에 의존적이라는 것이다. 위 그림에서 25세의 나이에서 jackknife 신뢰구간은 bootstrap에 비해 상당히 넓다.

부트스트랩의 특징을 정리해보면 다음과 같다. 역시 자동화된 프로세스이다. 그리고 대부분은 one-sample nonparametric bootstrap에 대해서 다룬다. 하지만 parametric bootstrap과 multisample bootstrap은 뒤에서 다뤄질 것이다. bootstrap은 original data를 마구 흔들어 섞은 다음 중복을 허용해서 추출한다. 따라서 잭나이프처럼 local derivatives에 영향을 심하게 받지 않는다. 따라서 unsmooth statistics일 때도 jackknife에 비해 더 믿을 수 있다. 200번 정도면 잭나이프 표준편차를 산출하기에 충분하다. 그러나 bootstrap confidence interval을 산출하고자 한다면 1000번이나 2000번은 프로세스를 반복해야 한다.

위 테이블은 학생들의 5과목 점수들의 상관계수를 산출한 표인데, eigenratio라는 통계량의 추정치가 0.693이고 이 추정치의 bootstrap 표준편차가 0.075이다. jackknife는 0.083 표준편차를 산출해냈다.

이를 히스토그램으로 나타내면 다음과 같다. 검은 수직선이 추정치인 0.693이다. 긴 왼쪽꼬리는 정규성 가정이 위험한 가정임을 나타낸다.

이 다음장부터는 parametric bootstrap 파트이다. 이 파트는 parametric 분포에 대한 가정이 들어간 bootstrap 버전이라고 보면 된다. 즉 표본에서 랜덤으로 같은 확률로 뽑는 것이 아니라, poisson 분포를 따른다는 가정하에 resampling을 하는 것이다 (이 예시에서). 여기서 뮤 케이 헷은 maximum likelihood estimation을 이용해 추정될 수 있다. 아래 표 10.2가 그 결과이다. degrees of freedom을 2~7까지 설정함에 따라 parametric bootstrap이 산출한 표준편차가 다음과 같고, nonparametric standard error는 맨 우측 열과 같다. 가장 표준편차가 낮은 부분은 degrees of freedom이 3~4 정도 되는 구간일 것이다.

이건 위에서 설명한 eigenratio의 parametric bootstrap 버전이다. 5개 dimension의 multinomial distribution 가정을 이용하였다. 하늘색 히스토그램은 nonparametric bootstrap이다. 결과치를 보면 parametric의 표준편차가 더 작다 (0.70 vs 0.75).

이 마지막 부분은 robust estimation과 influence function을 다루는데 사실상 이 influence function은 infinitesimal jacknife이거나 jackknife이다. 표는 47명의 leukemia ALL score에 대해 trimmed mean과 그에 대한 bootstrap 표준편차, 그리고 마지막 맨 우측 열에서 표준편차에 대한 empirical influence function estimate를 제시한다 (infinitesimal jackknife estimate). 여기서 trimmed mean의 trim 0.3까지는 influence function 추정 표준편차가 bootstrap보다 더 작거나 같다. trimmed mean의 trim이 0.4가 넘어가면서 influence function 추정 표준편차가 trimmed mean에 대한 bootstrap 추정치보다 더 커진다.

keyword

문 진영 소속 직업환경의학 직업 의사

안녕하세요. 직업환경의학과 전문의이자 연구자이며, 서울대학교 보건대학원 환경보건학과에서 박사학위를 받은 문진영입니다.

구독자 86

작가의 이전글 챕터 6. Empirical Bayes

작품 선택

키워드 선택 0 / 3 0

댓글여부

댓글 쓰기 허용 afliean

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari