brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Mar 16. 2020

주사위는 던져졌다 #2

평균을 중심으로 좌우로 정렬, 중심극한정리

http://www.yes24.com/Product/Goods/71859635?scode=032&OzSrank=1


데이터 분석은 표본을 통해 전체를 이해해야 하므로 전체로부터 표본을 선택하는 과정이 매우 중요하다. 표본 선정 과정에는 자연스럽게 확률이 적용되고 확률은 평균과도 연결된다. 이러한 표본이 전체를 대변할 대표성이 있는지를 떠나서 표본 자체를 뽑는 과정이 고난의 연속이다.

어떤 과정을 따라 어느 부분을 표본으로 추출하든 표본 역시 해당 표본만의 특성(표본 통계)을 가진다. 표본의 다양한 특성 중에서도 표본의 중심 성향을 파악하는 표본 평균은 매우 중요하다. 일반적으로 모집단의 규모가 클수록 해당 모집단의 평균을 미리 알기 어렵다. 이런 이유로 표본을 추출해 분석하는데, 특이하게도 모집단에서 추출한 표본 평균은 모집단의 평균을 기준으로 좌우 대칭으로 분포한다. 이는 모집단의 평균이 무엇이든 상관없이 모집단으로부터 추출한 여러 표본의 각 평균은 모집단의 평균을 중심으로 좌우 대칭 형태로 분포한다는 것이다. 이러한 표본 평균의 분포 특성을 설명한 이론이 중심극한정리(central limit theorem)다.

영국의 괴짜 수학자 아브라함 드무아브르 (Abraham de Moivre, 1667~1754)가 정리한 이론이다. 그는 『우연의 교의』 2판이 발행되기 전 논문을 통해 새로운 공식을 발표했다. 이 새로운 공식은 다음과 같이 간단히 정리할 수 있다. 주사위 두 개를 동시에 던져 나오는 수의 합을 매번 기록하고, 꽤 긴 시간 기록된 결과를 바탕으로 전체의 평균을 구했다. 그 후 매일 그날의 주사위 놀이 평균을 구하였고 며칠 뒤 매일 진행한 주사위 놀이의 평균이 앞서 기록한 전체 평균을 중심으로 좌우 대칭 형태로 분포돼 나타남을 확인했다. 또한 주사위를 던지는 횟수가 많은 날은 더욱더 전체 평균에 가깝게 분포된다는 사실을 알게 됐다.

이것이 그가 최초로 발견하고 정리한 ‘중심극한정리’다. 그는 논문에서 시행 횟수가 많을수록 이 공식이 정확해지지만 100번 정도만 시행해도 충분히 좋은 결과를 얻을 수 있다고 했다.

믿지 못할 이야기 같지만 중심극한정리는 사실이다. 더 놀라운 것은 표본의 크기(표본에 포함된 관측 값의 개수)가 커질수록 표본들의 평균 값은 모집단의 평균값에 더욱 근접해 분포한다는 점이다. 100개에서 표본 10개를 뽑는 것보다 30개를 뽑으면 더 정확하게 전체 평균에 근접해 대칭 분포를 형성한다. 100개 중 90개를 표본으로 삼으면 거의 전체 평균의 중심에 붙어 표본의 평균이 좌우 대칭을 이루게 된다.

이러한 중심극한정리는 데이터 분석의 가장 기본적인 이론이다. 이것은 모집단에서 추출한 표본이 충분히 전체를 반영해 설명할 수 있다는 근거가 된다. 다시 말해, 모집단의 성격과 분포가 어떠하든 상관없이 표본 평균의 분포는 모집단의 평균을 기준으로 좌우 대칭이 되며, 이를 통해 충분히 전체를 대변할 수 있다.

앞서 언급된 것처럼 표본은 전체에서 추출한 확률이다. 따라서 표본 평균의 분포를 이론적으로 설명한 중심극한정리는 확률분포에 의거하며 이러한 확률분포를 ‘정규분포’라 부른다. 결론부터 말하면 세상의 모든 현상은 정규분포를 따른다. 기업의 매출, 시장의 공급과 수요, 키와 몸무게도 모두 정규분포 형태를 띤다. 어떤 현상을 관찰한 결과가 정규분포를 따르지 않는다면 그것은 자료가 부족하기 때문이다.

매거진의 이전글 주사위는 던져졌다 #1
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari