표본 분산, n-1로 나누는 이유

불편추정량(Unbiased estimator)에 대한 이해

by Yimhyehwa




1. Learning Focus


우리는 앞선 시간에서 데이터의 산포를 구체적인 수치로 파악할 수 있는 개념인 표준편차와 분산에 대해 살펴보았습니다. 분산(s의 제곱)은 표본의 개별 관측 값과 평균과의 차이인 편차를 제곱하여 모두 더한 후, 이를 표본의 크기인 n이 아닌 n-1로 나눈 값입니다. 그리고 표준편차(SD or s)는 분산의 제곱근입니다. 여기서 의문점이 생깁니다. 데이터의 중심 경향을 나타내는 표본의 평균을 계산할 때는 분모가 n이었던 것과 달리 왜 표본의 분산을 계산할 때는 분모를 n-1로 나누는 걸까요? 이번 단원은 그 이유에 대해서 알아보겠습니다.


2. 표본의 분산, n-1로 나누는 이유


표본의 분산을 계산할 때 분모를 n-1로 나누는 이유는, 분산을 구하기 전에 표본의 평균을 먼저 추정해야 하기 때문입니다. 데이터는 모집단의 평균보다 표본의 평균에 더 가깝게 분포하므로, 단순히 n으로 나누면 모집단의 분산을 과소평가하게 됩니다. 따라서 분모를 n-1로 보정하여 불편추정량(Unbiased estimator)을 얻는 것입니다.


《 마디마디 짚어보는 문장의 의미 》


표본의 분산을 계산할 때 분모를 n-1로 나누는 이유는, 분산을 구하기 전에 표본의 평균을 먼저 추정해야 하기 때문입니다. 데이터는 모집단의 평균보다 표본의 평균에 더 가깝게 분포하므로, 단순히 n으로 나누면 모집단의 분산을 과소평가하게 됩니다.


① 표본의 한계


통계학은 "우리가 추출한 전체 모집단의 일부인 표본이 모집단에 비해 다양성이 부족할 수밖에 없다."는 점을 인정하고 있습니다. 그리고 이를 보정해 주는 과정으로서 표본의 분산을 계산할 때는 분모를 n이 아닌 n-1로 조정합니다. 즉, 표본의 분산을 계산할 때 n-1을 분모로 취하는 근본적인 이유는 "표본의 한계"에 있습니다. 예를 들어 모집단 전체를 조사할 수 없어서 10명만 뽑아 표본을 만들었다고 가정해 보겠습니다. 이 10명의 Data Set은 기적과도 같이 운이 좋지 않는 이상, 전체 집단에서 저마다의 특성과 빈도를 갖고 있는 대상들을 '골고루' 포함하기 어렵습니다. 보통은 평균 근처에 모여 있는 대상들이 뽑힐 확률이 높습니다.


② 과소평가되는 변동성


모집단이 갖고 있는 다양성을 반영하지 못한 10명의 표본만 모여 있기 때문에, '그들끼리' 계산한 표본의 평균은 그 그룹의 중심에는 딱 맞춰집니다. 따라서 표본의 각 데이터끼리 평균에서 떨어진 거리(편차)를 계산해 보면, 실제 모집단의 평균에서 떨어진 거리보다 더 가깝게(작게) 측정되는 경향을 보입니다. 이러한 경향 때문에 표본의 분산을 계산할 때 단순히 n으로 나누게 되면 데이터의 퍼진 정도를 나타내는 분산이 실제의 경우보다 작게 계산 되는 오류를 범할 수 있습니다.


따라서 분모를 n-1로 보정하여 불편추정량(Unbiased estimator)을 얻는 것입니다.


우리는 표본을 통해 모집단을 추정해야 하는 입장에서 실제보다 작게 측정될 것이 예상되기 때문에 분모를 n이 아닌 조금 더 작은 숫자(n-1)로 나누어 전체 분산의 값을 상향 조정하게 됩니다. 분모가 작아지면 전체 값은 커지기 때문입니다. 이처럼 "표본은 모집단보다 덜 흩어져 보일 수 있으니까 분모를 줄여서 분산 값을 현실적으로 높여준다."는 것이 불편추정량(Unbiased estimator)에 대한 핵심 접근 논리입니다. 불편추정량에서 '불편'은 '불편하다'(Uncomfortable)라는 뜻이 아니라 '편향되지 않았다'(Unbiased)는 뜻입니다. 다시 말해, "평균적으로 봤을 때 모집단의 특성에 정확히 접근하기 위한 올바른 계산법"이라고 할 수 있습니다.


'편항'(Bias)이란 표본을 뽑아 계산을 했는데 결과값이 실제의 값보다 자꾸 크거나 작게만 나오는 경향을 뜻합니다. 반면, '불편(Unbiased)'이란 표본을 뽑아 계산한 값이 실제의 값과 매우 근사하게 나타나는 경향을 말합니다. 따라서 불편추정량이란 개념은 "표본을 수천 번, 수만 번 뽑아서 그 표본들의 계산값을 평균 내어 봤더니, 실제 모집단의 값과 거의 동일하다."라고 말할 수 있는 계산식입니다. 표본의 분산을 계산할 때, 분모를 n-1로 나누는 '편향 제거를 위한 보정 행위'를 통해, 수많은 표본 분산들의 평균 값이 실제 모집단의 분산과 일치하게 만드는 것입니다.


3. Data Set의 활용을 통한 이해


[1] 모집단 소개: A社 직원들의 출근 소요시간


A회사에 근무하는 직원 40명의 출근 소요시간에 관한 Data Set입니다. 이 데이터는 A회사에 소속된 직원 40명을 전수조사하여 수집한 것이므로, 모집단에 해당합니다. 출근 소요시간은 분 단위로 측정되었으며, 전체 데이터를 나열하면 아래와 같습니다.


image.png


이 모집단의 특성을 나타내는 몇 가지 통계량을 계산해 보면 모집단의 평균은 37.6, 분산은 52.9, 그리고 분산의 제곱근인 표준편차는 7.3 입니다.


[2] 세 가지 방정식을 활용한 분산 계산


image.png


전체 40개의 데이터 중에서 [24, 32, 37, 39]의 4개 표본을 무작위 추출하였고, 이렇게 추출한 표본을 위의 세 가지 방정식을 활용하여 계산해 보겠습니다. 세 가지 방정식 모두 분산을 계산하는 식이지만, 두 가지의 차이점이 있습니다.


첫째, 모집단의 특성을 알고 있는지의 여부입니다. 방정식 ①과 방정식 ②의 경우 모집단의 특성을 알지 못하는 것을 전제로 합니다. 따라서 표본의 평균(33)을 기준점으로 데이터의 변동성을 계산합니다. 반면 방정식 ③은 모집단의 특성을 알고 있다는 가정에서 데이터의 변동성을 계산합니다. 따라서 이 방정식은 편차를 계산할 때 모집단의 평균(37.6)을 기준점으로 사용합니다. 둘째, 분모를 표본의 크기로 나누는지의 여부입니다. 방정식 ①의 경우 분모를 표본의 크기인 n(=4)이 아닌 n-1(=3)로 나누어 분산을 계산합니다. 반면 방정식 ②와 방정식 ③은 분모를 표본의 크기인 n(=4)으로 나눕니다.


[3] 표본 분산 계산 결과


image.png


위 그림은 [24, 32, 37, 39]의 네 개 표본을 가지고 세 가지 방정식에 대입하여 계산한 분산 값입니다. 방정식 ①은 44.7(표본 평균 33, 분모 n), 방정식 ②는 33.5(표본 평균 33, 분모 n-1), 방정식 ③은 54.7(모집단 평균 37.6, 분모 n)이 됩니다. 방정식 ①의 분산 값은 실제 모집단의 분산 값인 52.9에 근접한 값으로 나타나는 반면, 방정식 ②의 분산 값은 실제 모집단의 분산 값에 비해 훨씬 낮게 나타납니다. 마지막으로 방정식 ③의 분산 값은 실제 모집단의 분산 값과 매우 근접하게 계산됩니다. 이러한 계산 결과를 통해 관측 값들이 모집단의 평균에서는 거리가 먼 반면, 표본의 평균과는 가깝다는 점을 알 수 있고, 이에 분모를 n-1로 나누지 않게 될 경우 모집단의 분산을 과소평가 하게 될 수 있다는 것을 알 수 있습니다.


[4] 불편추정량에 대한 접근


지금까지는 1회 무작위 추출한 4개의 Data Set만 활용했습니다. 여기에 그치지 않고, 네 개의 Data Set을 무작위 추출하는 방식으로 총 40회 정도로 추출한 후, 세 가지 방정식에 따라 분산 값을 계산하고, 이렇게 계산된 분산 값의 평균을 계산해 보겠습니다. 아래는 위 방식에 따라 무작위 추출한 40회 Random Sample의 일부입니다.


image.png


분산의 평균 값을 계산한 결과 방정식 ①과 방정식 ③의 분산 값이 약 47~50 정도의 범위로 나타나는 반면, 방정식 ②의 분산 값은 23~25 정도의 범위로 나타납니다. 만약 표집 횟수를 40회에서 100회, 300회, 1,000회 이상으로 늘릴 경우 방정식 ①과 방정식 ③으로 계산한 분산 값의 범위의 범위는 49~52, 51~53, 52~53의 범위로 측정됩니다. 즉, 표본의 무작위 추출 과정을 수회에 걸쳐 계속 늘리면, 이 두 가지 방정식에 따라 도출된 추정 분산의 평균이 실제 모집단 분산의 평균과 거의 일치하게 됩니다. 정리하면, "반복적인 표집을 많이 할수록 분모를 n-1로 하여 나눈 표본의 분산의 평균이 실제 모집단의 분산에 수렴한다."라는 것입니다. 여기서 "반복적인 표집을 많이 할수록 n-1로 하여 나눈 표본의 분산의 평균"을 불편추정량(Unbiased estimator)이 되는 것입니다.


우리가 유의할 사항은 표본을 1회에 4개 정도 추출한 것을 가지고 방정식 ①보다는 방정식 ③의 분산 값이 항상 실제 모집단의 분산에 가깝다는 보장이 없다는 점입니다. 어떠한 표본이 추출되는지에 따라 얼마든지 결과가 달라질 수 있습니다. 이런 점에서 불편추정량이라는 것은 "한 번의 표본 수집에서도 무조건 모집단의 분산에 가장 정확히 근사하는 값"이 아니라, 반복적인 표집을 했을 때 평균적으로 모집단의 분산 값을 정확히 근접할 수 있는 값이라는 것을 확인할 수 있습니다.


4. 표준편차도 n-1로 나누면 정확한 추정치가 되는가?


표본의 표준편차는 표본 분산의 제곱근입니다. 만약 10,000회 걸친 반복적인 표집을 통해 분산 값을 시뮬레이션 하면 앞서 설명한 것과 같이 불편추정량이 될 수 있습니다. 그렇다면, 동일하게 반복 표집을 하였을 경우 분산의 제곱근인 표준편차도 불편추정량이 될 수 있는 지가 문제될 수 있습니다. 이론(Bessel's correction)에 따르면 네 개의 데이터를 10,000회 정도 반복적으로 무작위 표집을 할 경우 실제 모집단의 표준편차 대비 약 8% 낮게 나오는 결과로 편향을 제거하는 것에 한계가 있습니다. 그 이유는 표본의 표준편차를 계산할 때 취하는 제곱근이 값을 비선형(Non-linear)으로 변환(변수의 제곱근 함수는 오목함수 형태)하기 때문입니다.


표본 분산은 선형(Linear)의 성질을 갖습니다. 다시 말해 수회의 표집을 통해 계산되는 표본의 분산은 불편추정량으로서 모집단 분산의 기대값과 정확히 일치하도록 조정이 가능합니다. 왜냐하면, 분산을 계산하는 데 있어 제곱(Square), 합(Sum), 나누기(Dividing)와 같은 연산들은 기대값의 원리에 따라 모집단의 분산 값과 일치하도록 조정이 가능합니다.


기대값(E)은 다음의 두 가지 성질에 의해 ① 상수는 밖으로 뺄 수 있고, ② 두 변수의 합에 대한 기대값은 기대값의 합과 일치할 수 있습니다. ①의 성질은 E[aX]=aE[X], ② E[X+Y]=E[X]+E[Y] 입니다. 표본 분산의 공식을 바탕으로 기대값의 원리를 적용하면 다음과 같습니다.


image.png


즉, 기대값이 분산 공식의 형태를 그대로 유지하면서 계산이 가능하다는 뜻입니다. 그래서 n-1로 조율이 가능하다면, 기대값이 모집단의 분산이 되도록 통계적인 보정이 가능합니다.


반면, 제곱근(√) 함수는 오목 함수(Concave function) 형태로, 오목 함수에서는 "함수의 기대값이 기대값의 함수보다 작거나 같다."는 원리가 적용됩니다. 참고로 이 원리를 젠센의 부등식(Jensen's Inequality)이라고 부릅니다. 젠슨의 부등식을 표현하면 아래와 같으며, 표본 분산에 제곱근을 씌우게 되면 표준편차 값은 비선형 되는 과정에서 필연적으로 하향 편향(Downward bias)이 발생하게 됩니다.


image.png



월, 화, 수, 목, 금, 토, 일 연재
이전 05화데이터의 산포(2)