자유도

조영필

Jul 23. 2016

통계학에서 자유도(degree of freedom)란 무엇일까요?

보통은 이렇게 설명합니다.

표본 n 개를 선택할 때에 마지막 1개는 모집단의 평균과 같아지도록 표본집합을 구성하도록 선택되어져야 하므로 그 자유를 상실하게 된다. 따라서 자유도는 n-1이다.

또는 이렇게도 설명합니다.

표본 n 개로 그것의 (표본의) 평균값을 계산할 때, 그 계산된 통계량 1 개만큼의 자유도를 상실하여 표본에는 n-1의 독립 개수만 남는다. 따라서 자유도는 n-1이다.

사실, 자유도가 필요한 이유는 모분산을 모르기 때문입니다.

모집단에서 표본을 추출하면 표본의 평균은 모집단의 평균에 대해 클 수도 적을 수도 있으나 그 가능성은 공평합니다 (불편 추정됩니다).

그러나 표본의 분산은 모집단의 분산보다 항상 작아지는 경향을 보입니다 (불편하지 않고 편향됩니다). 그리하여 (불편 추정 값을 구하기 위하여) 표본의 분산을 모집단의 분산에 근사해지게 하는 비율을 찾았는데 그것이 바로 n/(n-1)입니다. 이를 표본의 분산에 n/(n-1)만큼 곱하면 모집단의 분산에 근사하게 됩니다.

그런데 이때 분산의 원래 계산식에 있는 분모의 n 이 약분되어 n-1 만이 남게 됩니다. 결국 표본의 분산을 구할 때, n 대신 n-1을 사용하여 나누게 되면, 표본의 분산을 모집단의 분산에 근사하게 불편추정할 수 있으므로 이 n-1을 자유도라고 하게 되었습니다.

따라서 자유도는 표본의 평균을 구할 때는 사용되지 않고 표본의 분산을 구할 때에만 필요하다는 것도 알 수 있습니다.

여기서 의문점은 그렇다면, 왜 표본의 분산은 모집단의 분산보다 작아지는 것일까요?

그것은 분산이란 개별 값을 제곱하여 계산하는 것이기 때문입니다. 아무래도 구성원의 숫자가 많을수록 제곱한 값이 많아지고 따라서 아무리 평균을 한다 하여도 값은 집단의 크기만큼 커지게 됩니다. 반대로 표본은 숫자가 작으므로 그 제곱의 양이 적어 그 분산은 작아집니다.

그러나 표본의 개수가 점점 커짐에 따라 모분산 σ^2과 표본 분산 s^2 간의 차이도 점차 작아지게 됩니다. 따라서 30개 또는 그 이상의 대표본의 경우에는 표본의 분산을 구할 때 굳이 자유도 (n-1)을 고려하지 않아도 됩니다.

그런데, X^2 분포를 공부하다가 다음 사항을 또 알게 되었습니다.

그것은 자유도가 수학적으로는 X^2 분포의 특성으로 인해 발생하는 것이라는 사실이었습니다.

표본분산으로 모분산을 대체하려고 할 때, X^2 분포에서는 계산과정에서 Z^2를 하나 잃게 됩니다. 따라서 자유도의 개념이 필요하게 됩니다. t 분포는 Z 분포(표준정규분포)와 X^2 분포 간의 비율이었습니다. 따라서 X^2 분포에서의 자유도가 적용됩니다. F 분포는 두 X^2 분포 간의 비율이었습니다. 여기서는 X^2 분포가 2 개이므로 자유도는 2 개가 필요합니다.

자유도는 X^2 분포의 성질로 인해 발생하는 것일 뿐입니다. 참 쉽지요?

Note :

자유도를 처음 접했을 때는 통계학에 웬 ‘자유?’ 이런 생각이 바로 떠올랐다. 그래서 자유도에 더 관심을 가지게 되었다. 그리고는 통계량 1개 또는 2 개가 이미 사용되어졌으므로 선택의 폭이 줄어들어 자유가 줄어들었다고 하는구나 이렇게 이해하였다. 그러나 Z^2를 잃은 수에 따라 자유도가 정해지는 것을 보면서 이것은 자유로움의 자유도가 아니고 잃어버림의 상실도라고 생각하였다. 따라서 통계학에서 free의 뜻은 자유의 free가 아니라 상실(또는 박탈)의 free라고 보았다. 그리고는 이렇게 생각했다. 집착을 버리면 자유롭다는 것일까? 통계학을 하면서 인생수업을 하게 될 줄이야! 이 용어를 자유도로 처음 번역한 그의 깊은 뜻에 감동하였다. (2020. 3. 24.)

며칠후 다시 생각해보니, 이것은 번역의 문제가 아니었다. 단지 용어의 정의의 문제이었다. 도대체 누가 degrees of freedom 을 상실도로 번역할 수 있겠는가?
또한 이 용어는 통계학만의 용어가 아니다. 수학과 물리학에서도 두루 쓰이는 용어이다. 그런데 통계학에서는 자유도가 이리도 어려워도 수학에서는 그렇게 어렵지 않다. 수학에서 설명하는 자유도는 조금만 주의를 가지고 읽어 봐도 그 뜻이 금세 이해가 된다. 아무래도 통계학이 이해를 가로막는 벽이었다.

위키피디아를 참조하면, 이 개념을 최초로 생각한 사람은 가우스이었다. 그리고 이 개념을 정교하게 발전시킨 사람이 고셋이다. 다만 용어 자체는 피셔가 1922년에 명명하였다고 한다 (그러고 보니 ‘t 분포 이야기’에서 다룬 내용인데 잊고 있었네요). (2020. 3. 27.)

2007년 회사에서 식스시그마를 배울 때 이 용어를 처음 들었다(그 전에도 통계학을 배웠으니까, 들었겠지만, 내 심상의 시기는 2007년이다.). 참으로 아름다운 용어라고 생각했다. 그런데 설명도 꽤나 철학적이었다. 표본은 모집단에서 추출될 때 그 자유를 하나 잃는다고 하였다. 그 이유는 표본을 추출할 때, 마지막 1개(n개째)의 표본은 모집단의 평균에 일치하도록 선택의 자유를 잃는다는 것이었다. (2016년 7월 14일의 메모)