표준편차 그리고 중심극한정리
1, 2, 3, 4, 5 라는 5개의 원소로 이루어진 A 라는 모집단이 있다.
평균 = 3, 분산 = 2, 표준편차 = √2
A를 표준화하면, 과연 평균 = 0 이고, 표준편차 = 1 이 될까요?
표준화 Z = ( X - 평균 ) / 표준편차 입니다.
하나씩 Z 로 계산하면
(-√2), (-√2/2), 0, √2/2, √2 로 이루어진 B 라는 모집단으로 변합니다.
그렇다면, B 의 평균과 분산 등을 계산하면,
평균 = 0, 분산 = 1, 표준편차 = 1 이 됩니다.
즉 각 원소에 평균을 빼고, 표준편차로 나누어주면 그 집합의 평균은 0 이 되고, 표준편차는 1 이 됩니다.
----------------------------------------------------------------------
1, 2, 3, 4, 5 라는 5 개의 원소로 이루어진 A 라는 모집단이 있다.
평균 = 3, 분산 = 2, 표준편차 = √2
A에서 표본을 채집하면, 과연 평균은 비슷하고, 표준편차는 모집단 보다 작아질까요?
우선 무작위로 2와 3을 채집하고, 또 무작위로 3과 4를 채집하였다고 가정합니다.
2와 3 표본의 평균 = 2.5, 분산 = 1/4, 표준편차 = 1/2 입니다.
3과 4 표본의 평균 = 3.5, 분산 = 1/4, 표준편차 = 1/2 입니다.
두 표본에서 보듯이, 표본의 평균들은 모집단 A 의 평균인 3 주위로 왔다갔다 합니다. 즉 편향되지 않으므로, 그 표본 평균들의 평균을 내면, 모집단의 평균으로 거의 정확히 대용할 수 있습니다.
그러나, 표본의 표준편차들은 하나같이 모집단 A 의 표준편차인 √2 에 비해 작게 됨을 알 수 있습니다. 따라서 표본의 표준편차를 모집단의 표준편차에 근사하게 키워주는 '자유도'의 개념이 필요하게 됩니다.
'σ^2' = {n/(n-1)}•s^2
'σ^2' = {n/(n-1)}•{Σ (X-Xbar)^2 / n}
= Σ (X-Xbar)^2 / (n-1)
또 그걸 적용한 T 분포가 탄생하게 됩니다.
-----------------------------------------------------------------------------------------
1, 1, 2, 2, 3, 3, 4, 4, 5, 5 라는 10 개의 원소로 이루어진 모집단 C 가 있다.
평균 = 3, 분산 = 2, 표준편차 = √2
이 모집단에서 임의로 2개씩 채집하는 경우를 모두 나열해봅니다.
(1,1), (1,2) ....................(5,5)
이들 모든 경우의 수를 표로 정리하여 평균을 구하면 다음과 같다.
1 2 3 4 5
1 1 1.5 2 2.5 3
2 1.5 2 2.5 3 3.5
3 2 2.5 3 3.5 4
4 2.5 3 3.5 4 4.5
5 3 3.5 4 4.5 5
즉 표본평균들의 집합은
1, 1.5, 1.5, 2, 2, 2, 2.5, 2.5, 2.5, 2.5, 3, 3, 3, 3, 3, 3.5, 3.5, 3.5, 3.5, 4, 4, 4, 4.5, 4.5, 5 의 25 개로 이루어진 집합이다.
이 집합의 통계량을 계산하면,
평균 = 3, 분산 = 1, 표준편차 = 1 입니다.
표본들의 평균값의 평균은 모집단의 평균과 같고,
표본들의 평균값의 표준편차는 모집단의 표준편차에 비하여 1/√n 배만큼 작아져 있음을 알 수 있습니다.
여기서는 2개씩 추출하는 표본이므로 n = 2 이므로
평균값의 표준편차 = σ / √n = √2 / √2 = 1 입니다.
(3개씩 추출하는 표본 평균의 분포를 만들면, 그 표준편차는 √2 / √3 = √6 / 3 이 됩니다.)
이것이 중심극한 정리입니다. 표본집합들의 평균값의 분포는 표본의 수에 따라 모집단의 분포에 비해 더욱 좁혀지므로, 평균값을 추정하기가 더 용이해집니다.
그런데 이때의 '표준편차'는 모집단의 분포의 표준편차를 추정한 것이 아니라, 단순히 평균을 추정하고자 하는 평균값의 분포이므로 평균값의 '표준오차'라고 합니다.