검정과 추정
한국고의 학생들의 키는 평균이 170 cm 이고, 표준편차가 10 cm 인 정규분포를 이루는 것으로 알려져 있다.
거리에서 195 cm 의 키다리를 보았다. 이 학생은 한국고의 학생일까, 아닐까?
95% 의 확률로 한국고 학생 키의 예측구간을 구해본다.
-1.96 <= Z =< 1.96
-1.96 <= (X-170)/10 =< 1.96
150.4 <= X = < 189.6
상기 계산에 따르면, 한국고 학생의 95%가 150.4 ~ 189.6 cm 사이에 있다. 따라서 틀릴 수도 있지만 5%의 유의수준 에서 그 거리의 키다리는 한국고의 학생이 아니라고 말할 수 있다.
이렇게 하는 것이 검정입니다.
여기서
귀무가설은 '키다리는 한국고의 학생이다'
대립가설은 '키다리는 한국고의 학생이 아니다'
유의수준 α 는 0.05
키다리가 한국고의 학생이었는 데도 아니라고 잘못 말했을 확률, '1종오류'는 5%
--------------------------------------
그런데 키다리는 키가 작을 경우는 없으므로 앞의 방법(양측검정)보다는 단측검정이 더 정확하다. 이때는
귀무가설은 '키다리는 한국고 학생들보다 크지 않다'
대립가설은 '키다리는 한국고 학생들 보다 크다' 로 바뀐다.
단측검정을 하게 되면 유의수준 5% 일 때의 오른쪽 Z 값이 왼쪽으로 이동하여 더 정확히 검증할 수 있다.
5%의 임계치를 Z 분포표에서 오른쪽으로부터 읽으면
Z = 1.65
따라서 위 식은 단측검정에서는 다음과 같이 수정된다.
Z = (X-170)/10 =< 1.65
X =< 186.5
이로써 훨씬 더 정확하게 귀무가설을 기각하고 대립가설을 채택할 수 있다.
------------------------------------------------------------------
대한여고 학생들의 몸무게는 정규분포하며, 표준편차는 4kg인 것으로 알려져 있다. 무작위로 4명의 학생을 뽑아 몸무게를 재어보니, 각각 45, 49, 52, 54kg 이었다.
대한여고 학생들의 몸무게는 얼마로 추정할 수 있을까?
우선 표본들의 평균 Xbar = 50, n = 4 이므로
95%의 확률로 평균추정구간은 다음과 같다.
-1.96 <= (Xbar - μ)/ (σ/ √n) =< 1.96
값을 대입하면,
-1.96 <= (50 - μ)/ (4/ √4) =< 1.96
-1.96 <= (50 - μ)/ 2 =< 1.96
-3.92 <= 50 - μ =< 3.92
46.08 <= μ =< 53.92
따라서 4 명의 학생들의 몸무게만으로도 대한여고 학생들의 몸무게의 평균(대표값)은 46.08 ~ 53.92kg의 구간에 속한다는 것을 95%의 확률로 추정할 수 있다.
이것이 추정입니다. 그리고 추정과 검정을 합쳐서 검추정이라고 합니다.
-------------------------------
그런데 모집단의 표준편차를 모를 때는 어떻게 해야 할까요?
이때는 Z 분포 대신에 t 분포를 쓰면 됩니다. 그리고 모표준편차를 표본의 표준편차로 대용하면서, n 대신에 자유도 (n-1)을 쓰면 됩니다.
위의 식을 t 분포를 활용하여 자유도 3으로 t 분포표에서 95% 임계점 3.182 를 확인한다.
95%의 확률로 평균추정구간은 다음과 같다.
- 3.182 <= (Xbar - μ)/ (s/ √(n-1)) =< 3.182
표본의 표준편차 s = 3.4 이므로 변수에 대입하면
- 3.182 <= (50 - μ)/ (3.4/ √3) =< 3.182
- 6.25 <= 50 - μ =< 6.25
43.75 <= μ =< 56.25
그러므로 Z 분포에 비해서는 95% 신뢰구간이 확대되었지만 대한여고 학생들의 몸무게의 평균(대표값)은 43.75 ~ 56.25kg의 구간에 속한다는 것을 추정할 수 있다.
모집단에 대한 정보가 없이 표본만으로 추정한 것이므로 보다 일반적이며 훌륭한 추정방법이다.