카이제곱 검정

조영필

Jul 24. 2016

왜 X를 보고 자꾸 '카이'라고 하는지 궁금한 분이 있을 것이다. 그것은 이것이 영어 알파벳의 '엑스'가 아니라 그리스 알파벳의 '카이'이기 때문이다.

'카이제곱 검정'은 두 가지 의미로 쓰인다. 하나는 두 명목변수 간의 독립성, 상관성 또는 분포의 적합성을 확인하는 경우인데 이를 '교차분석' 또는 '카이제곱 분석'이라고 한다. 다른 경우는 단일 모집단 분산의 가설검정에 사용되는 경우이다.

먼저 교차분석을 할 때는 빈도교차표를 작성하게 되는데 그 검정 통계량은 다음과 같다.

X^2 = ΣΣ [ (실제값 - 기댓값)^2 / 기댓값 ]

문제 상황에서 두 변수 (독립변수와 종속변수) 모두 비계량 (명목, 서열) 즉, 비모수 (분포를 가정하지 않는) 일 때 유용하다.

그런데 상기 카이제곱 통계량의 분포는 또한 다음의 식으로 나타낼 수가 있다.

X^2 = Z^2 + Z^2 +...... + Z^2

이것은 표준 정규분포의 제곱의 합을 표현한 것인데, 자유도가 1 이면 Z^2이 1 개이고, 자유도가 2 이면 Z^2이 2 개이고, 자유도가 n 이면 Z^2이 n 개이라는 분포의 수식이다. 따라서 X^2 분포는 음수(-)가 없는 형태의 분포가 된다.

상기식을 표본분산 s^2와 모분산 σ^2 의 식으로 풀면, 다음의 식을 얻을 수 있다.

X^2 = (n-1)·(s^2) / σ^2

이 식은 표본분산 s^2과 모분산 σ^2 간의 비율에 관한 분포이므로 표본분산과 모분산 간의 동일성 검정에 사용할 수 있다. 이를 단일 모집단 분산에 대한 가설 검정이라고 하며 서두에서 언급한 '카이제곱 검정'의 두 번째 사용 방식이다.

참고로 두 모집단 분산에 대한 가설검정에 사용되는 F 분포도 자세히 보면, 두 표본분산 간 비율의 분포이다. (분모의 비율은 두 모분산 간의 비율이지만 두 모집단 A와 B는 동일집단인 것이 귀무가설이므로 모집단의 분산 간 비율인 분모는 1로 소거된다.) 결국 F 분포는 분모와 분자에 각각 카이제곱(X^2) 분포가 하나씩 있는 것이므로 X^2 분포와 그 형태가 역시 유사함을 볼 수 있다.

Χ^2 검정은 표본의 분산으로 모집단을 검정하고, F 검정은 두 표본의 분산으로 두 모집단의 동일성을 검정하는 것이다.