조영필
[분산분석]
분산분석(Analysis of Variation)은 약칭으로 아노바(ANOVA)라고 한다. 그런데 이 분석은 평균검정에 사용되는 데 표본집단이 2개인 경우에는 t 검정과 함께, 표본집단이 3개 이상인 경우에는 단독으로 이용된다.
왜 분산분석이 평균검정에 쓰이는 것일까?
그것은 아노바가 평균검정에서 사용될 때 검증하고자 하는 것이 표본집단들의 평균 차이이기 때문이다. 그런데 그것을 무엇으로 파악하는가 하면 표본집단들의 평균과 표본전체집단의 평균 간의 차이로 파악한다. 즉 평균 간 거리인 편차로 파악한다. 그래서 분산분석이다.
아노바가 분산분석이 되는 것은 분산 간의 비율을 최종적으로 F 분포로 검증하는 것으로도 알 수 있다. 분산검정에 사용되는 F 검정은 아노바(분산분석)의 핵심요소이다.
사실 회귀분석도 분산분석과 그 궤를 같이한다. 그 기본 구조는 '검증하고자 하는 분산'과 이를 '표준화 하는 분산' 간을 비교하여 F 분포로 검증하는 것이다.
다음은 분산분석과 회귀분석의 대조이다.
분산분석. 회귀분석
검증목적 분산. 군간분산. 회귀분산
MSB. MSR
표준화 분산. 군내분산. 잔차분산
MSW. MSE
F 검정. MSB/MSW. MSR/MSE
보통 통계 S/W에서 출력되는 분산분석표는 또한 다음의 구조이다.
편차제곱합 자유도 분산 F 통계량 p 값
검증. A E H L N
표준화. B F I
합계. C G J
A+B = C, E+F=G, A/E = H, B/F = I, C/G= J
H/I = L; L을 F 분포에서 찾아 p 값인 N 을 확인한다.
참고로 회귀분석의 결정계수 R^2 = A/C 이다.
분산분석 및 F 검증은 교차분석의 X^2 검증과 함께 추측통계의 양 날개가 아닐까?