ANOVA(분산분석)에 대해 알아보자.
*주의
이 포스팅은 분산분석을 계산해내기 위한 복잡한 공식을 설명하지 않습니다.
개념과 R에서 사용하기 위한 방법만을 설명합니다.
T-test는 독립변수가 하나이고 표본이 2개일 때 한정하여 사용할 수 있다. paired t-test도 마찬가지이다. 예를 들어서, 특정 디자인을 만들고 이 디자인을 사용한 그룹의 만족도가 사용하지 않은 그룹의 만족도보다 높을 것인가?라는 질문에 통계적으로 대답하기 위해 나온 것이 t-test이다.
그런데 이 경우를 바꾸어 생각해보자. "디자인 A, 디자인 B, 디자인 C를 만들고 세 가지 디자인 중 어떤 것이 가장 만족도가 높은지 확인해보고 싶다." 이 경우에는 독립변수가 세 가지가 된다. 물론 이 상황에서도 t-test를 사용할 수 있으나 반복적으로 시행해야 하고 1종 오류를 범하는 것을 막기 위해 유의 수준을 보정해야 해서 귀찮다.
이런 문제를 해결하기 위해 나온 것이 ANOVA이다.
분산분석은 독립변수가 하나, 측정 집단이 3개 이상일 때 결과를 검증하기 위해 사용한다.
회귀분석과 함께 많은 논문에 ANOVA가 사용된다.
1. t-test와 마찬가지로 관측치가 정규분포를 따라야 한다.
2. 구형성(등분산 가정)을 만족하여야 한다.
- 등분산 가정은 일반적으로 관측치(샘플수)가 똑같은 경우에는 크게 문제가 되지 않는다.
- 샘플 수가 다른 경우 가장 큰 분산이 가장 작은 분산보다 1.5배 이상 크지 않으면 괜찮다.
3. 표본이 독립적이어야 한다.
- 비독립 표본(Repeated-measure)인 경우에는 사용하지 않는다.
ANOVA는 세 가지 이상 집단의 평균이 차이가 있는지 혹은 없는지 밖에 검증하지 못한다.
따라서 세 집단의 평균 차이가 어떻게 있는지, (어떤 집단의 평균이 더 큰지, 작은지)등을 설명하기 위해서는 post-hoc(후속 검정)이 필요하다. 다음 포스팅에서 자세하게 다루겠다.
데이터는 이렇게 한 칼럼에는 Group의 명칭을, Data에는 관측치를 적는다.
어차피 봐야 할 것은 P-value이다. 0.876이 나왔으므로 귀무가설을 기각할 수 없기 때문에 통계적으로는 유의미하지 않다. Residual은 잔차로 분산분석이 선형 회귀분석을 사용하기 때문에 나온 개념이다. 일반적으로 작으면 작을수록 좋다. t-test와 마찬가지로 F분포가 크면 클수록 p-value가 작아진다.
기타 설명은 아래 슬라이드로 첨부.