기초통계 시리즈 4
안녕하세요, 브래드입니다.
오늘은 Sapientia a Dei님이 무료로 출간하신 이원배치 분산분석에 관한 내용을 복습할 겸 요약 정리하고자 합니다.
좀 더 세부적인 내용은 해당 도서 내용을 참고해 주세요.
https://who4u78.github.io/book2/
1. 이원배치 분산분석은 일원배치 분산분석에서 추가적으로 한 개의 독립변수를 더 사용한다.
2. 두 개의 독립변수의 종속변수에 대한 직접적인 영향력을 주효과 혹은 Main effect라고 부른다.(Two-way ANOVA에는 두 개의 Main effect 존재)
3. Interaction effect (상호작용/교호작용)는 한 독립변수의 Main effect가 다른 독립변수의 level (=group)에 따라 원래의 linear relationship이 non-linear 하게 변하는 경우를 말한다.
*Linear relationship이란 우리말로 선형(=직선)관계
4. 이원배치 분산분석은 독립변수가 두 개이므로 Main effect가 두 개 이기 때문에 F-value가 두 개 필요 + Interaction effect가 이원배치 분산분석에 추가되므로 Interaction effect를 검정하기 위한 F-value가 한 개 더 필요
→ 이원배치 분산분석에서는 총 3 개의 F-value가 필요
5. 그러면 총 몇 개의 Between Variance와 Within Variance가 필요?
→ Between Variance는 총 3개가 필요(=F-value의 분자 부분인 Between Variance이기 때문)
→ Within Variance는 1개 필요(=Between Variance만으로는 이게 큰지 작은지 알 수 없기 때문에 비교대상이 필요하고 그 비교대상으로 Within Variance를 사용. 따라서 기준은 한 개면 충분함)
6. 이원배치 분산분석을 위한 통계적 가설은 세 개 필요
1) 첫 번째 독립변수의 Main effect에 대한 통계적 가설
2) 두 번째 독립변수의 Main effect에 대한 통계적 가설
3) Interaction effect에 대한 통계적 가설
7. 이원배치 분산분석 코딩하기?
- 엑셀 시트에서 열(column) 한 개가 변수 한 개
- 이원배치 분산분석에서 종속변수 한 개와 독립변수 두 개를 가지고 분석을 하기 때문에 당연히 우리는 총 3 개의 열(column)에 코딩한다
- 주의할 점은 첫 번째 독립변수인 ex.세제는 두 가지의 그룹이 있다는 것이므로 한 개의 열(column)에 두 가지의 세제가 코딩한다. 마찬가지로 두 번째 독립변수인 ex.물의 온도는 세 가지의 그룹을 가지고 있으므로 한 개의 열(column)에 Cold, Warm, Hot 세 가지의 그룹이 코딩한다.
8. 분산분석에서 F-value가 유의하다는 것은 Main effect의 경우 적어도 한 그룹의 평균값이 전체평균값에서 멀어져 있다는 것일 뿐 자세한 모양이나 내용에 대해서는 알 수 없다.
→ Interaction effect 역시 단순하게 있다 없다만 알 수 있을 뿐 자세한 내용은 알 수 없음. 따라서 이 경우 사후 검정이 필요
9. 이원배치 분산분석에서 SS의 종류
1) Type I SS
2) Type II SS
3) Type III SS(특별한 이유가 없다는 타입 3을 사용)