brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jul 04. 2023

이원배치 분산분석(ANOVA)?

기초통계 시리즈 4

안녕하세요, 브래드입니다.


오늘은 Sapientia a Dei님이 무료로 출간하신 이원배치 분산분석에 관한 내용을 복습할 겸 요약 정리하고자 합니다.


좀 더 세부적인 내용은 해당 도서 내용을 참고해 주세요.

https://who4u78.github.io/book2/




�통알못을 위한 기초 통계 4: 이원배치 분산분석 (Two-way ANOVA)



1. 이원배치 분산분석은 일원배치 분산분석에서 추가적으로 한 개의 독립변수를 더 사용한다.



2. 두 개의 독립변수의 종속변수에 대한 직접적인 영향력을 주효과 혹은 Main effect라고 부른다.(Two-way ANOVA에는 두 개의 Main effect 존재)



3. Interaction effect (상호작용/교호작용)는 한 독립변수의 Main effect가 다른 독립변수의 level (=group)에 따라 원래의 linear relationship이 non-linear 하게 변하는 경우를 말한다.

  *Linear relationship이란 우리말로 선형(=직선)관계







4. 이원배치 분산분석은 독립변수가 두 개이므로 Main effect가 두 개 이기 때문에 F-value가 두 개 필요 +  Interaction effect가 이원배치 분산분석에 추가되므로 Interaction effect를 검정하기 위한 F-value가 한 개 더 필요 

  → 이원배치 분산분석에서는 총 3 개의 F-value가 필요



5. 그러면 총 몇 개의 Between Variance와 Within Variance가 필요?

  → Between Variance는 총 3개가 필요(=F-value의 분자 부분인 Between Variance이기 때문)

  → Within Variance는 1개 필요(=Between Variance만으로는 이게 큰지 작은지 알 수 없기 때문에 비교대상이 필요하고 그 비교대상으로 Within Variance를 사용. 따라서 기준은 한 개면 충분함)



6. 이원배치 분산분석을 위한 통계적 가설은 세 개 필요

  1) 첫 번째 독립변수의 Main effect에 대한 통계적 가설

  2) 두 번째 독립변수의 Main effect에 대한 통계적 가설

  3) Interaction effect에 대한 통계적 가설







7. 이원배치 분산분석 코딩하기?

 - 엑셀 시트에서 열(column) 한 개가 변수 한 개

 - 이원배치 분산분석에서 종속변수 한 개와 독립변수 두 개를 가지고 분석을 하기 때문에 당연히 우리는 총 3 개의 열(column)에 코딩한다

 - 주의할 점은 첫 번째 독립변수인 ex.세제는 두 가지의 그룹이 있다는 것이므로 한 개의 열(column)에 두 가지의 세제가 코딩한다. 마찬가지로 두 번째 독립변수인 ex.물의 온도는 세 가지의 그룹을 가지고 있으므로 한 개의 열(column)에 Cold, Warm, Hot 세 가지의 그룹이 코딩한다.



8. 분산분석에서 F-value가 유의하다는 것은 Main effect의 경우 적어도 한 그룹의 평균값이 전체평균값에서 멀어져 있다는 것일 뿐 자세한 모양이나 내용에 대해서는 알 수 없다.

   →  Interaction effect 역시 단순하게 있다 없다만 알 수 있을 뿐 자세한 내용은 알 수 없음. 따라서 이 경우 사후 검정이 필요



9. 이원배치 분산분석에서 SS의 종류

  1) Type I SS

  2) Type II SS

  3) Type III SS(특별한 이유가 없다는 타입 3을 사용)

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari