이원배치 분산분석(ANOVA)?

기초통계 시리즈 4

by 브래드

Jul 4. 2023

안녕하세요, 브래드입니다.

오늘은 Sapientia a Dei님이 무료로 출간하신 이원배치 분산분석에 관한 내용을 복습할 겸 요약 정리하고자 합니다.

좀 더 세부적인 내용은 해당 도서 내용을 참고해 주세요.

https://who4u78.github.io/book2/

통알못을 위한 기초통계 2

https://who4u78.github.io/book2/

�통알못을 위한 기초 통계 4: 이원배치 분산분석 (Two-way ANOVA)

1. 이원배치 분산분석은 일원배치 분산분석에서 추가적으로 한 개의 독립변수를 더 사용한다.

2. 두 개의 독립변수의 종속변수에 대한 직접적인 영향력을 주효과 혹은 Main effect라고 부른다.(Two-way ANOVA에는 두 개의 Main effect 존재)

3. Interaction effect (상호작용/교호작용)는 한 독립변수의 Main effect가 다른 독립변수의 level (=group)에 따라 원래의 linear relationship이 non-linear 하게 변하는 경우를 말한다.

*Linear relationship이란 우리말로 선형(=직선)관계

4. 이원배치 분산분석은 독립변수가 두 개이므로 Main effect가 두 개 이기 때문에 F-value가 두 개 필요 + Interaction effect가 이원배치 분산분석에 추가되므로 Interaction effect를 검정하기 위한 F-value가 한 개 더 필요

→ 이원배치 분산분석에서는 총 3 개의 F-value가 필요

5. 그러면 총 몇 개의 Between Variance와 Within Variance가 필요?

→ Between Variance는 총 3개가 필요(=F-value의 분자 부분인 Between Variance이기 때문)

→ Within Variance는 1개 필요(=Between Variance만으로는 이게 큰지 작은지 알 수 없기 때문에 비교대상이 필요하고 그 비교대상으로 Within Variance를 사용. 따라서 기준은 한 개면 충분함)

6. 이원배치 분산분석을 위한 통계적 가설은 세 개 필요

1) 첫 번째 독립변수의 Main effect에 대한 통계적 가설

2) 두 번째 독립변수의 Main effect에 대한 통계적 가설

3) Interaction effect에 대한 통계적 가설

7. 이원배치 분산분석 코딩하기?

- 엑셀 시트에서 열(column) 한 개가 변수 한 개

- 이원배치 분산분석에서 종속변수 한 개와 독립변수 두 개를 가지고 분석을 하기 때문에 당연히 우리는 총 3 개의 열(column)에 코딩한다

- 주의할 점은 첫 번째 독립변수인 ex.세제는 두 가지의 그룹이 있다는 것이므로 한 개의 열(column)에 두 가지의 세제가 코딩한다. 마찬가지로 두 번째 독립변수인 ex.물의 온도는 세 가지의 그룹을 가지고 있으므로 한 개의 열(column)에 Cold, Warm, Hot 세 가지의 그룹이 코딩한다.

8. 분산분석에서 F-value가 유의하다는 것은 Main effect의 경우 적어도 한 그룹의 평균값이 전체평균값에서 멀어져 있다는 것일 뿐 자세한 모양이나 내용에 대해서는 알 수 없다.

→ Interaction effect 역시 단순하게 있다 없다만 알 수 있을 뿐 자세한 내용은 알 수 없음. 따라서 이 경우 사후 검정이 필요

9. 이원배치 분산분석에서 SS의 종류

1) Type I SS

2) Type II SS

3) Type III SS(특별한 이유가 없다는 타입 3을 사용)

keyword

브래드 소속 디지털마케터

데이터를 기반으로 끊임없는 분석과 개선을 통해 소비자의 마음을 내다보고자 합니다.

팔로워 125

작가의 이전글분산분석(ANOVA) 파헤치기트렌드 주머니: 23년 7월 둘째 주작가의 다음글