기초통계 시리즈 3
안녕하세요, 브래드입니다.
오늘은 Sapientia a Dei님이 무료로 출간하신 분산분석에 관한 내용을 복습할 겸 요약 정리하고자 합니다.
좀 더 세부적인 내용은 해당 도서 내용을 참고해 주세요.
https://who4u78.github.io/book1/chapter3.html
1. ANOVA라는 단어는 Analysis of Variance의 약자이다.
2. 세 개의 대학의 남학생의 평균키가 같은 지 다른 지 알고 싶다면 t-test를 두 번 하면 되는가?
→ 정답은 NO
→ t-test를 여러번 진행하는 Multiple t-test를 시행하면 1종 오류 발생
→ 따라서 분산분석을 진행해야함(=세 개 이상의 집단의 평균값이 같은지 다른지)
3. 분산분석에 사용되는 변수의 특징?
- 종속변수: 연속형 변수 (Continuous variable)만 가능함
- 독립변수: 이산형(Discrete variable) 혹은 범주형 변수(Categorical variable)만 가능함
4. ANOVA를 위한 데이터 코딩
- 데이터 분석에서 코딩이란 말은 데이터를 입력하는 것을 의미
- 코딩이 완료된 엑셀 화면에서 한 개의 행(row)는 관찰값(observation)을 의미
ex) 만약 100명의 사람들에게서 설문 응답을 받아 이를 제대로 코딩했다면 100개의 행(row)을 갖게 되는 것
- 엑셀에 코딩된 화면에서 한 개의 열(column)은 한 개의 변수를 의미
- 한 개의 변수는 한 개의 열(column)에 입력되어야 함
5. ANOVA는 F-value(F값)이다.
- z-test, t-test와 마찬가지로 F-test에서는 먼저 F-value(=두 분산의 비율=Between Variance와 Within Variance의 비율)를 구할 것이고 이것을 F-distribution에 기반하여 F-table에서 우리가 원하는 p-value와 관련한 정보를 얻어낸다.
6. Between Variance가 크다는 것은 적어도 어느 한 그룹의 평균값이 전체평균으로부터 멀어져 있다는 의미
→ 이 크기가 얼마나 커야 큰지 혹은 얼마나 작아야 작은지 알 수 없음
→ 비교대상인 Within Variance를 가져와서 비교해야 함
→ Within Variance는 의미 없는 random한 분산이므로 이러한 의미 없는 분산보다 Between Variance가 충분히 커야 적어도 한 그룹의 평균값이 전체 평균값과는 다르다고 결론 내릴 수 있음
7. F-value가 유의하다?
= 적어도 어느 한 그룹은 다르다
→ 더 자세한 결과를 알고 싶지만 이 상태만으로는 알 수가 없으므로, 분산분석이 유의한 결과를 나타내었다면 사후검정(Post-hoc-test)를 해야 함(사후검정을 통해 어떤 그룹이 어떻게 다른 그룹과 같은지 다른지 알 수 있음)
8. 사후검정이란 일종의 여러 다발의 t-test이다.
- 분산분석이 유의해야 사후검정이 의미가 있다.
- 사후검정에는 여러 가지 방법 존재
: Fisher’s LSD / Bonferroni / Sheffe / Turkey / Duncan 등
9. 사후검정의 유의성만으로는 보다 정밀한 설명이 어렵다.
→ 분산분석에서는 유의하면 바로 사후검정을 하고 그 사후검정 결과를 그래프로 그리는 것이 좋다.