brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jun 30. 2023

분산분석(ANOVA) 파헤치기

기초통계 시리즈 3

안녕하세요, 브래드입니다.


오늘은 Sapientia a Dei님이 무료로 출간하신 분산분석에 관한 내용을 복습할 겸 요약 정리하고자 합니다.


좀 더 세부적인 내용은 해당 도서 내용을 참고해 주세요.


https://who4u78.github.io/book1/chapter3.html




�통알못을 위한 기초 통계 3: 분산분석(ANOVA)



1. ANOVA라는 단어는 Analysis of Variance의 약자이다.



2. 세 개의 대학의 남학생의 평균키가 같은 지 다른 지 알고 싶다면 t-test를 두 번 하면 되는가?

 → 정답은 NO

 → t-test를 여러번 진행하는 Multiple t-test를 시행하면 1종 오류 발생

 → 따라서 분산분석을 진행해야함(=세 개 이상의 집단의 평균값이 같은지 다른지)



3. 분산분석에 사용되는 변수의 특징?

  - 종속변수: 연속형 변수 (Continuous variable)만 가능함

  - 독립변수: 이산형(Discrete variable) 혹은 범주형 변수(Categorical variable)만 가능함








4. ANOVA를 위한 데이터 코딩

  - 데이터 분석에서 코딩이란 말은 데이터를 입력하는 것을 의미

  - 코딩이 완료된 엑셀 화면에서 한 개의 행(row)관찰값(observation)을 의미

   ex) 만약 100명의 사람들에게서 설문 응답을 받아 이를 제대로 코딩했다면 100개의 행(row)을 갖게 되는 것

  - 엑셀에 코딩된 화면에서 한 개의 열(column)한 개의 변수를 의미

  - 한 개의 변수는 한 개의 열(column)에 입력되어야 함



5. ANOVA는 F-value(F값)이다.

 - z-test, t-test와 마찬가지로 F-test에서는 먼저 F-value(=두 분산의 비율=Between Variance와 Within Variance의 비율)를 구할 것이고 이것을 F-distribution에 기반하여 F-table에서 우리가 원하는 p-value와 관련한 정보를 얻어낸다.



6. Between Variance가 크다는 것은 적어도 어느 한 그룹의 평균값이 전체평균으로부터 멀어져 있다는 의미

  → 이 크기가 얼마나 커야 큰지 혹은 얼마나 작아야 작은지 알 수 없음

  → 비교대상인 Within Variance를 가져와서 비교해야 함

  → Within Variance는 의미 없는 random한 분산이므로 이러한 의미 없는 분산보다 Between Variance가 충분히 커야 적어도 한 그룹의 평균값이 전체 평균값과는 다르다고 결론 내릴 수 있음







7. F-value가 유의하다?

  = 적어도 어느 한 그룹은 다르다

    → 더 자세한 결과를 알고 싶지만 이 상태만으로는 알 수가 없으므로, 분산분석이 유의한 결과를 나타내었다면 사후검정(Post-hoc-test)를 해야 함(사후검정을 통해 어떤 그룹이 어떻게 다른 그룹과 같은지 다른지 알 수 있음)



8. 사후검정이란 일종의 여러 다발의 t-test이다.

  - 분산분석이 유의해야 사후검정이 의미가 있다.

  - 사후검정에는 여러 가지 방법 존재

    :  Fisher’s LSD / Bonferroni / Sheffe / Turkey / Duncan 등



9. 사후검정의 유의성만으로는 보다 정밀한 설명이 어렵다.

  → 분산분석에서는 유의하면 바로 사후검정을 하고 그 사후검정 결과를 그래프로 그리는 것이 좋다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari