brunch

통계, ANOVA에 대해 알아보자(R)

ANOVA(분산분석)에 대해 알아보자.

by LenJoHoie

*주의

이 포스팅은 분산분석을 계산해내기 위한 복잡한 공식을 설명하지 않습니다.

개념과 R에서 사용하기 위한 방법만을 설명합니다.


ANOVA란 무엇인가?

T-test는 독립변수가 하나이고 표본이 2개일 때 한정하여 사용할 수 있다. paired t-test도 마찬가지이다. 예를 들어서, 특정 디자인을 만들고 이 디자인을 사용한 그룹의 만족도가 사용하지 않은 그룹의 만족도보다 높을 것인가?라는 질문에 통계적으로 대답하기 위해 나온 것이 t-test이다.

그런데 이 경우를 바꾸어 생각해보자. "디자인 A, 디자인 B, 디자인 C를 만들고 세 가지 디자인 중 어떤 것이 가장 만족도가 높은지 확인해보고 싶다." 이 경우에는 독립변수가 세 가지가 된다. 물론 이 상황에서도 t-test를 사용할 수 있으나 반복적으로 시행해야 하고 1종 오류를 범하는 것을 막기 위해 유의 수준을 보정해야 해서 귀찮다.

이런 문제를 해결하기 위해 나온 것이 ANOVA이다.


ANOVA(ONE-WAY)는 언제 사용하는가?

분산분석은 독립변수가 하나, 측정 집단이 3개 이상일 때 결과를 검증하기 위해 사용한다.

회귀분석과 함께 많은 논문에 ANOVA가 사용된다.


ANOVA의 사용 조건은 무엇인가?

1. t-test와 마찬가지로 관측치가 정규분포를 따라야 한다.

2. 구형성(등분산 가정)을 만족하여야 한다.

- 등분산 가정은 일반적으로 관측치(샘플수)가 똑같은 경우에는 크게 문제가 되지 않는다.

- 샘플 수가 다른 경우 가장 큰 분산이 가장 작은 분산보다 1.5배 이상 크지 않으면 괜찮다.

3. 표본이 독립적이어야 한다.

- 비독립 표본(Repeated-measure)인 경우에는 사용하지 않는다.


Post-hoc(후속 검정)?

ANOVA는 세 가지 이상 집단의 평균이 차이가 있는지 혹은 없는지 밖에 검증하지 못한다.

따라서 세 집단의 평균 차이가 어떻게 있는지, (어떤 집단의 평균이 더 큰지, 작은지)등을 설명하기 위해서는 post-hoc(후속 검정)이 필요하다. 다음 포스팅에서 자세하게 다루겠다.



어떻게 사용하는가?

CSV 포맷

Screenshot 2019-09-14 16.35.47.png

데이터는 이렇게 한 칼럼에는 Group의 명칭을, Data에는 관측치를 적는다.


R 코드

Screenshot 2019-09-14 16.36.20.png


해석

Screenshot 2019-09-14 16.38.43.png

어차피 봐야 할 것은 P-value이다. 0.876이 나왔으므로 귀무가설을 기각할 수 없기 때문에 통계적으로는 유의미하지 않다. Residual은 잔차로 분산분석이 선형 회귀분석을 사용하기 때문에 나온 개념이다. 일반적으로 작으면 작을수록 좋다. t-test와 마찬가지로 F분포가 크면 클수록 p-value가 작아진다.


기타 설명은 아래 슬라이드로 첨부.


R로해보는 논문통계.001.jpeg
R로해보는 논문통계.002.jpeg
R로해보는 논문통계.003.jpeg
R로해보는 논문통계.004.jpeg
R로해보는 논문통계.005.jpeg
R로해보는 논문통계.006.jpeg
R로해보는 논문통계.007.jpeg
R로해보는 논문통계.008.jpeg
R로해보는 논문통계.009.jpeg
R로해보는 논문통계.010.jpeg
R로해보는 논문통계.011.jpeg
R로해보는 논문통계.012.jpeg
R로해보는 논문통계.013.jpeg
R로해보는 논문통계.014.jpeg
R로해보는 논문통계.015.jpeg
R로해보는 논문통계.016.jpeg


keyword
작가의 이전글통계, paired t-test에 대해 알아보자(R)