feat. One-way ANOVA
안녕하세요, 브래드입니다.
오늘은 통계학에서 비교 집단이 세 개 이상일 때 어떻게 값을 비교할 수 있을 지에 대해 함께 공부해 보아요.
만약 비교 집단이 위 그림과 같이 세 개 이상이라면 t-test로는 정확한 비교가 불가능합니다.
이에, One-way ANOVA라는 통계 방법이 필요합니다. 해당 방법에서의 중요 개념은 크게 독립변수와 종속변수가 존재합니다.
독립변수는 인과관계에 있어서 원인에 해당하는 개념이며, 종속변수는 결과에 해당하는 개념입니다.
예를 들어, 종속변수는 도서 구매 점수로 가정하겠습니다.
이때 독립변수는 도서 종류로, 경제/자기계발/소설이 존재할 수 있습니다. 주의해야 할 점은 독립변수가 3가지가 아닌 도서종류로 1가지라는 것입니다.
ANOVA에서는 F값이 필요합니다. F값은 F-value라고도 하며, Z-test 및 t-test와 같이 F-값을 구하여 F분포를 확인합니다.
F값은 두 개의 분산의 비율을 의미하며 이를 분산분석이라고 부릅니다. 즉, 두 개의 분산의 비율이므로 우리는 두 개의 평균값이 필요합니다.
두 개의 분산 중 첫 번째 분산은 Between Variance입니다. 이는 전체평균으로부터 각 그룹의 평균사이 분산을 의미합니다. Between Variance가 크다면 전체평균으로부터 각 그룹의 평균값이 멀리 떨어져 있다는 것입니다.
두 번째 분산은 Within Variance로 그룹 내의 분산을 의미합니다.
두 분산 중에서 Between Variance가 Within Variance보다 충분히 큰 숫자를 가져야 Between Variance가 통계적으로 크다고 말할 수 있습니다.
즉, F값은 다음과 같은 식으로 Between Variance를 Within Variance로 나눈 값을 의미합니다.
앞서 언급한 대로 분자인 Between Variance가 분모인 Within Variance보다 충분히 커야 합니다.
위 결과는 kaggle에서 telco customer churn 데이터를 통계 프로그램인 jamovi에서 ANOVA 분석을 실시한 예시입니다.
PaymentMethod의 sum of squares를 df로 나눈 것이 Mean Square로 즉, Between Variance이며 마찬가지로 Residuals의 Mena Square이 Within Variance입니다.
이 둘을 통해 F값이 328 임을 알 수 있습니다. 328이라는 숫자에 알 수 있듯이 F값이 굉장히 크다는 것을 알 수 있으며, 따라서 P는 0.001보다 작으며 매우 유의함을 알 수 있습니다.
F값을 구한 후, 다음과 같이 사후분석을 진행할 수 있습니다.
오른쪽 이미지에서 볼 수 있듯이, Bank transfer의 Credit card는 별 차이가 없지만, Electronic check와 Mailed check은 다름을 알 수 있습니다.
표와 더불어 그래프를 통해 확인한다면 더 직관적으로 분석 내용을 유추할 수 있습니다.
오늘은 One-way ANOVA에 관해 함께 알아보았습니다.
해당 내용은 유튜버 sapientia a dei님의 영상을 참조했습니다. 통계학에 관해 좀 더 자세한 내용을 공부하고 싶다면 해당 유튜브 채널을 적극 추천합니다.
감사합니다.
https://www.youtube.com/@SapientiaaDei