brunch

여러 집단 간 차이를 검증하는 분산분석(ANOVA)

데이터 속 차이를 파악하는 핵심 지표

by 이건승

"특별 활동이 성적에 영향을 줄까?" – 데이터를 통해 답을 찾는 방법


어느 한 학교에서 학생들은 야구부, 축구부, 바둑부에 각각 소속되어 특별 활동을 하고 있습니다. 이 학생들의 시험 점수를 살펴보면, 과연 특별 활동이 성적에 영향을 미친다고 볼 수 있을까요?


이를 확인하기 위해 단순히 평균만 비교하는 것만으로는 충분하지 않습니다. 예를 들어,

야구부 평균 점수: 85점

축구부 평균 점수: 78점

바둑부 평균 점수: 90점

단순히 숫자로 보면 차이가 있는 것처럼 보이지만, 이 차이가 실제로 의미 있는 차이인지, 아니면 단순한 우연인지 확신할 수 없습니다. 바로 이럴 때 필요한 것이 분산 분석(ANOVA, Analysis of Variance)입니다.

스크린샷 2025-02-07 오후 10.43.40.png


분산 분석이란? – 여러 집단의 평균을 비교하는 방법


분산 분석은 여러 그룹 간 평균 차이가 통계적으로 유의미한지를 검증하는 방법입니다. 쉽게 말해, 특정 요인(여기서는 특별 활동)이 결과(시험 점수)에 영향을 미치는지를 확인하는 통계 기법입니다.


이 방법의 핵심은 두 가지 분산을 비교하는 것입니다.

1. 집단 간 분산 : 그룹별 평균이 전체 평균과 얼마나 다른가?

2. 집단 내 분산 : 같은 그룹 안에서 개별 데이터들이 얼마나 흩어져 있는가?


이 두 가지를 비교하여 집단 간 차이가 실제로 의미 있는지 판단하는 것이 ANOVA의 기본 원리입니다.



F-값이 의미하는 것 – "차이가 유의미한가?"를 판단하는 기준


ANOVA에서는 F-값이라는 지표를 사용합니다.

F-값은 집단 간 분산을 집단 내 분산으로 나눈 값으로 계산됩니다.

image.png

F-값이 크다

→ 그룹 간 평균 차이가 크고, 같은 그룹 내 데이터가 비슷하다는 뜻

→ 즉, 특정 요인이 영향을 미쳤을 가능성이 높음


F-값이 작다

→ 그룹 간 평균 차이가 작거나, 같은 그룹 내 데이터가 많이 흩어져 있음

→ 즉, 특정 요인의 영향이 명확하지 않음


여기서 중요한 것은 F-값이 크다고 무조건 의미 있는 차이라는 보장은 없다는 점입니다. 이를 판단하기 위해 P-Value를 함께 살펴봐야 합니다.



P-Value와 F-값의 관계 – "통계적으로 의미가 있는 차이"란?


P-Value는 해당 결과가 우연히 발생할 확률을 의미합니다. 일반적으로 P-Value가 0.05보다 작으면, 즉 5% 미만의 확률로 우연히 발생할 가능성이 있다면, "우연이 아니라 특정 요인의 영향이 크다"라고 판단할 수 있습니다.


즉,

✔️ F-값이 크고 P-Value가 0.05보다 작다면 → 집단 간 차이가 유의미함

✔️ F-값이 작고 P-Value가 크다면 → 집단 간 차이가 유의미하지 않음


우리 예제에서 "특별 활동이 성적에 영향을 주는가?"를 분석했을 때, F-값이 크고 P-Value가 0.05보다 작다면, 특별 활동이 성적에 영향을 미친다는 근거가 됩니다.

스크린샷 2025-02-07 오후 9.58.28.png 분산 분석 예제 코드
분산분석예제시각화.png 분산 분석 결과 시각화



분산 분석을 사용할 때 반드시 확인해야 할 가정 (Assumptions)


분산 분석을 적용하기 전에 반드시 다음 세 가지 가정을 충족하는지 확인해야 합니다.


1. 정규성(Normality) : 데이터가 정규 분포를 따라야 합니다.

→ 검증 방법: 샤피로-윌크 검정(Shapiro-Wilk Test), Q-Q Plot

정규성검증.png

2. 등분산성(Homoscedasticity, Equal Variance): 각 그룹의 분산이 유사해야 합니다.

→ 검증 방법: 레빈 검정(Levene’s Test)

등분산성검정.png

3. 독립성(Independence): 각 그룹의 데이터는 서로 독립적이어야 합니다.

독립성검정.png



분산 분석의 한계와 대체 방법


1. ANOVA는 단순히 '차이가 있는지'만 검증할 뿐, 어느 그룹이 유의미하게 다른지 직접 알려주지 않습니다.

→ 추가 분석 방법: 사후 검정(Post-hoc Test)

→ 대표적으로 Tukey's HSD Test를 사용하여 "어떤 그룹이 유의미하게 다른지" 분석

스크린샷 2025-02-07 오후 11.09.33.png

2. 데이터가 정규 분포를 따르지 않는 경우

→ 대체 방법: 크루스칼-왈리스 검정(Kruskal-Wallis Test) (비모수적 방법)

스크린샷 2025-02-07 오후 11.15.14.png

3. 독립성을 보장할 수 없는 경우

→ 대체 방법: 반복 측정 ANOVA(Repeated Measures ANOVA) 또는 혼합 효과 모델(Mixed Effects Model)

반복 측정 ANOVA : 한 명의 실험 참가자가 여러 시점에 걸쳐 데이터를 제공하는 경우

혼합 효과 모델 : 고정 효과(예: 시간, 처리 방법)와 랜덤 효과(예: 실험 참가자 차이)를 모두 고려하는 경우



실무에서 분산 분석을 활용하는 방법


이제 실무 관점에서 분산 분석이 어떻게 활용될 수 있는지 살펴보겠습니다.

마케팅, CRM, 비즈니스 데이터 분석에서도 ANOVA는 매우 유용하게 사용됩니다.


✔️ A/B 테스트에서 활용
예를 들어, 광고 캠페인을 실행할 때

A그룹: 기존 광고를 본 사용자

B그룹: 새로운 광고를 본 사용자

C그룹: 전혀 다른 메시지를 본 사용자

이때, 각 그룹의 전환율(구매율)이 다르다면, 이 차이가 유의미한지 확인할 수 있습니다.
만약 ANOVA 결과에서 P-Value가 0.05보다 작다면, 새로운 광고가 실질적으로 영향을 준 것이라고 해석할 수 있습니다.


✔️ 고객 세그먼트 분석
CRM에서도 고객을 그룹별로 나누고(예: VIP, 일반 고객, 신규 고객)
이들이 얼마나 다른 구매 패턴을 보이는지 분석할 때 유용합니다.

예를 들어,

VIP 고객 평균 월 구매액 : 30만 원

일반 고객 평균 월 구매액 : 15만 원

신규 고객 평균 월 구매액 : 5만 원

단순히 숫자로 보면 차이가 커 보이지만, 이 차이가 유의미한지를 검증해야 실제 전략에 반영할 수 있습니다.
ANOVA를 통해 P-Value가 0.05보다 작다면, 고객 등급별로 구매 패턴이 확연히 다름을 통계적으로 증명할 수 있습니다.


스크린샷 2025-02-07 오후 10.07.35.png 캠페인 유형(A, B, C)에 따른 전환율 차이를 검증하기 위해 일원 분산 분석(One-way ANOVA
campaign_예제.png 캠페인 유형별 전환율의 분산 분석(ANOVA) 시각화 예시



분산 분석, 언제 사용하면 좋을까요?


분산 분석은 다음과 같은 상황에서 강력한 도구가 됩니다.


✅ 세 개 이상의 그룹을 비교할 때
(예: 세 가지 마케팅 전략 중 가장 효과적인 전략을 찾을 때)

✅ 단순 평균 비교가 아닌, 통계적으로 검증이 필요할 때
(예: 광고 A/B/C 테스트 결과가 유의미한 차이를 보이는지 확인할 때)

✅ 비즈니스 의사결정을 내릴 때 데이터 기반 근거를 만들고 싶을 때
(예: VIP 고객과 일반 고객의 구매 패턴 차이가 실제로 존재하는지 확인할 때)



숫자 속 차이를 검증하는 강력한 도구 - 분산 분석


데이터 분석에서 단순한 수치 비교만으로는 충분하지 않습니다. 우리가 보는 차이가 진짜 의미 있는 차이인지, 아니면 단순한 우연인지 검증해야 합니다.


분산 분석(ANOVA)은 데이터 속 차이를 파악하는 핵심 지표이며, A/B 테스트, 고객 세그먼트 분석, 마케팅 성과 분석 등 다양한 실무에서 유용하게 활용할 수 있습니다.


keyword
이전 07화고객 LTV, 어떻게 계산하고 활용할까?