brunch

5장. AB말고 ABC테스트는 뭐지? 2

Anova의 사후분석을 위한 Real Statistics활용

by 야갤이 윤태

이번 파트2에서는 지난번 말씀드렸던, Real Statistics가 엑셀에 깔려 있으시다는 전제하에 그럼 설명드리도록 하겠습니다. 아래 그림에서 보시다 시피, 만약 Real Statistics가 깔려있으시면 추가기능을 클릭하면 Real Statistics탭이 나오게 되고 그 탭을 누르면 Data Analysis Tools가 클릭되게 됩니다.


ABC11.jpg


클릭을 하면, 다음과 같은 분석 팝업이 뜹니다


ABC12.jpg


여기서 Anova를 선택하고 One Factor Anova를 선택하면 다음과 같은 창이 뜹니다.

ABC13.jpg


여기에서 이제 One Factor Anova를 선택하고 확인을 누르면 다음과 같은 창이 뜹니다.

ABC14.jpg


이 메뉴를 간단하게 살펴보면 다음과 같습니다.

Input Range는 데이터의 영역을 넣는 부분이니 데이터가 들어있는 부분을 선택하면 됩니다. 이후 Output test Option에 Anova와 등분산 가정여부를 보는 Levene's Test를 클릭하였습니다. 나머지 중에서 Welch’s Test는 등분산성이 만족되지 않을 때 사용하는 대안적 검정입니다.

그리고 Anova Follow Up Option(사후분석 옵션)이라는 것은 ANOVA 결과가 유의미할 때, 어떤 그룹 간 차이가 유의한지를 분석하기 위해 사용됩니다. 일반적으로는 다음과 같은 옵션을 선택합니다.


Tukey HSD: 그룹 간 평균 차이 검정, 그룹 수가 같을 때 이상적

Pairwise t test: 각 그룹 쌍을 독립표본 t-검정으로 비교

REGWQ: Ryan-Einot-Gabriel-Welsch test로, 집단 간 차이 탐색용

Scheffé: 보수적 검정으로, 다양한 집단 비교에 적합


이 중에서 저는 Turkey와 Pairwise T Test를 선택하였습니다. 그리고 Alpha Correction for Contrasts (다중비교 보정)에서는 가장 많이 사용되는 Bonferroni(가장 많이 쓰이는 다중 비교 보정 방법. 보수적이지만 신뢰도 높음) 방법을 선정하였습니다.

그리고, 결과 출력 범위를 지정합니다. 저는 선택을 G12를 하였지만 편한곳 어디나 가능합니다.


이렇게 선택하고, OK를 누르면 다음과 같은 결과가 나옵니다. 물론 엑셀에서는 오른쪽 옆으로 주욱 붙어서 나오는데 저는 편의상 그냥 아래로 각각 설명드리도록 하겠습니다.

RS1.jpg

이부분은 엑셀에서 분석했을 때에도 나온 결과 입니다, F값은 28.98959이고, P value가 기준값인 0.05보다 엄청작은 0.0000000000594523(5.94523E-11) 이므로 각 그룹간의 차이가 명확하게 있다는 결론을 얻을 수 있습니다.

RS2.jpg

이부분은 Levene's Test결과 인데 등 분산여부를 분석하는 것이고 P-Value가 엄청 작다는 의미는 결국에는 귀무가설 H0H_0H0: 모든 그룹의 분산이 같다 (등분산)와 대립가설 H1H_1H1: 적어도 하나의 그룹의 분산이 다르다 (비등분산) 중에서 귀무가설을 기각하고 대립가설을 선택하게 된다는 의미입니다.

따라서, 이 결과에 따르면 일반적인 Anova Test를 하면 오류가 있을 가능성이 있다는 의미 입니다. (이 부분에 대한 대응방법은 아래부분에서 설명할 수 있도록 하겠습니다.)


RS3.jpg

이부분은 일단 ABC중 어떤 것이건 다르다는 결과에 대해서 좀 더 명확하게 어떤 집단간의 평균차이가 유의미한 차이인지 여부를 확인하기 위한 사후분석(Posts-Hoc Test)입니다.

* q-crit : Tukey HSD 검정에서 유의수준 α = 0.05일 때의 임계값 q = 3.357077

* cohen d : 이 지표는 두 집단간의 효과의 크기를 정량적으로 보여주는 지표로, 통계적으로 유의미한가를 떠나서 실제로 얼마나 차이가 큰지를 보여주는 지표입니다. 0.0 – 0.2 매우 작음 (무시 가능 수준), 0.2 – 0.5 작음 (약한 효과), 0.5 – 0.8 중간 (보통 효과) 0.8 – 1.2 큼 (강한 효과) , 1.2 – 2.0 매우 큼 (매우 강한 효과), > 2.0 극단적으로 큼


Q Test는 Tukey HSD/Kramer의 사후검증 결과를 상세하게 보여주며 이 표에서 A와 B의 P value 7.12142E-05와 Cohen d값 0.983681을 보면 P value는 충분히 작아서 A/B와 동일하다는 귀무가설을 충분히 기각할 수 있고, 그 실질적인 효과의 크기 또한 0.98로 강한 효과를 보여주고 있습니다.

이와 동일하게 A와 C, B와 C또한 각각 모두 매우작은 P value와 상대적으로 큰 (0.7이상) Cohen d값을 갑고 있어 그룹 A B C는 모두 충분히 통계적으로 차이가 있다고 판단할 수 있습니다.


이부분은 여러집단 간의 차이를 비교할 때 각 쌍의 그룹을 하나씩 비교하는 T-검정입니다. 실제로 Anova를 실행하고 차이가 있다고 판단될 때 어떤 그룹이 차이가 있는지를 각각 비교해야 할 때 두 쌍의 비교이므로 T-Test를 각각해서 그 부분에 대한 명확한 차이를 살펴볼 수 있습니다.


앞서, Tukey HSD는 한번에 보여주는 것을 이 Test는 각각 비교해서 보여주는 것이 다른 부분이라고 할 수 있겠습니다.

여기서도 AB, AC, BC를 각각 T-Test한 결과 P-value가 모두 0.05보다 작게 나타나서 두 집단의 평균차이는 유의하게 다르다라고 판단한 것을 알수 있습니다.


여기까지 분석한 부분은 일반적으로 분산분석의 기본적인 조건(등분산, 정규성, 독립성)을 모두 갖추고 있었다고 판단될 때 진행되는 프로세스 였습니다.


그런데, 이 분석에서 앞으로 돌아가 보면 등분산이 아니라고 분석된 Levene's Test가 있었습니다.

RS2.jpg

앞서 이 결과는 등분산이 아니라고 판단되었기 때문에 이럴 경우에는 등분산이 아닌 경우에 적용해야하는 다른 옵션을 사용해야 합니다.


이렇게 등분산이 아닐 때에는 일반적인 ANOVA나 t-test는 부적절할 수 있다는 점을 생각하셔야 합니다.

대신 Welch’s ANOVA, Welch’s t-test, 또는 비모수 검정(예: Kruskal-Wallis)이 더 적절할 수 있습니다 Tukey HSD는 등분산을 전제로 하기 때문에, Games-Howell 같은 비등분산을 허용하는 사후검정을 사용하는 것이 권장됩니다.

RS5.jpg

놀랍게도 이 무료 프로그램에 이런 옵션들이 모두 존재하고 있다는게 신기합니다. 하지만 분명히 있네요...


예를 들어, 이렇게 비정규분포에 비등분산에 다중그룹을 비교해야하는 상황이라면 Kruskal-Wallis(Welch's) → Games-Howell → Dunn’s Test (with Holm or FDR correction)를 선택하는 것이 일반적입니다.


이렇게 선택하고 분석을 진행한 결과를 한번 살펴보시죠

클릭한 결과를 확인하면 다음과 같은 실행결과가 나옵니다.


RS6.jpg


먼저 왼쪽 표는 Kruskal-Wallis 검정 결과를 요약한 것입니다. 이는 3개 이상의 독립된 그룹 간 중앙값(분포)의 차이가 있는지를 평가하는 비모수적 검정입니다. 결과를 보는 방법은 이전 Anova의 결과값을 보는 것과 비슷한데, H-stat은 Kruskal-Wallis 검정 통계량이고 P value가 매우작은 6.91E-09이므로 alpha(유의수준) 0.05를 기준으로 볼 때 유의한 차이가 있다고 볼 수 있다는 의미입니다.

마지막에 sig.는 유의한지를 보여주는 항목이고 yes라는 의미는 유의한 차이가 있다(p<0.05)라는 의미 입니다.


오른쪽에 있는 표는 Welch’s ANOVA (또는 Welch’s Test) 결과를 보여주고 있습니다. 이 검정은 그룹 간 분산이 같지 않은 경우에도 신뢰할 수 있도록 설계된 분산분석(ANOVA)의 대안입니다.

표를 해석하면, Alpha를 0.05로 놓고, F-stat은 Welch의 F 통계량이고 p-value가 2.06E-11로 매우 작은 값을 보여서 앞서 본것처럼 sig.가 yes로 나오는 유의한 차이를 보인다는 결과 입니다.


물론, 이렇게 3가지 대안들의 평균이 차이가 있다는 결론은 얻었지만 앞서 살펴본 바와 같이 Tukey분석과 같은 부분으로 어떤 대안이 서로 어떻게 다른지를 살펴보는 표가 아래에 있습니다.


RS7.jpg

위의 표는 Games-Howell 사후검정 결과입니다. 이 검정은 그룹 간 분산이 같지 않고, 표본 크기도 다를 수 있는 상황에서 평균 차이를 비교하기에 적절한 방법입니다. 이 경우, 앞선 Levene’s Test에서 등분산성이 깨졌기 때문에 Tukey HSD 대신 Games-Howell을 적용하여 분석한 결과 입니다.


여기 Q test결과를 보면 모든 그룹 쌍 간에 통계적으로 유의미한 차이가 존재하는 것을 알 수 있습니다.

결과의 해석은 사실 Anova의 Tukey HSD와 동일하게 볼 수 있다고 생각하시면 됩니다.


RS8.jpg

위의 표는 Dunn’s Test 결과입니다. 비모수 검정인 Kruskal-Wallis에서 전체 그룹 간 차이가 유의하다고 나온 후, 어떤 쌍 간의 차이가 유의한지를 확인하는 데 사용됩니다.


이 표의 결과는 앞선 분석과 약간 다른 결과를 보이는데 AB, AC는 통게적으로 유의한 차이를 보이지만 BC의 경우에는 유의한차이를 변경된 유의수준 0.01666667를 기준으로 할 때 초과(0.06165827)하여 유의하지 않다는 결론에 이르게 됩니다.


여기서 변경된 유의수준이란 D Test를 할 때 순위편균차이(R-mean)를 비교하여 z-통계량을 계산합니다. 이 통계량은 정규분포를 기반으로 설정되므로 쌍별비교를 하는 Dunn's Test에서는 비교회수가 많아지며 잘못된 유의성(유의수준 0.05하에서 여러번 테스트 하면서 우연히 유의한 결과가 나올 확률이 증가)이 증가하므로 이를 방지하기위해 보정된 유의수준을 사용합니다.


예를 들어 이번 분석에서는 Bonferroni 보정을 적용하면 원래 유의수준 α = 0.05를 3쌍(AB, AC,BC)으로 비교하므로 보정된 alpha를 계산하기위해서 원래 α = 0.05를 3으로 나눠서 α = 0.05 / 3 = 0.0167를 보정된 유의수준으로 설정되었다고 보시면 됩니다. 따라서 이번 분석에서는 각 쌍의 p-value가 0.0167보다 작을 경우에만 ‘유의하다’고 판단하게 되고, AB,AC는 유의하지만 BC는 유의하지 않다고 결론을 내리게 되었습니다.


이번장에서 다룬 ABC Test는 ABC만이 아니라 ABCD의 경우 그보다 더 많은 대안에 대해서도 분석이 가능하다는 점 잊지 마시고, 많이 연습해 보시기 바랍니다.


이제, 엑셀에서 활용할 수 있는 AB, ABC Test에 대한 많은 부분에 대한 설명이 마무리 되었습니다. 고생하셨습니다.




keyword
이전 15화5장. AB말고 ABC테스트는 뭐지?