brunch

3장 A/B 테스트 실행방법(3)

명목척도 말고 비율이나 등간척도일 때의 A/B test

by 야갤이 윤태

앞서서 명목척도로 모아진 빈도수 데이터를 가지고 A/B Test 하는 방법을 살펴보았습니다. 사실 실무에서는 이런 빈도수를 갖고 분석하는 경우가 매우 많으므로 이 부분을 했지만 그와 비슷한 수준으로 등간척도나 비율척도를 갖고 비교하는 A/B Test도 많이 하게됩니다.


이번에는 이런 이산형 변수를 가지고 모아진 비율척도, 등간척도의 A/B Test를 살펴보겠습니다.


1) 등간척도

- A안과 B안의 만족도를 5점 척도로 평가를 받은 경우

- A안과 B안의 구매의향을 7점 척도로 평가받은 경우


2) 비율척도

- A안과 B안의 구매고객당 구매금액을 받은 경우

- 남자와 여자의 사이트 체류시간을 측정한 경우

- 30대와 40대의 구매고객당 구매금액을 평가하는 경우

- 30대와 40대의 구매고객당 구매객수를 평가하는 경우


이러한 경우 등간척도와 비율척도로 측정된 평가 A/B가 다른지(양측검정), A보다 B가 많은지 큰지, B보다 A가 큰지, 작은지(단측검정)을 통해서 분석하게 됩니다. 양측검정과 단측검정의 개념은 기본적인 통계 편을 한번 잘 읽고 오셔서 이해가 잘 되셨다고 생각하고 설명드리도록 하겠습니다.


그럼 먼저 등간척도로 모아진 데이터를 분석한다고 가정하고 설명드리도록 하겠습니다.


열성멤버 남자 40명과 여자 40명을 대상으로, 당사 사이트에 대한 만족도 비교를 5점 척도로 진행하였다고 가정해 보시죠. 좀 편하게 보실 수 있도록 가로형으로 만들어서 진행해 보겠습니다.


이제 엑셀 메뉴 데이터에서 통계분석틀을 꺼내고 T-Test 등분산 가정 두 집단 클릭하시는 건 앞에서도 계속 해 오셨으니까 익숙하시죠? 그 부분은 제외하고 설명드리겠습니다.


아래에서 보시는 것처럼 남/여 데이터로 각각 만족도를 평가한 자료를 좀 보기 현하게 가로형으로 넣었습니다. 가로형으로 넣고 변수 1(남) 변수 2(여)의 범위만 지정해 주고, 이름표란을 클릭해 주면 자기가 알아서 첫 번째 열은 이름이구나 이렇게 판단해서 분석합니다. 유의 수준은 기본이 0.05로 되어있습니다.

Excel34.jpg


이렇게 넣고 확인을 누르면 결과가 다음과 같이 나옵니다.

자 이렇게 결과가 나왔다면, 이 결과표는 어떤 의미일까요? 우리는 기준 유의 수준을 0.05로 잡았는데 양측검정(다른지 아닌지를 구분한다)의 P값은 0.007898834로 0.05보다 훨씬 작아서 귀무가설(동일하다)을 기각하고 대립가설 (차이가 있다)를 채택하게 됩니다.


이번에는 단측검정을 볼 때 남자의 평균이 여자의 평균보다 작거나 같다를 귀무가설로 설정하였다면 귀무가설의 채택 기준인 0.05보다 훨씬 작은 0.003949417을 보였기 때문에 이 부분에 대해선 귀무가설을 기각하고 남자의 평균이 여자의 평균보다 유의미하게 크다라고 판단하게 됩니다.


만약 반대의 귀무가설을 설정하는 경우가 있다면, 즉 남자의 평균이 여자의 평균보다 크거나 같다로 귀무가설을 설정하게 된다면 이 것은 방향성이 문제가 됩니다.

즉 0.003949417이라는 값이 남자의 평균이 여자평균보다 작다고 설명되는 것이 아니라 이미 남자평균은 여자평균보다 크다는 점은 이미 확정이 되었기 때문에 단측검정을 하는 방향이 반대가 되어 단측검정에서 설명해야 하는 P값이 현재 나온 값의 반대인(1-0.003949...) 값을 P값으로 봐야하기 때문에, 결정된 P값이 0.996051... 이 되어 단측검정의 귀무가설을 기각할 수 없다는 결론에 이르게 됩니다.


살짝 헷갈리실 수 있는 데, 만약 T-test 분석을 하고 난 후 결괏값을 해석할 때에는 각 대안의 평균값을 보고, 이 평균값을 기준으로 귀무가설의 방향성이 애초에 다르다면, 계산된 단측검정의 P값을 1에서 뺀 값을 기준으로 귀무가설의 채택여부를 판단해야 한다고 생각하시면 될 것 같습니다.


다음은 비율척도로 모아진 Data를 분석하는 방법을 살펴보도록 하겠습니다.

이번에는 해석하는 과정은 같지만 샘플수가 달라서 이분산 가정 T-Test를 하는 경우로 생각해 보겠습니다.


다음을 보시면 남자는 샘플수가 36 여자는 샘플수가 40이어서 분산이 다를 수 있다고 가정하여 이분산 가정 T-test를 실행하였습니다.

Excel36.jpg

그럼 데이터를 살펴보면 양측검정으로 볼 때, P값이 0.013...으로 유의 수준 0.05보다 작으므로 남자 여자의 데이타는 통계적으로 유의하게 다르다고 판단할 수 있다는 것은 이제 아시겠죠?


다음 단측검정에서 여자의 데이터가 남자의 데이터보다 크거나 같다는 귀무가설의 경우에 평균을 보면 남자의 데이터가 여자보다 작기 때문에 귀무가설의 기각이 예상이 되고, P값이 0.000689412이므로 단측검정에서의 남자의 데이터가 여자의 것 보다 크거나 같다는 귀무가설은 기각되고 대립가설인 남자의 데이터가 여자의 것 보다 작다라는 대립가설을 채택하게 됩니다.


반대의 귀무가설을 가정해 보면 남자의 데이터가 여자의 데이터보다 작거나 같다는 귀무가설을 설정한 경우 평균값의 방향이 이미 반대이므로 P값은 (1- 0.000689412)를 한 값이 되어 귀무가설을 기각하지 못하고 채택하게 된다는 결론을 얻게 됩니다.


한 가지 제가 빼놓은 것이 있는데 엑셀에 보면 T-Test를 할 때 T검정 : 쌍체비교라는 항목이 있습니다. 이 부분은 모두 같은 과정인데 지금까지는 각 샘플이 모두 다른 사람들에 의해서 만들어진 독립적인 결과였습니다.


하지만, 1 사람이 A/B안을 각각 평가 한경우를 모았을 때에는 데이터의 형태는 동일하지만 1명으로부터 A에 대한 평가와 B에 대한 평가가 나온 것으로 각각 다른 사람이 평가한 A/B를 비교하는 것과는 다른 모델을 따르게 됩니다. 따라서 이런 경우에는 쌍체비교라는 항목으로 동일하게 분석하면 됩니다.


분석의 방법과 해석의 방법은 동일하니 상황에 따라 나눠서 사용하시면 됩니다.


자, 이제 여러분은 A/B Test의 대부분의 사례와 분석방법에 대해서 공부하셨습니다. 물론 많은 가정과 전제 그리고 기본적인 제약조건 등을 제가 제외하고 현실적으로 꼭 필요한 부분들만 넣어서 설명드리고 있지만 쉽지는 않으셨을 것 같습니다.


여기까지 오시느라 고생하셨고, 이미 30%는 마무리했다~! 이렇게 생각하셔도 괜찮겠습니다.


keyword
이전 09화3장 A/B 테스트 실행방법(2)