brunch

3장 A/B 테스트 실행방법(1)

엑셀로 실행하는 두 가지의 방법

by 야갤이 윤태

A/B Test를 실행하는 현업에서의 방법은 크게 T-Test와 카이스퀘어 분석을 들 수 있습니다. T-Test는 2개의 대상으로만 진행해야 하지만 카이스퀘어 분석은 A/B 2개만 아니라 A/B/C 3개나 4개까지도 할 수 있다는 점이 장점이라고 할 수 있습니다.


물론 카이스퀘어 분석은 엑셀에서 자동으로 계산되지 않는 이유로 손으로 직접 넣어야 하는 불편함이 있을 수 있으나 기본적인 이해만 한다면 그다지 어렵지는 않으므로 차근차근해보시죠.


1) T-Test를 활용한 A/B Test


T-Test를 활용하는 A/B Test를 엑셀에서 데이터 분석 창을 열어보면 3가지 종류의 T-test가 나옵니다.


Excel16.jpg


Excel15.jpg



첫째, t-검정: 쌍체비교는 다른 표현으로 대응표본 T-검정(Paired T-Test)이라고도 이야기합니다.

같은 집단(혹은 동일한 개별 사람들의)의 두 시점 또는 두 조건 간 차이를 비교할 때 사용하는 방법입니다. 예를 들어, 교육생의 프로그램 전후의 점수 차이를 분석할 때 활용하거나, 동일한 사람의 다이어트 프로그램 시작 전과 후의 체중 변화 비교에 활용할 수 있습니다. 즉 동일한 대상을 기준으로 한 반복 측정값 간의 평균 차이를 검정합니다.


둘째, t-검정: 등분산 가정 두 집단은 두 독립된 집단 간 평균을 비교할 때, 두 집단의 분산이 동일하다고 가정하는 경우에 사용된다. 예를 들어, 두 반의 시험 성적 평균을 비교할 때 이 검정을 사용할 수 있습니다. 실험군과 대조군처럼 상호 관련이 없는 두 집단 간 차이를 분석할 때 적용됩니다.

일반적으로 현업에서는 이 방법을 좀 더 많이 사용한다고 저는 개인적으로 생각합니다.

광고 A안과 B안을 소비자 남성 30대를 대상으로 40명씩 조사한 결과를 통계적으로 어떤 안이, 보다 선호하는지 비교할 때 사용할 수 있습니다.


셋째, t-검정: 이분산 가정 두 집단은 두 집단 간 분산이 서로 다를 수 있다고 판단될 때 사용하는 독립표본 T-검정으로, 혹자는 보다 현실적인 상황에 적합하다고 이야기를 하곤 합니다. 예를 들어 예를 들어 도시 거주자와 농촌 거주자의 월평균 지출을 비교할 때(생활방식이나 물가가 다르므로 지출의 분산이 다를 수 있다고 가정)를 비교하거나, 남성과 여성의 평균 수면시간 비교등을 할 때를 가정해 보면(생리적, 생활적 차이가 있어서 분산이 다를 것으로 예상) 분산이 다른 두 독립 집단의 평균 차이를 비교할 때 유용합니다.


만약, 두 광고 A/B를 평가한 샘플의 수가 각각 40과 43이라면 어떻게 해야 할까요? 일반적으로는 등분산이라고 가정할 수 있다면 T-Test 등분산 가정 두 집단을 쓸 수 있겠지만 숫자가 다르다면 분산이 다를 가능성이 있으므로 일반적으로는 이분산 가정 T-test를 사용하는 것이 더 안전하다고 평가되고 있습니다.

특히 엑셀에서는 샘플 수가 달라고 이분산 가정 두 집단 T-Test는 문제없이 적용이 가능합니다.


엑셀에서는 이들 검정을 “[데이터] → [데이터 분석]” 도구에서 선택하여 실행할 수 있으며, 데이터의 특성에 따라 적절한 검정 방법을 선택하는 것이 중요합니다.


자, 그럼 본격적으로 시작해 볼까요?


오늘 저는 새로운 배너 광고를 Test 하기 위해서 A안과 B안을 만들었습니다. (A안과 B안을 어떻게 적절하게 선택하였는지는 또 다른 문제니까 이번에는 패스합니다)

이 A안과 B안을 Test 해서 어떤 광고를 우리가 주력으로 여타의 모든 SNS나 유튜브 등에 올릴 것인지를 결정해야 합니다.


Test방법은 다음과 같이 진행했습니다. 우선 대상자를 자사몰 당일 가입고객을 대상으로 하고 각 1일씩(화요일과 수요일로 정했습니다) 광고 A안과 B안을 가입자 최종페이지 사이드배너 광고로 올리고 가입자 중 클릭률을 비교해 보기로 하였습니다.


화요일에 올린 A안의 클릭률은 총 유입자수 90명 중에서 15명이 클릭하였고, B안의 클릭률은 총 유입자수 130명 중에서 15명이 클릭하였습니다. 이랬을 경우에 A안의 클릭률은 16.6%이고 B안의 클릭률은 11.5%를 나타냈습니다. 이렇게 기본적인 결과가 나왔다면 우리는 실제 광고에서 통계적으로 차이가 있었는지를 보기 위해서는 어떤 분석방법을 쓰면 될까요?


만약에 같은 샘플수로 진행했다면 등분산 가정 T-Test를 했겠지만 , 우리는 샘플수가 다르므로 분산도 다를 가능성이 있어서 이분산 가정 T-Test로 분석을 해야겠습니다.


그렇다면 우리는 가입자와 그 가입자가 광고를 클릭했는지를 알고 있게 됩니다. 이럴 경우 이렇게 엑셀로 데이터 셋을 만들 수 있습니다(각자가 사용하는 자사몰의 어드민에 따라 데이터를 추출할 수 있는 방식이 다를 텐데요.. 일단 자료를 찾아서 아래 보이는 엑셀 시트에 붙여 넣었다고 가정하고 설명드리겠습니다).


데이터 셋은 클릭한 경우 1, 클릭하지 않은 경우를 0으로 표시해서 2가지 구분을 통해 만들어 줍니다.


여기에서 한 가지! 추가로 설명을 드려야 하는 부분은, 사실 실무에서는 이렇게 분석을 하는 게 편하고 쉬워서 사용하기는 하지만, 엄격한 통계적인 분석 기준으로 볼 때 이 자료(0과 1로 구분된 이항분포의 Data)를 분석하는 데에는 T-Test가 살짝 부족한 부분이 있습니다. 기본적으로는 T-Test를 사용하기 어렵지만 실무에서 편의상 사용한다 봐주시면 되겠습니다.


이렇게 한다/안 한다의 개념으로 분석할 때 보다 적합한 분석은 카이제곱 분석이나 이항비율검정 이므로 이렇게 분석하는 것을 보신다면 통계를 전공하시는 분께서 보시면 야단치실 수 있습니다. 하지만 실무에서의 편이적인 부분에 대한 특성상 두 그룹의 선택률 차이를 단순히 평균차이로 분석한다는 가정으로 근사적 분석이고 표본수가 충분히 크고(40개는 넘는 수준) 1의 비율이 20%를 넘는 수준이라면 완벽하지는 않지만 사용 가능한 것으로 보고 있습니다.


Excel17.jpg


이렇게 만들어진 엑셀 Data를 한번 살펴보면 광고 A는 30%의 선택률, 광고 B는 20.7%의 선택률을 보였습니다. 이 자료를 엑셀을 통해서 분석해 보도록 하겠습니다.


분석을 위에서 데이터탭에서 아마도 맨 오른쪽에 있는 데이터 분석을 클릭하시면 다음과 같은 테이블이 나타나게 됩니다. 여기에서 앞서 말씀드렸던 T-검정 이분산 가정 두 집단(숫자가 다르므로)을 선택해 주시고 확인을 누릅니다.


Excel18.jpg

확인을 누르면 다음과 같이 테이블이 나오는데 거기에 변수 1과 변수 2의 입력범위를 넣으시고 광고 A/B가 있으므로 이름표도 클릭해 주고 출력범위는 새로운 워크시트로 선택합니다.


Excel19.jpg


그리고 확인을 누르면 다음과 같은 결과가 나타납니다.


T-Test결과(광고 A/B)

이 결과를 해석해보면(앞서서 살펴본 정규분포 양측검정의 기각이 되는 과정을 한번 잘 기억해 보세요)


A집단과 B집단 간 평균의 차이를 분석한 결과, A의 평균은 0.167, B의 평균은 0.115로 약간의 차이가 있었지만, t 통계량은 1.057, 양측 검정의 P값은 0.292로 나타났다. 이는 일반적으로 사용되는 유의 수준인 0.05보다 더 높은 값으로, 두 집단 간의 평균 차이가 통계적으로 유의하지 않음을 의미한다. 따라서 이 분석에서는 두 집단 간의 차이가 우연에 의한 것일 가능성이 높으며, 귀무가설을 기각할 수 없다고 할 수 있습니다.


여기에서, 만약 여러분이 만약 A/B광고 테스트를 진행하였는데 A안의 클릭률은 16.6%이고 B안의 클릭률은 11.5%라면 어떻게 하셨을까요? 아마도 A안의 클릭률이 5% 이상 높으니까 A안으로 결정하는 게 좋겠습니다. 이렇게 이야기하지 않았을까요?


하지만, 통계적으로는 A안과 B안은 차이가 없다고 판단되는 점을 잘 생각해 보실 필요가 있겠습니다.


그럼 여기서 연습문제를 한 개 더 풀어 보겠습니다.


프로모션을 통해서 유입된 고객 중에서 남/여 구매 금액의 차이가 있는지 어떤 고객층이 더 구매를 많이 하는지를 풀어보시죠, Data는 40명을 기준으로 남/여 금액(천 원 단위)으로 만들었다고 가정하겠습니다.


이번에는 Data Set을 엑셀로 넣고 등분산 가정 두 집단으로 분석방법을 설정한 후 남자/여자의 구매금액을 넣어서 차이가 있는지를 살펴보았습니다.


Excel22.jpg
Excel24.jpg
Excel23.jpg
엑셀테이터와 분석 프로세스

결과는 남자의 평규닝 40.15 여자의 평균은 46.29가 나왔습니다. 그럼 두 그룹의 평균은 차이가 있는 걸까요? 위에 노랗게 색을 칠해 놓은 부분을 살펴보시면 P값이 모두 0.05보다 크기 때문에 두 그룹의 평균구매 금액의 차이가 있다는 귀무가설을 기각할 수 없습니다.

즉, 남녀의 구매금액은 차이가 없다는 것으로 판단하게 된다는 이야기입니다.


반면에 다음 숫자를 보면 좀 달라집니다.


Excel25.jpg

이 경우에는 남자의 평균이 40.15 여자의 평균이 50.66인데 P값을 보면 양측검정에서 0.011로 0.05% 유의 수준에서 훨씬 작은 값을 보여주기 때문에 넉넉하게 두 집단의 평균이 같다는 귀무가설을 기각하고 두 집단의 평균이 다르다는 대립가설을 채택할 수 있게 됩니다.


이렇게 A/B Test를 하는 방법은 간단하지만 실무에서 통계적인 유의성이 있는지를 살펴볼 수 있는 좋은 방법이라고 할 수 있습니다. (하지만 꼭 잊지 마세요 했냐 안 했냐 등의 이항 분포를 나타내는 자료를 T-Test 할 때에는 크기가 크고 선택률이 어느 정도 나올 때 사용하시는 것이 중요합니다.)


그럼, 다음 부분에서는 보다 엄격하게 검증이 된다고 할 수 있는 카이스퀘어 분석을 보여드리도록 하겠습니다.

keyword
이전 07화3장 A/B 테스트 실전 가이드