누구나 이야기 하는 A/B 테스트 어디까지 해봤어?
A/B 테스트라는 용어는 실무를 할 때, 정말 많이 어쩌면 매일 반복적으로 들을 수 있는 용어라고 할 수 있다. 그만큼 많은 담당자들이 광고시안을 결정할 때, 이벤트의 소비자 반응을 검증할 때, 판촉 프로모션의 표현 혹은 내용을 결정할 때 사용하고 있기 때문이다.
하지만, 이 A/B 테스트가 통계학에서 이야기하는 T-Test, 혹은 Z-Test, 혹은 카이스퀘어 분석의 결과로 판단되고 의사결정이 된다는 점은 어쩌면 잘 알고 있지 못하실 수도 있다.
두가지 대안의 평균값을 가지고(카이스퀘어 분석은 평균값이 아니고 그 돗수를 가지고 분석하니 제외) 어떤 대안이 좀 더 내가 원하는 결과에 가까운지를 분석하는 테스트를 A/B 테스트로 생각하셨다면 잘 오셨다.
이 분석은 결과적으로는 T-Test, Z-Test라고 하는게 보다 정확하다. 하지만 사실 이 분석을 하기 위해서는 전제와 가정등도 필요한데 실무에서는 그렇게 진행하는 경우는 거의 보지 못했다. 그냥 이거 A/B 테스트한 결과인데 B가 더 높고 반응이 좋습니다. 이렇게 대답하는 것을 주로 본다고 하면 맞을꺼 같다.
예를들어, A프로모션과 B프로모션 2가지를 기획해서 주중 월/화 각 1일간 판매를 해보고 그 결과를 비교하는 A/B Test를 했다고 치자(최대한 동일한 조건에서 Test를 하는 것이 필요하다는 점은 이해하고 계시리라 생각되니 그 부분은 일단 제외) 그 결과 A와 B의 성과가 100 : 160정도 차이가 났다면? 뭐 통계로 분석을 해보지 않아도 큰 차이이니 B를 고를 수 있을 것이다.
실제 통계로 분석을 해 본다고 해도, B가 더 좋은 결과로 나올것이다. 하지만 A가 100 B가 108이 나왔다면? 어떠한가? 그 때도 B가 좋다고 의사결정을 할 것인가? 아마 보통은 그래도 B가 좋다고 결정을 할 가능성이 높다. 어쨌거나 절대적으로 숫자는 높으니 말이다. 그럼 여기서 한가지 궁금한 점이 있다.
여기 A와 B는 어떻게 무엇을 기준으로 어떠한 근거로 설정한것일까? 하는 의문, 설정한 후에 왜 A와 B를 이러한 방법으로 비교하게 만들었을까? 왜 애초에 그렇게 설계를 어떤 근거로 한 것일까? 그리고 A와 B 말고 C를 더해서 실험을 하는 건 어땠을까? 하는 종류의 의문 말이다.
그냥 A와 B를 단순하게 비교한다..는 점이 처음에는 좀 이해가 되기 어려웠다. 하지만 실무에서 담당자가 인사이트를 가지고 설정한 A와 B의 대안은 검토할 만한 가치가 있다고 생각하는 것으로 일단 하고 그 차이를 판단하는 근거는 감에 의한 평가 밖에 되지 않는 다는 점이 마음에 많이 걸렸다.
그래서, 실무에서 정말 많이 사용하는 A/B 테스트를 가장 먼저 살펴보기로 하였다.
앞서 문제제기를 하기는 했지만 실제로 실무에서, A/B 테스트는 온라인마케팅 실무에 있어서 가장 강력한 가장 빈번하게 사용되는 분석 도구 중 하나일 것이라고 생각됩니다.
사실 온라인 마케터는 매일 선택의 기로에 놓입니다.
예를들어,
1)어떤 배너 이미지가 더 클릭을 유도할까?
2)이메일 제목은 어떤 방식이 더 열릴까?
3)버튼 색상을 바꾸면 전환율이 오를까?
이러한 현업에서의 질문에 대해 "감"이 아닌 실제 숫자로 만들어진 "데이터"로 답하는(의사결정을 하는) 방법이 바로 A/B 테스트입니다. 물론 앞에서 문제 제기한 방법에 있어서의 통계적인 관점과 실무활용이 중요하다는 점을 잊으시면 안됩니다.
보통 실무에서 사요하는 단순한 A/B 테스트는 하나의 변수를 두고 두 가지 버전을 실험하여, 어떤 버전이 더 좋은 결과를 만들어 내는지를 비교하는 방법입니다(앞에서 보신 어떤 배너 이미지가 더 많은 클릭을 유도할 수 있을까? 등이라고 할 수 있습니다).
실무에서 빠르고 쉬운 분석을 위해서는 변수를 1가지로 하는 것이 가장 편하고 명확한 결과를 볼 수 있으므로 2가지 변수의 변경이나 그런 부분에 대해서는 다음에 설명해 드리기로 하고 이번에는 단순하고 가장 쉽게 사용할 수 있는 A/B Test에 대해서 설명드리도록 하겠습니다.
A/B테스트의 이해를 위해서, 우선 가장 기본적인 T-Test에 대해 통계적인 가정이나 제한등을 최소화하고 최대한 간단하게 설명드리도록 하겠습니다.
T-Test는 두 그룹의 평균이 통계적으로 유의미하게 다른지를 판단하는 통계 기법입니다.
예를 들어 광고 A와 광고 B의 클릭률이 실제로 차이가 있는지를 알고 싶을 때 사용합니다. 두 그룹의 평균과 분산을 바탕으로 T-통계량을 계산하고, 이를 통해 p-value를 구합니다.
여기에서 P-value는 두 그룹 간의 차이가 우연히 발생했을 확률을 의미합니다. 보통 기준은 0.05이며, p-value가 0.05보다 작으면 “두 그룹은 유의미하게 다르다”고 보고, 0.05 이상이면 “차이가 없다”고 판단합니다(하지만 엑셀로 분석할 때에는 P-Value대신 T통계량 값을 제공합니다).
즉, T-Test는 평균 차이가 실제인지 우연인지 판단해주는 도구이며, p-value가 작을수록 차이가 있다고 볼 수 있습니다(엑셀에서 분석을 할 때에는 T 통계량을 보여주므로 T통계량이 기준 T통계량보다 크면 통계적으로 유의한 차이가 있다고 판단합니다).
사실, T-Test를 실제로 손으로 진행하기 위해서는 계산이 필요하지만, 현업을 수행 하면서는 엑셀을 사용할 가능성이 보다 높으므로 손으로 하는 계산보다는 엑셀에서 데이터를 어떻게 분석을 하고 해석할 것인지를 다음에 설명드리도록 하겠습니다.
A/B 테스트의 첫 번째 단계는 Test를 어떻게 설계할 것인지 결정하는 것입니다. 이 단계에서 목표와 테스트할 요소를 정해야 합니다.
1) 목표 설정: 테스트 목표는 무엇인가요? 예를 들어, 전환율을 높이거나, 광고 클릭률을 증가시키거나 하는. 목표가 명확해야 실험이 성공적일 확률이 높아집니다.
2) 변수 설정: A와 B의 두 버전을 어떻게 다르게 할 것인지 결정해야 합니다. 예를 들어, 웹사이트의 버튼 색상, 이메일 제목, 광고 문구 등을 비교할 수 있습니다(단 한가지 만을 다르게 해야 합니다).
3) 가설 수립: 예를 들어, "A안이 B안보다 클릭률을 높일 것이다"와 같은 가설을 설정합니다.
A/B 테스트를 위해서는 데이터가 필요합니다. 이 데이터는 실험 결과를 측정하고 분석하는 데 사용됩니다. 데이터 수집 설계를 잘 해야 정확한 결과를 도출할 수 있습니다.
대상 그룹 선정: 실험에 참여할 대상은 어떻게 선정할 것인지 결정해야 합니다. 예를 들어, 특정 지역의 사용자나 특정 연령대의 사용자 등을 대상으로 할 수 있습니다.
표본 크기 결정: 실험에 참여할 사용자 수를 결정해야 합니다. 표본 크기가 너무 작으면 결과의 신뢰성이 떨어질 수 있습니다. 일반적으로(비교의 Cell별로) 최소 32명 이상이 참여하는 것이 최소한입니다.
* 비교의 Cell개념 : 남/여 40대 비교를 위해서는 각 32명 이상의 대상을 참여시켜서 비교해야 합니다
즉 남자 40대 32명, 여자 40대 32명 각각 이상 비교하여야 최소한의 Test기준 충족(중심극한정리)
실험 기간 설정: 실험은 일정 기간 동안 진행되어야 합니다. 보통 비교 데이터가 최소 32개 이상 쌓일 수 있는 기간이 필요하며, 측정환경이 동질적인 환경이 될 수 있도록 통제하는 것이 좋습니다.
* 측정을 평일과 주말의 구분없이 A안 B안의 온라인 매출을 구분하면 환경이 달라서 안됩니다. 가능하면
동일한 평일/동일한 주말에 측정하고 그 외에 다른 달라지는 환경이 없도록 하여야 합니다.
실험을 통해 수집된 데이터는 분석을 위한 형태로 측정되어야 합니다. 2장에서 배우신 측정척도 중에서 가능하면 등간척도나 비율척도로 측정하는 것이 보다 용이한 자료 분석 및 활용이 가능할 수 있겠습니다.
또한 측정에 있어서 중요한 요소는 무엇인지, 어떤 지표를 사용할 것인지 등을 결정하는 단계입니다.
1)전환율 (Conversion Rate): 목표 달성 비율로, 클릭한 사람 중 실제로 목표를 달성한 사람의 비율입니다-명목척도/비율척도(0 과 1, 15% 와 30%등으로 데이터를 만들 수 있습니다)
2)클릭률 (CTR, Click-Through Rate): 특정 링크나 버튼을 클릭한 사람들의 비율입니다.-명목척도/비율척도(0 과 1, 15% 와 30%등으로 데이터를 만들 수 있습니다)
3)이탈률 (Bounce Rate): 페이지를 보고 다른 행동 없이 떠난 사람들의 비율입니다.-명목척도/비율척도(0 과 1, 15% 와 30%등으로 데이터를 만들 수 있습니다)
4)세션 시간 (Session Duration): 사용자가 페이지에 머문 평균 시간입니다.- 비율척도
5)매출 (Revenue): 실험 기간 동안 발생한 수익입니다. - 비율척도
데이터 분석 단계는 실험 결과를 분석하고, 두 그룹(A와 B) 간의 차이를 측정하는 과정입니다.
· 통계적 검정: A와 B 그룹 간에 유의미한 차이가 있는지 검정해야 합니다. 일반적으로 t-test나 카이제곱 검정 등을 사용합니다. p-value가 0.05보다 작으면 두 그룹 간 차이가 유의미하다고 할 수 있습니다.
· A/B 그룹 비교: A 그룹과 B 그룹 간에 각 지표 (전환율, 클릭률 등)를 비교합니다. 예를 들어, B 그룹이 A 그룹에 비해 전환율이 20% 높다면, B 버전이 더 효과적인 것으로 판단할 수 있습니다.
· 다중 변수 분석 (Multivariate Testing): 한 번에 여러 변수를 실험하는 경우 다중 변수 분석을 통해 어떤 조합이 가장 효과적인지 분석할 수 있습니다.
마지막 단계는 분석 결과를 해석하는 것입니다. 실험 결과가 명확히 무엇을 의미하는지, 어떤 결정을 내려야 할지에 대해 해석합니다.
유의미한 차이가 있을 경우: 예를 들어, B 버전이 A 버전보다 전환율이 10% 높다면, B 버전을 채택하는 것이 유리할 것입니다(물론 통계적인 분석결과 유의미한 차이가 있음을 확인하여야 합니다).
유의미한 차이가 없을 경우: 실험 결과가 통계적으로 유의미하지 않다면, 두 버전의 성과가 비슷하다는 뜻이므로 기존 상태를 유지하거나 다른 요소를 테스트할 필요가 있습니다.(물론 통계적인 분석결과 유의미한 차이임가 없음을 확인하여야 합니다).
결과 기반의 최적화: 실험에서 얻은 인사이트를 바탕으로 마케팅 전략을 최적화해야 합니다. 예를 들어, 특정 문구나 디자인이 효과적인 경우 이를 모든 캠페인에 적용할 수 있습니다.
목표: 이메일 마케팅 캠페인에서 클릭률(CTR)을 높이는 것
A 버전: 제목을 "지금 확인하세요! 놀라운 할인 혜택"
B 버전: 제목을 "오늘만 한정! 특별 할인 혜택"
측정 지표: 클릭률(CTR)
분석 결과: B 버전이 A 버전보다 15% 높은 클릭률을 기록하였고 통계적으로 T-Test를 한 결과 통계적으로도 유의미한 차이가 있다고 확인 되었다면, "오늘만 한정!" 문구가 더 효과적임을 알 수 있습니다.
이렇게 단계적으로 A/B 테스트를 설계하고, 데이터 수집, 분석, 해석 과정을 거치면 온라인 마케팅 성과를 최적화하는 데 큰 도움이 됩니다
앞서 살펴본 바와 같이 실제 A/B Test를 위해서는 Data를 만들어야 합니다. 어떤 데이터를 어떻게 만드냐에 따라서 분석하는 방법이 달라지기도 합니다.
다음 챕터에서는 T-test와 카이스퀘어 분석에 대해서 실제 데이터를 만들고 분석하는 방법을 말씀 드리도록 하겠습니다. 실제로 손으로 계산하거는 방법을 단계별로 알려드리는 것은 실제 현업에서 활용하는데 엄청난 어려움을 느끼게 만들어 드릴 것으로 확신하고 있으므로 최대한 쉽게 최대한 간단하게 업무에서 주로 사용하시는 엑셀을 통해서 분석하실 수있도록 데이터 셋과 분석방법을 차례대로 설명드리도록 하겠습니다.
이렇게 데이터셋을 만들고 분석하는 데 있어서 필요한 것은 엑셀에서의 분석도구인 데이터 분석을 활성화 하고 추가적으로는 Real Statistics를 추가기능에 넣어서 활용하실 수 있게 만들면 매우 도움이 될 것 같습니다. 그래서 제가 별도의 부분으로 만들어서 이 두가지의 기능을 활성화하고 추가하는 방법을 넣어 두겠습니다.
지금 부터는 이 두가지 분석 방법이 엑셀에 깔려있다는 가정하에 분석을 어떻게 진행하면 좋을지를 말씀 드리도록 하겠습니다.