“B가 잘 나왔어요!”에 숨겨진 오류들
“이번엔 절반에겐 쿠폰을, 절반에겐 메시지만 보냈어요. A/B 테스트죠.”
회의실 한쪽에서 누군가 그렇게 말했습니다. 그 순간 제 머릿속에 스쳤던 한 문장.
“A와 B가 있다고 해서, 그게 A/B 테스트는 아닌데...”
요즘처럼 데이터 기반 의사결정을 강조하는 시대에, A/B 테스트는 그야말로 필수처럼 여겨지고 있습니다.
그런데 데이터 분석 조직이 없는 실무에선 정말 ‘실험’이라고 부를 수 있는 테스트를 만나기란 쉽지 않습니다. 대부분은 숫자만 나눠보고, 조금 더 잘된 쪽으로 ‘결정’하는 수준에서 끝나죠 (어느 배너에서 반응률이 좋았으니, 앞으로는 이 배너를 계속 깔자..라던지)
물론 그 자체로도 의미가 있을 수 있습니다. 하지만 분석을 맡고 있는 입장에서는, 그 결과가 과연 신뢰할 수 있는지, 진짜 ‘차이’였는지 아니면 단순한 ‘우연’이었는지 판단하는 것이 훨씬 더 중요합니다.
사실 많은 테스트들이 ‘실험’의 조건을 갖추지 못한 채 진행되고 있습니다. A/B 테스트라고 이름을 붙였지만, 실제로는 A와 B로 나누기만 했을 뿐인 경우도 많죠.
예를 들어 이런 식입니다. 어떤 캠페인을 벌이고 나서, 사후에 “이쪽 그룹은 A, 저쪽은 B였네”라고 나눠서 성과를 비교하는 경우가 있습니다. 이미 결과가 나온 후라면, 그건 테스트가 아니라 회고에 불과합니다.
또 어떤 경우엔 주요 고객은 A로, 신규 고객은 B로 설정해놓고 비교를 합니다. 그런데 이 두 집단은 애초에 속성이 다르기 때문에, 비교 자체가 무의미해지는 거죠. 이걸 보고 “B가 효과가 있네요”라고 말하면 곤란합니다.
가끔은 샘플 수 자체가 너무 적을 때도 있습니다. A그룹에 14명, B그룹에 17명. 이런 상황에서 클릭률이 2% 차이 났다고 “B가 유의미하게 우세합니다”라고 말하기는 어렵습니다. 통계적으로 신뢰할 수 있는 차이인지조차 확인할 수 없으니까요.
물론 이럴 때도 애써서 통계 기법을 적용해, 유의확률 안에서 “우세하다”고 결론을 내릴 수도 있습니다.
하지만 실무에서는 이런 얘기가 잘 먹히지 않습니다.
유의확률을 꺼내는 순간 보고가 복잡해지고, 숫자가 작다는 사실 자체가 불신의 근거가 되기 때문입니다.
실제로는 “우연일 수도 있겠다”는 마음이 들고, 그렇게 되면 통계의 언어는 점점 설득력을 잃습니다.
결국 중요한 건 “기법을 썼느냐”가 아니라, "그 결과를 얼마나 신중하게 해석하느냐" 입니다.
무엇보다, 성공 기준이 명확하지 않은 경우도 많습니다. 클릭률인지, 전환율인지, 아니면 LTV인지. 비교할 지표 없이 단지 건수만 보고 “잘된 것 같아요”라고 판단하는 경우도 많습니다.
사실 A/B 테스트는 설계의 영역인 것 같습니다. 단순히 실험군/대조군을 나눠보는 게 아니라, 비교가 되도록 조건을 설계하는 일이죠.
가장 먼저, 실험을 통해 검증하고 싶은 가설이 명확해야 합니다. 예를 들어 “배너를 왼쪽에 놓았을 때 클릭률이 올라갈 것이다” 같은 문장이 있어야 합니다.
그다음에는 무작위로 집단을 나누는 과정이 필요합니다. 랜덤하게 나누어야 집단 간의 기본 속성이 비슷해지고, 비교가 가능해집니다.
그리고 무엇보다 결과를 해석할 수 있는 지표가 있어야 합니다. 클릭률이든, 구매전환율이든, 어떤 지표로 판단할지를 미리 정해야 합니다.
마지막으로, 충분한 샘플 수가 확보되어야 합니다. 작은 숫자는 우연의 영향을 크게 받습니다.
현실적으로 모든 테스트가 이렇게 정교하게 진행될 순 없겠지만, 분석가 입장에서는 최소한 이 네 가지를 점검하는 습관이 필요하다고 생각합니다.
그러지 않으면, 결과가 나왔을 때마다 누군가가 “B가 잘 나왔네요! 다음엔 B로 갑시다!”라고 외치는 걸 그저 바라보고만 있어야 하거든요.
그래서 위에 네 가지 과정을 말로 전달하는 것도 매우 중요합니다.
“이번 테스트는 배너 위치에 따른 전환율 차이를 보기 위해 진행했습니다. 가설은 ‘왼쪽에 배치하면 클릭률이 올라갈 것’이라는 것이고요, 두 그룹을 무작위로 나눠서 노출 방식만 다르게 설정했습니다.
성과 지표는 구매 전환율로 잡았고, 유의미한 차이가 확인되었을 경우에는 전체 매출에서 약 OO만 원 정도의 인상 효과가 있을 것으로 추정됩니다.”
단순히 B가 더 잘나왔어요, 이걸로 가시죠! 와는 느낌이 다르죠. (물론 조직에 따라 고만한 매출 가지고.. 뭘 복잡하게 라는 태클에 걸리면 마음의 부상을 입을 수 있습니다.)
사실 실험 설계 자체는 단순합니다. 그래서 저는 업무 중에 다음 세 가지를 실천하려고 노력합니다.
첫째, 실험 설계 템플릿을 만들어 두기. 누구든 쉽게 가설, 집단 구성, 지표를 정리할 수 있도록 간단한 양식을 만들어 공유합니다.
둘째, 숫자를 비교하기 전에 질문을 던지기. “이건 어떤 가설에 근거한 실험이었나요?”라는 질문은, 괜한 트집이 아니라 실험 설계의 첫 단추입니다.
셋째, 잘된 사례를 누적하고 공유하기. 제대로 된 실험을 통해 유의미한 인사이트가 나온 사례를 기록해두고, 팀 내부에서 공유하는 것도 매우 중요합니다.
특히 템플릿은, A/B 테스트 외 여러가지 업무에 인볼브 되어있는 분석가의 상황이라면 (매출분석, 타겟마케팅, 추출, 숫자 검증 등..) 여러 영역에서 만들어 두는게 좋습니다.
설계 없이 이루어지는 수많은 실험들 사이에서, 분석가 한 사람의 질문이 하나의 기준이 될 수 있습니다.
그리고 그 기준이 반복되면, 언젠가는 ‘진짜 A/B 테스트’를 조직 문화 속에서 자라게 할 수도 있지 않을까요?”