brunch

You can make anything
by writing

C.S.Lewis

by 추보 구자룡 Aug 10. 2023

실험에 의한 A/B 테스트 마케팅

[데이터기반마케팅]


인과관계와 실험, 그리고 A/B 테스트


어떤 변수와 어떤 변수 간의 관계를 파악하는 방법으로 상관관계와 인과관계가 있다. 흔히 혼동하는 용어인데 명확하게 구분하여 사용할 필요가 있다. 상관관계는 두 변수 간에 연관성이 있는 경우다. 인과관계는 두 변수 간에 원인과 결과가 있는 경우다. 원인변수가 결과변수에 영향을 미치는 것을 파악할 수 있다면 원인 변수를 조정하여 결과 변수에 영향을 줄 수 있고, 결과 변수를 예측할 수 있다. 변수들 간에는 상관이 의미가 있는 경우도 있고, 인과가 의미가 있는 경우도 있다. 필요한 용도에 따라 사용해야 한다. 


인과관계는 원인변수가 항상 결과변수에 선행한다. 다양한 비즈니스 영역에서 인과관계를 검증하기 위해 실험법을 활용해 왔다. 주로 실험설계를 통한 설문조사 방법(갱서베이)을 많이 사용했는데 이러한 방법은 실험 대상자를 통제하기도 어렵고, 무작위 확률표본추출을 하는 데도 한계가 있다. 결정적으로 대량의 표본을 구하는 것은 시간과 비용 등을 고려할 때 현실적으로 불가능에 가깝다.   


이런 문제를 해결할 수 있는 방법으로 온라인 기반의 실험법이 있다. 디지털 시대가 되면서 대부분의 소비자들은 항상 온라인에 연결되어 있다. 예를 들어, 우리 회사 웹사이트를 방문하는 사람들에게 순서에 따라 A안과 B안을 번갈아 가며 보여줄 수 있게 되었다. 자연실험이 가능해진 것이다. 실험실에 의한 실험은 자연실험이 아니기 때문에 조사과정에서 많은 오류(bias)를 포함하고 있다. 반면, 온라인 실험은 자연실험으로 실험을 통제하기 용이하고 시간과 비용도 거의 들지 않는다. 바로 무작위 비교 연구(RCT: Randomized-controlled trial)를 할 수 있다. A와 B 집단을 비교한다는 의미에서 A/B 테스트(A/B testing)로 더 잘 알려져 있다.



A/B 테스트를 하는 방법과 활용


인터넷 플랫폼을 기반으로 한 거대 정보기술(IT) 기업을 빅테크 기업이라고 한다. 구글, 아마존, 메타(페이스북), 애플, 마이크로소프트 등이 여기에 해당한다. 사업하는 과정에서 자연스럽게 빅데이터 수집과 활용이 가능한 기업들이다. 하버드비즈니스리뷰에 의하면, 이 기업들은 저마다 매년 1만 건이 넘는 A/B 테스트를 시행한다. 이 중에는 수백만 명의 사용자들이 참여하는 실험도 많다. 또한 실험의 규모는 작지만, 스타트업이나 월마트, 싱가포르항공처럼 디지털 뿌리가 약한 기업들도 이런 실험을 정기적으로 시행하고 있다. 이 기업들은 모든 것을 실험해 보는 접근방식이 놀라울 정도로 큰 성과를 가져올 수 있다는 것을 알고 있다. 


A/B 테스트는 실험을 통해 현명한 의사결정을 하고자 하는 방식이다. 따라서 의사결정이 필요한 문제가 먼저 있어야 한다. 예를 들면, 새로운 디자인(UX/UI) 시안 A와 B 중 어느 것이 더 좋을까? 홈페이지에서 메인 이미지를 어느 쪽에 위치하게 하는 것이 좋을까? 웹페이지의 버튼 색이 빨간색과 파란색 중에서 어느 색일 때 전환율이 더 높일까? 온라인 예약 사이트의 사진 품질(저품질 혹은 고품질)에 따라 예약률이 다를까?  이와 같은 다양한 의사결정 문제를 해결하는데 A/B 테스트가 사용되고 있다. 대표적으로 디자인, 인터페이스, 상품 배치, 광고 시안 등을 개선하는 데 사용하고 있다.


A/B 테스트는 원인과 결과를 확인할 수 있는 실험설계(무작위 비교 연구)를 한다. 일반적으로 기존의 내용(A안)은 A집단(대조군)에, 실험하고 싶은 내용(B안)은 B집단(실험군)에 노출하여 전환율을 계산한다. 그리고 전환율이 유의미한 통계적 차이를 갖는지를 검정한다. 통계적 차이가 유의미한지 여부는 유의확률, 즉 p-value로 추론한다. p-value는 기존의 귀무가설(차이가 없다)과 새롭게 관찰된 대립 가설(차이가 있다)이 일치하는 정도를 의미하는데, p-value가 유의 수준 (보통 0.05) 보다 낮다면 귀무가설을 기각하고 대립가설을 채택하게 된다. 예를 들어, A/B 테스트 결과 유의확률(p-value)이 0.008이라면, 유의 수준(p <0.05) 값보다 작기 때문에 대립 가설을 채택하고 귀무가설을 기각한다. 즉, 유의 수준 5%(신뢰 수준 95%)에서 A안과 B안에는 차이가 있다는 것을 통계적으로 검정한 것이다. 이때 B안의 평균이 A안보다 높다면 B 안이 더 좋은 것이며 통계적으로 유의한 것이다. 



A/B 테스트를 통한 현명한 의사결정


먼저 A/B 테스트의 유용성을 널리 알린 오바마 선거캠프 사례가 있다. 오바마 전 미국 대통령 선거캠프는 2008년 초선과 2012년 재선 기간 빅데이터 기법들을 선거에 적극 활용했다. 예를 들면, 오바마 대선 캠페인 홈페이지의 첫 화면의 우측 하단에는 뉴스레터 신청을 위한 빨간색 버튼이 있다. 만약 이 버튼의 문구를 달리하면 뉴스레터 구독률이 달라질까? 이런 가설을 검증하기 위해 A/B 테스트를 했다. (실제는 A/B/C/D 테스트다. 비교군이 총 4개이다.) Sign up, Learn More, Join Us Now, Sign Up Now 등의 문구에 대한 효과를 측정했다. 또한, 홈페이지의 메인사진에 대해서도 A/B 테스트를 했다. 3개의 이미지와 3개의 비디오로 실험을 했다. 총 24개(4 x 6)의 조합을 테스트했다. 


홈페이지의 모든 방문자에게 이러한 조합 중 하나가 무작위로 표시되었고 방문자들의 가입 여부를 추적했다. 가장 큰 효과를 발휘한 버튼은 ‘Learn more’였고, 미디어로는 흑백 가족사진이었다. 이 실험의 결과로 방문자들의 가입률은 40.6%가 증가했고, 기부금은 6천만 달러가 증가하는 결과를 낳았다. 그리고 오바마 웹사이트에서 500건의 A/B 테스트를 통해 기부 전환율을 49% 올렸고, 이메일 수집률을 161%나 증가시켰다. 단순히 사이트의 UI를 대상으로 한 A/B 테스트만으로도 이런 성과를 이루었다. 



A/B 테스트를 통한 문제해결


기업 내에는 다양한 문제들이 있다. 기존의 문제해결은 주로 의사결정자들의 경험에 의존해 왔다. 디지털 전환이 가속화되면서 데이터에 기반한 문제해결을 요구하는 빈도가 많아지고 있다. 이런 상황에 대처하는 간단한 방법이 온라인으로 실험을 하고 그 결과를 바탕으로 문제를 해결하는 것이다. 다양한 기업에서 A/B 테스트로 문제를 해결하고 있다.


넷플릭스는 랜딩페이지의 버튼에 대해 A/B/C/D 테스트를 했다. ‘30일간 무료로 보세요’, ‘14일간 무료로 보세요’, ‘7일간 무료로 보세요’, 그리고 ‘지금 사용해 보세요’라는 4가지다. 2019년 5월 테스트하고, 8월에 ‘지금 사용해 보세요’로 구현했다. 나머지 메시지는 무료 기간 이후에 비용을 지불해야 하는 지출을 인식시키기 때문에 오히려 효과가 떨어지는 것으로 볼 수 있다. 



구글은 검색 결과에 대한 링크 색상에 대해 A/B 테스트를 했다. 링크 색상으로 기존의 밝은 파란색과 대비가 낮은 새로운 밝은 파란색으로 2019년 6월 테스트를 했다. 7월에 대비가 낮은 새로운 밝은 파란색을 거부하고 기존의 밝은 파란색을 그대로 사용하는 결정을 했다. 



아마존은 제품 페이지에서 이미지 썸네일에 대해 실험을 했다. 기존의 왼쪽 정렬 축소판을 사용하는 대신 기본 이미지 아래로 이동하고 크기를 늘렸다. 2022년 6월에 A/B 테스트를 했는데 9월에 실험 안이 거부되었다.   



현명한 의사결정을 위한 문제해결 방법


A/B 테스트는 비교적 간단한 통계분석 기법이다. 보다 현명한 의사결정을 통해 문제해결을 할 수 있는 매우 유용한 방법이다. 특히 원인과 결과를 확인할 수 있는 방법이다. 어떤 경우는 실험군(B안)이 통계적으로 의미가 없어서 거부되기도 한다. 어쩌면 이런 현상은 자연스러운 것이다. 실험을 했다고 해서 새로운 안(B안)이 무조건 좋다고 볼 수는 없기 때문이다. 문제는 경험에 의한 의사결정에서 데이터 기반 의사결정으로 바뀌는 디지털 전환 시대에는 이와 같은 실험을 통해 과학적으로 접근하는 데이터 마인드를 만들어 갈 필요가 있다.


A/B 테스트는 실험설계가 필요하다. 먼저 알고 싶은 혹은 해결하고자 하는 문제가 있어야 한다. 그 문제를 바탕으로 가설을 세우고 실험 안을 만들어야 한다. 다만 데이터분석에 대한 전문성이 높지 않은 사람들은 어려움이 있을 것이다. 그러나 최근에는 A/B 테스트를 쉽게 할 수 있는 플랫폼들이 많이 있다. 지금은 다양한 회사들이 이런 서비스를 제공하고 있기 때문에 일반 사용자도 쉽게 실험을 할 수 있다.


A/B 테스트의 결과는 통계적으로 의미가 있어야 하므로, 충분한 표본을 확보해야 한다. 원인변수가 많으면 어떤 원인변수가 결과변수에 영향을 미쳤는지 확인이 어렵기 때문에 다른 요인에 좌우되지 않도록 단순하게 테스트를 설계해야 한다. 예를 들어, 버튼의 문구에 대해 A/B 테스트를 한다면, 문구를 제외한 모든 것은 동일해야 한다. 그래야 어떤 원인이 결과에 영향을 미쳤는지 확인할 수 있다.


그리고 테스트는 목적이 아니라 수단이다. 테스트를 위한 테스트가 아니라 문제해결을 위한 목적에 맞는 테스트를 해야 한다. 테스트가 만능이 아니라는 점도 잊지 말아야 한다. 애플은 A/B 테스트에 부정적이다. 애플이 지향하는 '통합된 전체’의 느낌을 전달하는 제품을 개발해야 하는데 자칫 대중의 선호를 따라가는 잘못을 할 수 있기 때문이라고 한다.

매거진의 이전글 트렌드 예측을 통한 상품 기획
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari