A/B Test
하나의 정확한 측정이 수 천 개의 전문가 의견보다 가치 있다.
– 그레이스 호퍼 제독(Admiral Grace Hopper)
1. Intro
이 글을 보는 당신, 인스타그램을 사용하고 계신가요?
그렇다면 인스타그램을 사용할 때 나에게는 뜨는 기능(예를 들면 화면 상단의 하트 버튼)이 친구에게는 뜨지 않는다거나, 새롭게 업데이트되었다는 기능이 나에게는 아직 뜨지 않는 경험을 해본 적이 있으신가요? 우리는 그것을 ‘인스타그램이 현재 A/B테스트를 진행 중이다’라고 말할 수 있습니다.
또 다른 예시를 들어보겠습니다.
2012년 마이크로소프트의 검색 엔진인 빙(Bing)에서 일하는 한 직원이 광고 헤드라인 표시법을 바꾸자고 제안했습니다. 아이디어는 타이틀 라인을 타이틀 바로 밑의 첫째 줄 문장과 합쳐서 광고 타이틀 줄을 길게 만드는 것이었습니다. 그들은 이 간단한 아이디어의 우선순위를 낮게 측정했고, 따라서 6개월 이상 지난 뒤에야 이 아이디어는 A/B테스트 형식으로 평가되었습니다.
그들은 사용자 일부에게는 아이디어가 적용된, 긴 광고 타이틀 줄을 배포하였고, 다른 사용자 일부에게는 원래 형식의 타이틀을 무작위로 보여주였습니다. 새로운 방식과 이전 방식을 무작위로 제공하여 그 둘을 비교할 수 있도록 만든 것이죠.
어떤 결과가 나왔을까요?
그들은 아이디어를 적용한 실험군에서 막대한 광고 수입이 창출되었다는 것을 알 수 있었습니다. 그리고 이 간단한 아이디어는 빙의 매출을 12%나 올리는 것에 기여했죠.
이 모든 예시는 A/B테스트에 관한 것입니다. 아마 서비스 런칭을 해보신 경험이 있으신 분들은 ‘A/B테스트’라는 단어가 친숙하실 거예요. 그러나 A/B테스트가 무엇인지는 알지만, 명확한 정의는 잘 모르시는 분들도 계실 겁니다.
그럼 A/B테스트를 한 번 정의해 볼까요?
2. A/B 테스트란?
A/B테스트란 A와 B, 즉 대조군(control)과 실험군(treatment) 2개의 종류를 비교하는 가장 간단한 형태의 종합 대조 실험(controlled experiment)입니다.
다시 말해, 실제 사용자 일부에게는 새로운 아이디어를 적용한 서비스를, 또 다른 일부에게는 이전의 것을 무작위 배포하여 해당 서비스에 대한 사용자 반응을 (클릭, 매출 등을 통해) 평가하는 것이라고 할 수 있죠.
A/B테스트의 명확한 명칭은 ‘종합 대조 실험’입니다. 종합 대조 실험은 A/B테스트를 제외하고도 A/B/n테스트, 현장 실험, 무작위 종합 대조 실험, 분할 테스트, 버킷 테스트 및 플라이트라고도 불립니다. 그러나 이번 글에서 우리는 이를 모두 A/B테스트로 통일하여 부르도록 하겠습니다.
온라인 A/B테스트는 에어비앤비, 아마존, 부킹닷컴, 이베이, 페이스북, 구글, 링크드인, 마이크로소프트, 넷플릭스, 트위터, 우버와 같은 기업에서 많이 사용됩니다. 이런 회사들은 매년 수천에서 수만 개의 실험을 실행하며, 때로는 수백만 명의 사용자와 연관하여 모든 것을 테스트합니다. 그들은 사용자 인터페이스(UI), 관련 알고리즘(검색, 광고, 개인 정보 확인, 추천 상품 등), 지연 시간/성능, 콘텐츠 관리 시스템, 고객 지원 시스템 등을 실험하며, 이는 웹사이트, 데스크톱 앱, 모바일 앱, 이메일 등의 여러 채널에서 실행됩니다. (어쩌면 여러분은 모두 자신도 모르는 사이 A/B테스트에 참여하고 있는 것일 수도 있다는 사실!)
가장 일반적인 온라인 A/B테스트에서 사용자는 실험군과 대조군에 무작위로 분할되며, 한 번 지정된 분할은 바뀌지 않습니다. 그리고 이는 사용자가 여러 번 사이트에 방문해도 동일한 경험을 할 수 있도록 도와주죠.
여기서 잠깐 퀴즈! 앞서 예시로 들었던 빙의 광고 타이틀 표시 방법에 대한 A/B테스트에서 실험군과 대조군은 무엇일까요? 맞습니다. 바로 새로운 타이틀 표시 방법이었던 더 긴 제목의 광고 표시가 실험군, 이전부터 제공되던 원래의 광고 표시가 대조군입니다.
가장 간단한 A/B테스트는 대조군과 실험군의 두 가지 변형군으로 두 그룹 사용자 간의 상호작용을 측정하고 분석하며 비교하는 것입니다. 그리고 실험의 마지막 분석을 통해 더 가치 있는 변수를 식별하여 가장 효과적인 시안을 선정하도록 도와주죠. 많은 사이트들은 A/B테스트를 사용하여 제품, 기업을 소비자 친화적으로 만들고 능률적인 서비스를 전략적으로 기획하는 데 사용합니다.
이처럼, A/B테스트는 사용자의 실제 생각을 보여주기 때문에, 서비스를 현실적으로 파악하고 올바른 방향으로 개선일 수 있도록 도와주는 중요한 도구입니다.
그럼 지금부터 어떤 방식으로 A/B테스트를 실행하는지 알아보도록 하겠습니다.
3. A/B테스트 진행 프로세스
본격적인 A/B테스트의 앞서 우리는 가설을 수립해야 합니다.
좋은 가설은 검증 과정에서 유의미한 레슨런(Lesson Learned)을 가져다주거나 비즈니스 임팩트를 줄 만한 인사이트를 제공하기에 A/B테스트의 핵심이라 할 수 있습니다.
그렇다면 가설을 세울 때, 어떤 점을 고려해야 할까요?
1) 전체 평가 기준(OEC) 선정
A/B 테스트를 통해 달성하고자 하는 비즈니스의 최종 목표 즉, OEC(Overall Evaluation Criterion)를 고려해야 합니다. 통계에서는 이를 흔히 종속 변수라 부르며 KPI가 동의어로 사용됩니다.
OEC는 실험 기간 동안 단기적으로 측정 가능하며, 장기적으로는 전략적인 목표를 추진할 수 있어야 합니다. 또한, 시기적절하게 중요한 변화를 감지할 수 있을 정도의 민감도를 갖춰야 하는데요. 이는 기초가 되는 통계적 분산, 효과의 크기(실험군과 대조군의 차이) 그리고 샘플링 추출 단위에 따라 달라질 수 있습니다. 민감하지 않은 지표의 극단적 예로는 ‘주가’가 있습니다. 사실상 실험 기간 내에 일상적인 제품(Product) 변화로 주가의 변동을 일으키기는 매우 어렵죠.
더불어 비즈니스 특성과 상황의 충분한 이해를 바탕으로 OEC를 선정해야 합니다. 예를 들어, 1년 주기로 구독을 갱신하는 서비스는 1년 간 실험을 진행하지 않는 한 갱신율에 미치는 영향을 측정하기 어렵습니다. 이런 경우에는 갱신율 자체보다 갱신에 영향을 미치는 고객 만족의 선행지표를 찾아 선정하는 것이 일반적입니다.
마지막으로 우리는 최적화하고자 하는 대상에 대해 깊이 생각하고 어떤 트레이드오프를 수용할지 결정해야 합니다. 만약 체류시간(Time-on-Site)을 늘리는 것을 OEC로 정했다면 단기적으로는 불필요한 페이지를 생성하고, 느린 사이트를 초래해 지표를 개선시킬 수 있지만, 장기적으로는 사용자가 이탈하는 원인이 됩니다. 또, 성장이 우선시 되는 조직의 경우 실험에 의해 매출이 증가하더라도 사용자의 감소를 받아들이기 어려울 수 있죠. 따라서, 측정 및 계산 가능성, 민감도와 적시성 등을 모두 고려해 비즈니스 목표 및 OEC를 선정하고 전사적으로 이해관계를 일치시키는 것이 중요합니다.
2) 파라미터 값과 우선순위 정렬
파라미터란, OEC에 영향을 미치는 통제 가능한 실험 변수를 의미하며 요인(Factor)이라 부르기도 합니다. 실험에서 통제 가능한 실험 변수는 독립변수와 통제 변수 등이 있으며, 특히 A/B 테스트의 성패는 통제 변수를 얼마나 잘 관리하느냐에 달려 있습니다.
통제 변수는 실험군과 대조군에서 동등한 조건을 지녀야 하는 변수로, A/B 테스트 경험이 부족한 경우 종속 변수에 영향을 미치는 요소를 두루 살펴 샘플링 오류가 발생하지 않도록 해야 합니다. 이러한 파라미터를 리스트업 한 후에는 가장 우선순위가 높은 방법부터 테스트를 실행하게 되는데요. 이때, 참고할 수 있는 프레임워크로는 ICE(Impact/Confidence/Ease), MosCow(Must have, Should have, Could have, Won’t have) 등이 있습니다.
3) 가설 서술
가설은 참/거짓의 판별이 가능한 수준의 문장으로 서술하고, 테스트하고자 하는 주체를 정확히 명시해야 합니다.
아래 예시를 바탕으로 주체에 대한 이야기를 좀 더 해보겠습니다.
체크아웃 페이지에 쿠폰 필드를 더하면 매출이 증가할 것이다. (X)
체크아웃 페이지에 쿠폰 코드 필드를 더하면 구매 프로세스를 시작하는 유저의 사용자 당 매출이 증가할 것이다. (O)
만약 OEC를 매출로 선정했다면 대게 전체 매출을 증가시키는 것이 목표겠지만, 변형군마다 매출 발생의 주체가 다를 수 있습니다. 따라서, 총매출의 합보다는 사용자 당 매출(매출/사용자)과 같은 표준화된 지표를 사용하는 것을 권장합니다.
또한, 사용자는 사이트를 방문한 모든 사람이 아닌 체크아웃 페이지에 진입해 결제 프로세스를 시작한 사람들로 한정 짓는 것이 바람직합니다. 전체 사용자를 대상으로 할 경우, 불필요한 노이즈가 추가되어 민감도가 떨어지는 결과를 초래할 수 있기 때문입니다.
이어 실험에서는 귀무가설과 대립가설을 필요로 합니다. 귀무가설이란 차이가 없거나 의미 없는 경우의 가설을 말하며, 대립가설은 귀무가설과 반대되는 것으로 연구를 통해 입증되기를 주장하는 가설을 말합니다.
귀무가설(H0)
체크아웃 페이지에 쿠폰 코드 필드를 더해도 구매 프로세스를 시작하는 유저의 사용자 당 매출은 저하하지 않을 것이다.
대립가설(H1)
체크아웃 페이지에 쿠폰 코드 필드를 더하면 구매 프로세스를 시작하는 유저의 사용자 당 매출이 증가할 것이다.
우리는 이 2가지 가설을 바탕으로 표본 데이터를 수집해 유의성 검정을 수행하고 검증 결과, 귀무가설이 참으로 판단된다면 이를 채택(Accept), 그렇지 않다면 귀무가설을 기각(Reject)함으로써 대립가설을 채택하는 것이죠.
- CX 컨설팅그룹 최성지, 가치UX그룹 장수아
* 이 글은 론 코하비, 다이앤 탕, 야 쉬의 [A/B테스트-신뢰도 높은 온라인 통제 실험]을 인용한 내용입니다.
* 기타 참고자료
https://brunch.co.kr/@sinsadongmarket/92
https://mixpanel.com/ko/blog/ab-test-what-is-it-and-how-does-it-work
https://ko.wikipedia.org/wiki/%EA%B7%80%EB%AC%B4_%EA%B0%80%EC%84%A4
* 다음편 바로보기 : https://brunch.co.kr/@rightbrain/221