brunch

You can make anything
by writing

C.S.Lewis

by 피그마스터 Sep 16. 2024

AB 테스트의 정의와 방법, 한계, 실수 - 닐슨 노먼

정량적 유저 리서치 중에 쿠팡, 카카오페이, 네이버를 포함해 많은 기업에서 하고 있는 AB 테스트에 대해서 알아보았습니다. 디자인(가설)에 대한 검증이 확실하기 때문에 AB 테스트를 했다면 포트폴리오에 내용과 결과를 꼭 표기하는 것이 좋습니다.

카카오 페이 예시 : https://tech.kakaopay.com/post/kakaopay-growth-platform-abtest/

강남언니 예시 : https://blog.gangnamunni.com/post/AB-test-Baisc

쿠팡 예시 : https://brunch.co.kr/@coupangdesign/73

해외 사례 : https://yozm.wishket.com/magazine/detail/897/

AB 테스트란?

두 가지 이상의 디자인 베리에이션(시안)을 실제 고객에게 테스트해서, 비즈니스 성공 지표에 따라 어떤 디자인이 성과가 좋은지 파악하는 정량적 리서치 방법입니다. split test라고도 합니다.

AB 테스트에서는 실제 제품에서 2개 이상의 디자인을 만듭니다. 일반적으로는 원래 AS IS 디자인을 A(=control version), 새로운 디자인을 B(=variant)라고 합니다. 이상적으로는 새로운 디자인 B는, A와 오직 하나의 요소만 달라야 합니다. 예를 들면 버튼 하나, 이미지 하나, 설명 하나 이렇게요.

nngroup.com의 A/B 테스트. CTA의 디자인 변경에 따른 영향을 테스트

AB 테스트를 하는 동안, 사용자 유입 트래픽은 나누어져 유저마다 다른 시안에 방문하도록 합니다. 이런 트래픽 분할은 각 시안별 동일한 트래픽으로 (예: 50:50) 나누어지게 할 수도 있고, 비즈니스 목표나 리스크에 따라 조정할 수도 있습니다. (예를 들어, 유저의 반을 새로운 디자인으로 테스트하는 것이 위험 부담이 큰 경우)

디자인 베리에이션으로 트래픽이 나누어지면, 어떤 디자인이 유저의 행동을 더 일으키고 비즈니스 목표를 더 잘 이루는지 파악하기 위한 메트릭(지표)들을 수집합니다. 새로운 디자인이 원래의 디자인보다 통계적으로 상당히 좋은 성과를 낸다면, 새로운 디자인을 모두에게 적용합니다. 만약 테스트 결과가 확실하지 않거나 새로운 디자인이 좋은 성과를 내지 못하면, 원래 디자인을 유지합니다. 이런 경우 다른 디자인 베리에이션을 테스트하는 것을 고려합니다.

AB 테스트를 왜 해야 할까요?

AB 테스트는 UX 팀이 비즈니스 목표에 가장 적합한 사용자 경험 개선을 결정하는 데 도움이 됩니다. 또한 데이터 드리븐 결정을 하게 해주어 투자 수익률이 높을 수 있고, 정성적 리서치의 인사이트보다 의사결정자들과 커뮤니케이션하기도 쉬운 경향이 있습니다.

AB 테스트는 큰 전면적인 개편이 없이도 제품의 사용성과 효과를 점진적으로 개선할 수 있어 지속적인 디자인 개선에 효율적인 방법입니다.

AB 테스트 사용 사례

AB 테스트는 새로운 디자인이 AS IS 디자인보다 성과가 좋은지 여부를 명확히 알 수 있는 모호하지 않은 지표가 필요합니다. 이 지표들은 수익이나 비용 같은 금전적인 지표들일 수도 있습니다. 주로 AB 테스트에 사용되는 지표들은 전환율 (conversion rate), 클릭률(click-through rate), 이탈률(bounce rate), 유지율(retention rate), 사용자 당 수익(revenue per user) 등입니다.

AB 테스트는 다음과 같은 산업이나 프로덕트에서 많이 사용됩니다 :

이커머스 (아마존)

엔터테인먼트 (넷플릭스, 스포티파이)

소셜미디어 (페이스북, 인스타그램, 틱톡)

SaaS (세일즈포스, 오피스 365)

온라인 출판 (뉴욕타임스)

이메일 마케팅

AB 테스트 세팅을 위한 4단계

AB 테스트하는 방법

1. 가설로 시작하기

AB 테스트를 시작하기 전에, 어떤 변경이 어떤 임팩트를 낼지 가설을 세워야 합니다. 가설이 사용자 리서치나 비즈니스 인사이트에 기반을 둘수록 AB 테스트가 성공적이고 의미 있을 가능성이 높아집니다. 가설은 AB 테스트를 통해 달성하고자 하는 명확한 목표화 직접적으로 연결되어야 합니다.

예: 이커머스에서 정성적 사용성 테스트(UT) 결과, 여러 유저들이 "구매" CTA 버튼을 무시했습니다. 이 디자인을 바꾸면 CTA의 전환율이 올라가 결국 매출이 증가한다고 가설을 세울 수 있습니다.

2. 변경할 부분을 정의하기

강한 가설이 생기면 가설을 테스트하기 위해 어떤 디자인 요소를 변경할지 정해야 합니다. 이런 변경은 하나의 디자인 요소만 다루어야 하며 광범위한 디자인 개편이어서는 안됩니다. 이 결정이 사용자 리서치에 따른 인사이트에 기반을 둘 수록 테스트가 성공할 가능성이 높습니다.

예 : UT 인사이트를 바탕으로 CTA 버튼의 레이블을 변경하기로 결정합니다. 사용성 테스트 중에 유저들이 버튼을 알아챘지만, 메시지에 대해 확신하지 못하는 것을 관찰했습니다. 따라서 버튼의 비주얼 디자인은 유지하고 레이블을 "지금 구매하기"로 변경하기로 합니다.

3. 결과 지표를 고르기

AB 테스트의 임팩트와 성공을 확인하기 위해 추적하려는 지표를 명확하게 정의합니다. 디자인 변경이 기대하는 행동 변화를 가져오는지 알려주는 기본 지표(Primary metrics)를 정의합니다. 또한 유저 행동의 변화가 비즈니스에 실제로 긍정적인 영향을 미치는지 확인하기 위해 가드레일 지표도 정의하고 추적합니다.

예 : CTA 레이블을 "지금 구매"로 변경하면 매출이 증가하는지 확인하기 위해 CTA의 클릭률을 추적하기로 결정합니다. 또한 구매율과 구매 당 평균 판매 금액도 추적합니다. 이 가드레일 지표는 디자인인 변경이 긍정적인 비즈니스 임팩트를 주는지 확인하는 것을 도와줍니다.

4. 테스트할 기간 정하기

다음으로는 AB 테스트를 얼마나 오래 지속할지 정해야 합니다. 이 파라미터(매개변수)는 AB 테스트에 필요한 샘플의 사이즈에 따라 달라집니다.

AB 테스트의 샘플 사이즈를 결정하려면 3가지의 숫자가 필요합니다.

1) 기준 결과 지표 값 (Baseline outcome-metric value) : 디자인에 대한 결과 지표 (전환율, 클릭률)

2) 최소한으로 감지되어야 하는 값 (Minimum detectable effect) : 감지하려는 결과 지표의 최소한의 상대적인 변화

3) 통계적인-유의성 임곗값 (Statistical- significant threshold) : 테스트 결과를 신뢰할 수 있다는 확신의 정도. 대부분 95%.

이 3가지 지표를 정의하면, 샘플 크기 계산기 (https://www.optimizely.com/sample-size-calculator)를 사용해서 AB 테스트에 필요한 샘플 크기를 결정할 수 있습니다. 트래픽이 충분하더라도 사용자 행동의 잠재적인 변동을 고려하기 위해 최소 1~2주 동안 AB 테스트하는 것을 추천합니다.

예 : 데이터를 분석했더니, 구매 CTA의 기준 클릭률은 3%입니다. 그리고 최소한으로 감기 되어야 하는 값은 20%라고 결정합니다. (= 3%의 20%에 해당하는 변화도 감지할 수 있어야 합니다. 즉 3%의 20%는 0.6%이므로 2.4~3.6%을 감지) 통계적 유의성은 95% (p=0.05)라고 정합니다. 이를 샘플 크기 계산기로 계산하면, 필요한 샘플의 크기는 13,000명입니다. 웹사이트의 일일 평균 사용자가 1,000명이라면 사용자의 잠재적인 변동을 고려해 충분히 긴 기간인 14일 동안 테스트하기로 결정합니다.

최소 감지 효과를 선택하려면 결과 지표의 어떤 변화가 비즈니스에 실질적으로 유의미한지 정해야 합니다. 위의 예에서 1%의 변화는 클릭률의 0.03% 변화입니다. 이렇게 작은 차이에 대해 통계적 유의성에 도달하려면 (=신뢰성을 가지려면) 훨씬 더 큰 표본 사이즈가 필요하고, 0.03%의 변화는 임팩트가 거의 없어 추구할 가치가 없을 수도 있습니다.

AB 테스트의 한계

AB 테스트는 다음과 같은 상황에 적합하지 않습니다.

1) 트래픽이 적은 페이지 : AB 테스트가 유의미한 차이를 보이려면, 수천 명의 사용자가 제품을 사용해야 합니다.

2) 동시에 여러 변화를 테스트 : 기술적으로는 가능하지만, 각 개별 요소들의 임팩트를 알 수 없습니다. 한 번에 여러 변경 사항을 테스트하려면, Multivariate test를 사용하는 것이 좋습니다.

3) 사용자 행동의 이유를 이해하기 : 다른 정량적 유저 리서치처럼 AB 테스트는 유저의 행동이 어떻게 변화하는지를 알 수 있지만 이유에 대한 인사이트를 제공하지는 않습니다. 따라서 정성적인 유저 리서치와 결합할 때 더 좋은 결과를 제공합니다. (Triangulation)

AB 테스트의 일반적인 실수

AB 테스트의 한계를 무시하면 오해의 소지가 생길 수 있고 해로운 결과를 초래할 수 있습니다. 피해야 할 가장 흔한 실수는 다음과 같습니다.

명확하게 정의된 목표가 없음 : 기대하는 결과에 대해 명확한 목표가 있어야 합니다. 목표는 팀이 테스트를 수행하는 이유를 이해하고, 디자인 베리에이션을 만드는 데에 대한 지침을 제공하며 예상 투자 수익에 따라 AB 테스트 로드맵을 세우는 데도 도움이 됩니다.

테스트를 너무 일찍 중단하는 것 : 충분한 데이터가 없는 AB 테스트는 신뢰할 수 없습니다. 적절한 샘플 크기에 도달할 때까지 기다려야 합니다. 그다음에 결론을 내리고 AB 테스트를 종료합니다.

강력한 가설 없이 테스트 ; 강력한 데이터 기반 가설이 없으면 성공할 비율이 낮아집니다. 프로토타입이나 광범위한 리디자인처럼 사용자 리서치에서 더 많은 인사이트를 얻을수록 테스트에 성공할 가능성이 높아집니다.

하나의 지표에만 집중하는 것 : AB 테스트의 목표는 특정 지표를 늘리거나 줄이는 것입니다. 그러나 성공 여부를 확인하기 위해 하나의 지표만 측정한다면, 디자인 변경이 실제 유익한 지 알려주는 중요한 정보를 무시할 수 있습니다. 예를 들어 디자인 베리에이션이 기만적인 패턴 (deceptive pattern)을 사용하는 경우 전환율에는 긍정적인 영향을 미칠 수 있지만 유지율 같은 다른 지표에는 부정적인 영향을 미칠 수 있습니다. 디자인 베리에이션의 임팩트에 대한 인사이트를 제공할 수 있는 가드레일 지표를 포함해 두 개 이상의 지표를 추적해야 합니다.

정성적 유저 리서치와 비즈니스 맥락을 무시하는 것 : AB 테스트가 통계적으로 유의미한 결과를 낸다고 맹목적으로 따라야 하는 것은 아닙니다. AB 테스트는 거짓 긍정이나 거짓 부정의 결과를 낼 수 있고 측정 오류가 발생할 수도 있습니다. 결과가 통계적으로는 의미 있지만 실질적으로 유의미하지 않을 수도 있습니다. 따라서 AB 테스트의 결과를 유저와 조직에 대한 전문 지식과 결합해 올바른 결론을 도출해야 합니다.

피그마스터

9년차 프로덕트 디자이너. 네카라쿠배, 삼성에 재직하였습니다.

현재 4년째 포트폴리오 강의, 컨설팅을 진행하고 있습니다.

피그마스터 포트폴리오 : https://litt.ly/figmaster

출처 : https://www.nngroup.com/articles/ab-testing/

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari