brunch

You can make anything
by writing

C.S.Lewis

by 플래터 Jul 31. 2022

A/B 테스트에 적정한 표본의 크기와 주의 사항

A/B 테스트는 A와 B만 나누는 게 다가 아니다 (5)

Previously on [A/B 테스트는 A와 B만 나누는 게 다가 아니다]

1편 : A/B 테스트를 설계할 때의 우리의 진짜 질문

2편 : A/B 테스트의 뒤에 숨은 기초 통계 이해하기

3편 : A/B 테스트 계산기 세팅 & 해석하기

4편 : A/B 트래픽과 결과의 유의미함이 무슨 상관인가요?


앞선 네 편의 글에서는

1. 우리가 A/B 테스트를 할 때에 진짜로 궁금한 건 단순히 '둘 중 어느 게 더 나은가?'가 아니라 '이번 한 번 우연이 아니라 앞으로도 동일한 고객에게 확실하게, 항상 나은 건 뭔가?'에 가깝고

2. 이를 알아내기 위한 A/B 테스트를 설계, 해석하는 데에 필요한 기초 통계 지식과

3. 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 및 해석에 관한 내용을 살펴본 뒤,

4. 각 그룹의 트래픽이 많으면 많을수록, 즉 표본의 크기가 클수록 A와 B의 차이가 같거나 작더라도 결과가 유의미하다(=두 그룹의 결과의 차티가 우연이 아니다)는 평가를 받아낼 수 있다는 점을 살펴보았다.


이어지는 이번 글에서는

1) 그럼 대체 표본, 실험의 트래픽은 얼마나 모아야 하는 건가?

2) 표본, 트래픽과 관련된 실험 실행 시 주의할 점과 노하우

에 대해서 살펴보고자 한다.




그럼 대체 표본, 실험의 트래픽은 얼마나 모아야 하나요?

(???: "A안과 B안의 기대하는 차이를 어디까지 알아보고 오셨는데요?")


https://www.evanmiller.org/ab-testing/sample-size.html


그럼 대체 표본, 트래픽의 크기는 얼마나 되어야 하는 걸까? 결론부터 말하자면 매번 다르다. 조금 더 자세히 말하자면, A안과 B안 사이의 차이가 어느 정도가 되기를 기대하느냐에 따라 다르다.


왜냐하면 앞선 글에서 살펴본 것처럼, 동일한 신뢰 수준(과 이에 따른 유의 수준, 기각 역)에 따라서도, 표본이 크면 클수록 두 그룹의 결과의 차이가 작아도 유의미하다고 인정해줄 가능성이 생기고, 표본이 작더라도 두 그룹의 결과가 충분히 크다면 유의미하다고 인정해줄 가능성이 있기 때문이다.


가령 아래의 결과를 보면, A안과 B안의 결과 차이의 크기에 따라 필요한 표본의 크기(Sample Size)를 계산해볼 수 있다.

- 원래의 기본 방안 (A안)의 고객 전환율이 20% 일 때

- 대안(B안)이 1% 밖에 차이가 나지 않아도 유의미하려면 각 그룹당 표본이 최소 25,255은 되어야 한다

- 반면 대안(B안)이 5% 차이가 난다면, 표본이 1,030만 되어도 유의미할 수 있다

기본 전환율이 20% 일 때, 대안과 차이가 1% 더라도 유의미하려면 표본의 크기는 25,255가 필요한 반면, 차이가 5% 일 때에는 1,030이면 유의미할 수 있다.


그럼 결국 '표본은 얼마나 필요한가요?'라는 질문은 A/B 테스트를 설계하고 실행하는 담당자로서, 우리는 '두 방안의 결과가 몇% 정도 차이가 날 것이라고 기대하는가?'와 바꾸어 볼 수도 있다.


표본이 얼마나 필요하냐는 질문은, 바꿔 말해
두 방안의 결과가 몇% 정도 차이가 날 것이라고 기대하는가? 와 같다.


그리고 이는 결국 A안과 B안을 기획하고 설계한 담당자의 추측, 자신감, 또는 이전의 경험을 바탕으로 할 수밖에 없다. 다만 어느 정도 되어야 충분한 차이인가?라는 질문으로 바꾸어보면, 아래와 같은 상황을 상상해볼 순 있다.

고객이 100,000명이라면 전환율의 차이가 1%만 되어도 차이는 1,000명이다. 거기에 만약 이들의 평균 객단가가 100만 원이라면 1%라는 작은 차이로도 매출액의 차이는 10억 원에 달한다.
고객이 1,000이라면 5%가 되더라도 50명밖에 되지 않는다. 거기에 만약 평균 객단가가 만원이라면, 5%라는 차이는 고작해야 50만 원 밖에 되지 않는다. 실험을 설계 및 준비하고, 세팅하고, 기다리고, 결과를 해석하는 인건비도 나오지 않을지도 모른다.




표본의 크기와 실험의 유의미함 사이의 상관관계를 고려했을 때, A/B 테스트의 수행 과정에서 주의할 점


자, 이렇게 해서 우리는

1. 표본이 많으면 많을수록 A안과 B안의 결과 차이가 작더라도 실험 결과가 통계적으로는 유의미할 수 있고

2. 표본이 작더라도 A안과 B안의 결과 차이가 크다면  마찬가지로 통계적으로 유의미할 수 있다는 사실을 짚어보았다.


그러나 우리는 A안과 B안의 실제 차이가 얼마나 될지는 실험을 해봐야만 알 수 있는 것이므로, 실험을 설계하고 수행할 때 결국 우리가 통제할 수 있는 건 표본의 크기, 또는 표본을 수집하기 위한 시간일 뿐이다.


이와 관련된 몇 가지 주의 사항, 가이드를 몇 가지 다뤄보고자 한다.

실험을 설계하고 수행할 때 결국 우리가 통제할 수 있는 건
표본의 크기, 또는 표본을 수집하기 위한 시간일 뿐이다



1. 내가 미는 방안이 이길 때까지 기다리기?! (무작정 트래픽 더 모아보기)


표본이 충분하면 차이가 작더라도 유의미한 significant 차이라는 결과를 받아낼 수 있다. 그렇다면 특정 방안, 특히 내가 설계한 방안이 어떻게든 이기게 만들고 싶다면 가장 좋은 방법-실수와 오류-중 하나는 표본을 무조건 많이 모아 보는 것이다.


그런데 이런 경우 문제는

1) 실험을 진행하는 동안 기다리는 것도 팀의 리소스가 드는 일이고

2) 이번 실험을 하느라 다른 실험이 대기 중이라면 리소스, 트래픽의 낭비이고

3) 무엇보다 실험에 노출되는 건 어디까지나 실제 유저들이므로, 실험 기간 동안 방문한 유저 중 절반에게는 이러나 저라나 상대적으로 안 좋은 방안이 계속 노출되는 셈이나 마찬가지다.


내가 원하는 결과가 나올 때까지 기다리는 데에 통계적으로 오류는 없을지 몰라도, 결국 우리의 원래 목표인 '고객에게 더 좋은 방안을 제공하기'는 뒷전이 되고, 그 과정에서 비즈니스의 리소스를 효율적으로 이용하는 것 역시 놓치게 된다.


존버는 승리한다? AB 테스트는 코인이 아닙니다(또르르) (출처 : Google)



2. 내가 미는 방안이 지기 전에 그만두기?!


표본이 아직 일정 수준이 되지 않아 통계적 유의미함이 확인되기 전이지만, '유의미함'을 생각하지 않기로 한다면 어느 시점에서고 항상 특정 방안의 승패를 가릴 수 있다. 어쨌거나 지금 이 시점에 어느 방안은 A안이든  B안이든 하나가 아주 근소한 차이로라도 이기고 있을 테니. 그렇다면 만약 대안인 B안이 이기고 있는 시점에서 실험을 종료해버리면, 마치 B안이 이긴 것처럼 보일 수 있다. 앞으로는 어떨지 모르지만 어쨌든 이번 실험에서는, 현재 시점에서는 이긴 건 맞으니까.


그래서 트래픽이 쌓일수록, 표본 크기가 점차 충분해질수록 오히려 내가 설계한 B안이 질 것 같이 보인다면, 실험을 조기에 종료해버리는 것도 우리가 저지를 수 있는 실수, 또는 의도적인 오류다.


싸움에서 지지 않는 방법은 바로 싸움을 하지 않는 것이다?! (출처 : https://imgflip.com/i/1wxgjb)



3. A안과 B안을 다른 날짜에 시작시키기?!


AB 테스트의 특징 하나는 바로 '동시간대에' 진행한다는 점이다. 전후 비교를 하는 경우, 결과의 차이가 우리가 실험에서 만든 요소에 의한 것인지, 혹은 어떤 다른 이유에 의해서인지 알기가 어렵다 (Ex: 성수기, 주말 공휴일, 기타 각종 외부의 사건 등)


그런데 만약 A안은 8/1(월)부터 노출했지만 B안은 8/3(수)부터 노출했다면 8/1(월) ~ 8/2(화)의 시점 차이가 생긴다. 이틀 동안 어떤 외부 요인이 있었는지 없었는지를 우리는 알 수 없다. 결국 A/B테스트로서의 장점을 잃어버리게 되는 셈이다.


또한 이 경우 해당 이틀 동안의 트래픽이 온전히 A안에 쏠리게 된다. 물론 트래픽이 정확히 5:5 비율이어야만 통계적으로 유의미한 실험을 할 수 있는 건 아니다. 다만 A안에 충분한 표본이 모였다고 생각하여 A안과 B안을 모두 같은 날에 종료시킨다면, B안은 아직 충분한 표본을 모으지 못했을지도 모른다. 왜냐하면 이틀 늦게 시작했으니까.


시작일이 다른데 종료일은 같다면?! '동시간대'도 아니고, 표본이 충분하지 않은데 종료되는 실수도 발생할 수 있다




이렇게 해서 총 5개의 글을 통해 A/B테스트를 단순히 A/B 방안을 두 개 만드는 게 다가 아니라는 이야기를 해보았다. 오바마 대선 캠프 홈페이지라는 유명한 사례부터, 고객으로서, 그리고 기획자/PM/마케터로서 접하는 업무에 이르기까지 우리는 생활과 업무 속에서 'AB 테스트'라는 걸 접하게 된다.


그러나 지금 당장의 단순한 비교가 아니라, 고객에게 정말로 확실하게, 유의미하게, 더 나은 방안을 제공하고 이를 통해 서비스(의 지표)를 개선시키고 싶은 담당자라면, AB 테스트 뒤에 숨은 우리의 진짜 질문과, 이를 구현하고 제대로 이해하기 위한 통계 지식, 그리고 이를 바탕으로 한 몇 가지 주의 사항은 필수 이해 사항이라고 생각한다.


물론 이걸 안다고 해서 우리가 기획하는 방안이 더 나은 방안이 되진 않는다. 그건 평소의 아이디어, 레퍼런스, 고객에 대한 이해, 그리고 운 등이 조합된 결과니까.


그러나 다섯 편의 글을 통해 살펴본 내용에 대한 이해 없이는, 결코 우리는 한정된 자원을 이용해놓고도 '제대로 된' 설계와 실행, 해석을 할 순 없을 것이다.


                                                                           더 많은 지식과 경험, 노하우가 궁금하다면홈페이지 방문하기뉴스레터 구독하기



더 많은 지식과 경험, 노하우가 궁금하다면

홈페이지 방문하기

뉴스레터 구독하기

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari