brunch

라이킷 19 댓글

You can make anything
by writing

by 플래터 Jul 31. 2022

A/B 테스트에 적정한 표본의 크기와 주의 사항

A/B 테스트는 A와 B만 나누는 게 다가 아니다 (5)

Visual, interactive sample size calculator ideal for planning online experiments and A/B tests.

www.evanmiller.org

기본 전환율이 20% 일 때, 대안과 차이가 1% 더라도 유의미하려면 표본의 크기는 25,255가 필요한 반면, 차이가 5% 일 때에는 1,030이면 유의미할 수 있다.

표본이 얼마나 필요하냐는 질문은, 바꿔 말해
두 방안의 결과가 몇% 정도 차이가 날 것이라고 기대하는가? 와 같다.

고객이 100,000명이라면 전환율의 차이가 1%만 되어도 차이는 1,000명이다. 거기에 만약 이들의 평균 객단가가 100만 원이라면 1%라는 작은 차이로도 매출액의 차이는 10억 원에 달한다.

고객이 1,000이라면 5%가 되더라도 50명밖에 되지 않는다. 거기에 만약 평균 객단가가 만원이라면, 5%라는 차이는 고작해야 50만 원 밖에 되지 않는다. 실험을 설계 및 준비하고, 세팅하고, 기다리고, 결과를 해석하는 인건비도 나오지 않을지도 모른다.

실험을 설계하고 수행할 때 결국 우리가 통제할 수 있는 건
표본의 크기, 또는 표본을 수집하기 위한 시간일 뿐이다

존버는 승리한다? AB 테스트는 코인이 아닙니다(또르르) (출처 : Google)

싸움에서 지지 않는 방법은 바로 싸움을 하지 않는 것이다?! (출처 : https://imgflip.com/i/1wxgjb)

시작일이 다른데 종료일은 같다면?! '동시간대'도 아니고, 표본이 충분하지 않은데 종료되는 실수도 발생할 수 있다

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari

brunch

A/B 테스트에 적정한 표본의 크기와 주의 사항

Previously on [A/B 테스트는 A와 B만 나누는 게 다가 아니다]

1편 : A/B 테스트를 설계할 때의 우리의 진짜 질문

2편 : A/B 테스트의 뒤에 숨은 기초 통계 이해하기

3편 : A/B 테스트 계산기 세팅 & 해석하기

4편 : A/B 트래픽과 결과의 유의미함이 무슨 상관인가요?

앞선 네 편의 글에서는

1. 우리가 A/B 테스트를 할 때에 진짜로 궁금한 건 단순히 '둘 중 어느 게 더 나은가?'가 아니라 '이번 한 번 우연이 아니라 앞으로도 동일한 고객에게 확실하게, 항상 나은 건 뭔가?'에 가깝고

2. 이를 알아내기 위한 A/B 테스트를 설계, 해석하는 데에 필요한 기초 통계 지식과

3. 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 및 해석에 관한 내용을 살펴본 뒤,

4. 각 그룹의 트래픽이 많으면 많을수록, 즉 표본의 크기가 클수록 A와 B의 차이가 같거나 작더라도 결과가 유의미하다(=두 그룹의 결과의 차티가 우연이 아니다)는 평가를 받아낼 수 있다는 점을 살펴보았다.

이어지는 이번 글에서는

1) 그럼 대체 표본, 실험의 트래픽은 얼마나 모아야 하는 건가?

2) 표본, 트래픽과 관련된 실험 실행 시 주의할 점과 노하우

에 대해서 살펴보고자 한다.

그럼 대체 표본, 실험의 트래픽은 얼마나 모아야 하나요?

(???: "A안과 B안의 기대하는 차이를 어디까지 알아보고 오셨는데요?")

https://www.evanmiller.org/ab-testing/sample-size.html

그럼 대체 표본, 트래픽의 크기는 얼마나 되어야 하는 걸까? 결론부터 말하자면 매번 다르다. 조금 더 자세히 말하자면, A안과 B안 사이의 차이가 어느 정도가 되기를 기대하느냐에 따라 다르다.

가령 아래의 결과를 보면, A안과 B안의 결과 차이의 크기에 따라 필요한 표본의 크기(Sample Size)를 계산해볼 수 있다.

- 원래의 기본 방안 (A안)의 고객 전환율이 20% 일 때

- 대안(B안)이 1% 밖에 차이가 나지 않아도 유의미하려면 각 그룹당 표본이 최소 25,255은 되어야 한다

- 반면 대안(B안)이 5% 차이가 난다면, 표본이 1,030만 되어도 유의미할 수 있다

그럼 결국 '표본은 얼마나 필요한가요?'라는 질문은 A/B 테스트를 설계하고 실행하는 담당자로서, 우리는 '두 방안의 결과가 몇% 정도 차이가 날 것이라고 기대하는가?'와 바꾸어 볼 수도 있다.

그리고 이는 결국 A안과 B안을 기획하고 설계한 담당자의 추측, 자신감, 또는 이전의 경험을 바탕으로 할 수밖에 없다. 다만 어느 정도 되어야 충분한 차이인가?라는 질문으로 바꾸어보면, 아래와 같은 상황을 상상해볼 순 있다.

표본의 크기와 실험의 유의미함 사이의 상관관계를 고려했을 때, A/B 테스트의 수행 과정에서 주의할 점

자, 이렇게 해서 우리는

1. 표본이 많으면 많을수록 A안과 B안의 결과 차이가 작더라도 실험 결과가 통계적으로는 유의미할 수 있고

2. 표본이 작더라도 A안과 B안의 결과 차이가 크다면 마찬가지로 통계적으로 유의미할 수 있다는 사실을 짚어보았다.

그러나 우리는 A안과 B안의 실제 차이가 얼마나 될지는 실험을 해봐야만 알 수 있는 것이므로, 실험을 설계하고 수행할 때 결국 우리가 통제할 수 있는 건 표본의 크기, 또는 표본을 수집하기 위한 시간일 뿐이다.

이와 관련된 몇 가지 주의 사항, 가이드를 몇 가지 다뤄보고자 한다.

1. 내가 미는 방안이 이길 때까지 기다리기?! (무작정 트래픽 더 모아보기)

그런데 이런 경우 문제는

1) 실험을 진행하는 동안 기다리는 것도 팀의 리소스가 드는 일이고

2) 이번 실험을 하느라 다른 실험이 대기 중이라면 리소스, 트래픽의 낭비이고

3) 무엇보다 실험에 노출되는 건 어디까지나 실제 유저들이므로, 실험 기간 동안 방문한 유저 중 절반에게는 이러나 저라나 상대적으로 안 좋은 방안이 계속 노출되는 셈이나 마찬가지다.

2. 내가 미는 방안이 지기 전에 그만두기?!

그래서 트래픽이 쌓일수록, 표본 크기가 점차 충분해질수록 오히려 내가 설계한 B안이 질 것 같이 보인다면, 실험을 조기에 종료해버리는 것도 우리가 저지를 수 있는 실수, 또는 의도적인 오류다.

3. A안과 B안을 다른 날짜에 시작시키기?!

물론 이걸 안다고 해서 우리가 기획하는 방안이 더 나은 방안이 되진 않는다. 그건 평소의 아이디어, 레퍼런스, 고객에 대한 이해, 그리고 운 등이 조합된 결과니까.

그러나 다섯 편의 글을 통해 살펴본 내용에 대한 이해 없이는, 결코 우리는 한정된 자원을 이용해놓고도 '제대로 된' 설계와 실행, 해석을 할 순 없을 것이다.

더 많은 지식과 경험, 노하우가 궁금하다면

홈페이지 방문하기

뉴스레터 구독하기