A/B 트래픽과 결과의 유의미함이 무슨 상관인가요?

A/B 테스트는 A와 B만 나누는 게 다가 아니다 (4)

Jul 31. 2022

A/B 테스트는 A와 B만 나누는 게 다가 아니다 (1) | A와 B만 비교하면 A/B 테스트인가? 서비스기획/PM 또는 그로스 해킹과 관련한 교육 과정에 A/B 테스트에 대한 이야기가 많다. 아마도 서비스를 개선

https://brunch.co.kr/@539insight/138

A/B 테스트는 A와 B만 나누는 게 다가 아니다 (2) | https://brunch.co.kr/@539insight/138 앞선 글에서는 A/B테스트를 설계하거나 수행할 때 우리의 표면상의 질문-목표를 달성하기 위한 방안으로 A와 B 중 어

https://brunch.co.kr/@539insight/139

A/B 테스트 계산기 세팅 & 해석하기

A/B 테스트는 A와 B만 나누는 게 다가 아니다 (3) | 앞선 두 편의 글에서는, 1) 우리가 A/B 테스트를 설계할 때 겉으로 궁금해하는 건 '어느 게 더 나은가?'인 것 같지만 2) 실제로 우리가 궁금해하는

https://brunch.co.kr/@539insight/140

앞선 세 편의 글에서는

1. 우리가 A/B테스트를 할 때에 진짜로 궁금한 건 '어느 게 더 나은가?'가 아니라 '이번 한 번 우연이 아니라 앞으로도 동일한 고객에게 확실하게, 항상 나은 건 뭔가?'에 가깝고

2. 이를 알아내기 위한 A/B 테스트를 설계, 해석하는 데에 필요한 기초 통계 지식과

3. 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 및 해석에 관한 내용을 살펴보았다.

이어지는 이번 글에서는, 계산기에서 결과가 유의미하지 않다(not significant)고 했을 때 이게 진짜 방안에 별 차이가 없는 건지, 아니면 표본(트래픽)이 부족해서인지 궁금할 기획자/PM/마케터를 위해, "애초에 표본(트래픽) 사이즈와 결과의 유의미함이 무슨 상관인지" 알아보고자 한다.

표본(트래픽) 사이즈와 결과의 유의미함에 무슨 상관이 있나요?

결론부터 말하면 아주 상관이 많다. 표본이 많으면 많을수록, 그룹 A와 그룹 B의 결과가 차이자 작더라도 '유의미하다'라고 인정해주기 때문이다.

그럼 왜 표본이 많으면 많을수록 작은 차이도 인정해주는 걸까?

우리의 생각1 "잘은 모르지만 표본은 많을수록 좋은 것 같다"

사실 '표본이 많을수록 좋다'는 이야기라면 직관적으로 어느 정도 이해가 될 것이다. 대통령 선거에서 미리 출구조사를 통해 A후보와 B후보의 투표율을 파악해서 누가 승리할지 짐작해보자고 하자. 전 국민에게 다 물어볼 순 없겠지만, 이왕이면 최대한 더 많은 사람에게 물어보면 신뢰할 수 있지 않겠는가?

투표를 마치고 온 주변 친구랑 가족 몇 명보다는, 동네 사람들에게 물어보면 조금 더 신뢰할 수 있을 듯하고, 동네 사람보다는 전국의 투표소 앞에서 기다리며 투표를 마친 이들에게 붙잡고 물어보는 게 조금 더 신뢰할 수 있을 듯하다. (물론 가장 정확한 건 투표자 전체의 결과를 다 모아 보는 방식이다. 그런데 이건 추측이 아니라 전수 조사다)

당연히 더 큰 표본에게 물어볼수록 정확도는 높아진다. 그리고 가장 큰 표본은 결국 모집단 전체다. 다만 모집단 전체에게 물어보는 건 매우 어렵거나 불가능하다.

그런데 표본이 많을수록 '더 적은 차이도 인정해준다'는 건 어떤 의미일까?

가상의 상황을 하나 생각해보자. A그룹은 전환율이 20%, B그룹은 전환율이 30%다. 얼핏 생각하면 무조건 B그룹이 승리한 것 같다.

그런데 만약 A그룹이 10명 중 2명, B그룹이 10명 중 3명이라면 우리는 이 결과를 신뢰할까? 다시 말해 '우연이 아니다'라고 생각할 수 있을까? 굳이 A/B 테스트 계산기를 돌려보지 않아도, 우리의 직관은 이번 실험 결과가 그다지 유의미하지 않다고 판단할 것이다. 아무리 생각해도 그룹당 10명은 너무 적지 않은가? 그리고 전환율의 차이는 10%p라고 해도 결국 1명 차이 아닌가?

그럼 이번엔 전환율은 같은데 A그룹은 10,000명 중 2,000명, B그룹은 10,000명 중 3,000명이라면? 이런 경우에도 역시나 A/B 테스트 계산기를 돌려보지 않아도, 우리의 직관은 이번 실험 결과가 꽤나 유의미할 거라고 느낄 것이다. 무려 각각 10,000명씩이나 트래픽을 모았으니까(= 조금 더 모집단에 가깝게, 많은 사람에게 물어봤으니까). 그리고 두 그룹의 결과 차이가 1,000명이나 되니까.

A/B 테스트 계산기를 돌려보지 않아도, 우리는 왼쪽은 유의미하지 않고, 오른쪽은 유의미할 거라고 직감적으로 느낀다.

우리의 생각2 "차이가 커야 할 것 같은데... 이 트래픽에서 고작 이 정도 차이로 되나?"

자, 그럼 이번엔 아래와 같은 경우는 어떤가?

한 실험에선 아까와 같이 A그룹이 10,000명 중 2,000명이 전환에 성공하여 20% 전환율을, B그룹이 10,000명 중 3,000명이 전환에 성공하여 30% 전환율을 기록했다. 계산기는 안 돌려봤지만 충분히 유의미한 것 같다고 우리의 직관은 이야기한다.

그런데 다른 실험에선 트래픽을 훨씬 크게 키워서 A그룹은 100,000명 중 2,000명이 전환하여 2% 전환율을, B그룹은 100,000명 중 2,200명이 전환하여 2.2% 전환율을 기록했다. 이번엔 어떠한가?

- 트래픽은 10배나 더 많다. 표본은 아까보다도 더 충분해졌다. (10,000명 → 100,000명)

- 그런데 전환율이 각각 2%와 2.2%로, 아까보다도 훨씬 줄었다

- 그리고 두 그룹의 전환율 차이도 고작해야 0.2%p 차이로 훨씬 작아졌다 (10%p 차이 → 0.2%p 차이)

- 결국엔 두 그룹의 차이는 무려 100,000명 중에서 고작 200명 차이 아닌가? 이 정도 차이로 되나?

표본은 커졌지만 전환율은 더 적고, 두 그룹 간의 차이도 훨씬 적어졌다. 이런 경우는 우린 직감적으로 유의미하지 않다고 생각하게 된다.(느낌이 그렇다)

표본의 크기와 A/B 테스트 결과의 차이에서 우리가 착각하는 것

이렇게 가상의 세 결과를 살펴봤다

- 실험1 : 10명 중 2명 (20%) vs 10명 중 3명 (30%)
- 실험2 : 10,000명 중 2,000명 (20%) vs 10,000명 중 3,000명 (30%)
- 실험3 : 100,000명 중 2,000명 (2%) vs 100,000명 중 2,200명 (2.2%)

우리는 직감적으로 1) 표본이 클수록 결과가 유의미하다(우연이 아니다)고 생각하고 2) 또한 두 그룹 간의 결과 차이가 커야 유의미하다(우연이 아니다)고 생각한다. 그래서 우리는 실험1과 실험2 중에선 실험2가 더 낫다고 생각하지만, 반면 실험2와 실험3을 비교할 때에는 아리송하게 느끼는 것이다.

그러나 결론부터 말하면 실험3 역시 신뢰 수준 95% 양측 검정 기준으로 p-value가 0.0018로 유의미하다.

그러면 이쯤에선 이런 질문이 생길 수도 있다.

"아니, 100,000명 중 고작해야 2,000명 정도고 두 그룹 간의 차이도 200명, 0.2%p 밖에 안 나는데 어떻게 유의미한가요? 이 정도면 거의 차이가 없는 거 아닌가요?"

실험 3의 결과. 신뢰 수준 95%의 양측 검정에서 100,000명 중 전환율은 2% vs 2.2%로 200명 차이지만, 결과는 유의미하다.

왜냐하면 우리가 이런 숫자를 두고 생각하는 방식은 '100,000명 중에서 차이가 고작 0.2%p 수준이다'지만, 통계적으로는 '0.2%p 차이밖에 없더라도 표본이 100,000명이나 되니 이 정도면 충분하다 + 우연이라고 볼 수 없다' 이기 때문이다.

(우리의 직관) 100,000명끼리 비교해서 차이가 고작 0.2%p 수준이다
VS
(통계) 0.2%p 차이밖에 없더라도 표본이 100,000명이나 되니
이 정도면 충분하다 + 우연이라고 볼 수 없다

즉, 아무리 차이가 적어 보이더라도 이건 100,000명을 대상으로 해서 얻은 실험 결과이니, 충분히 유의미하다는 뜻이다. 우리의 직관이 이야기하는 것처럼 "100,000명 중에서 고작 차이가 이 정도밖에 안되니 A와 B는 차이가 없다"가 아니다.

우리는 지금 단순히 비율을 비교하는 게 아니다. 우리는 이 비율의 차이가 정말로 믿을 수 있는 결과인지, 다른 경우에도 반복되어 우연이 아니란 걸 증명할 수 있는지 알고 싶은 거다. 표본이 커서 모집단의 크기에 가까워질수록 추측은 더욱 더 정확해지고, A와 B의 차이가 우연에 의해 발생할 가능성은 줄어든다.

우리는 단순히 비율을 비교하는 게 아니라,
이 비율의 차이가 우연이 아닌지 알고 싶은 거다

표본이 크면 클수록 같거나 더 작은 차이로도 유의미하다는 평가를 얻어낼 수 있다

이 이야기를 하기 위해 쭈욱 이야기를 전개해왔다.

앞선 글에서 실험 결과가 유의미하지 않다고 했을 때, 두 가지 경우가 있다는 걸 살펴봤다.

1) 애초에 두 그룹 사이에 별 차이가 없거나

2) 또는 현재의 표본으로는 누가 더 나은 건지, 이게 이번에만 우연인지 아닌지 알 수 없거나

이번 글에서의 이야기를 접목해보면 어떤 의미가 되는가?

결국 표본이 작으면 이 차이가 정말로 유의미한지, 우연이 아닌지 '아직은' 알 수 없지만, 1) 표본만 충분하다면 판단해줄 수 있다는 의미이고, 더 나아가서는 2) 두 그룹의 차이가 똑같거나 심지어는 더 적더라도 두 그룹의 차이가 유의미하다고도 판단해줄 수도 있겠다는 의미이다.

조금 더 쉽게 말하면, "두 그룹의 차이가 아무리 적어도 표본만 크하면 충분히 유의미할 수도 있다"는 이야기가 된다.

두 그룹의 차이가 아무리 적어도 표본만 크면 충분히 유의미할 수도 있다

그럼 이쯤에서 A/B 테스트를 설계하는 기획자, PM, 마케터의 입장에서 우리는 고민에 빠진다. "그럼 대체 표본은 어느 정도가 필요한 건가? 혹은 이 정도 표본이라면 어느 정도 차이여야 유의미한 건가?"

그럼 대체 표본은 어느 정도가 필요한 건가?
표본은 많을수록 좋으니 실험은 무조건 오래, 크게 하면 되나?

이어서..

이렇게 해서, A/B 테스트의 결과가 유의미하지 않다는 결과를 받아 들었을 때 우리가 하게 되는 질문인 '표본의 크기와 결과의 유의미함 사이에 무슨 상관이 있는 건가?'에 대해 살펴봤다.

이어지는 글에서는

1) 그럼 A/B 테스트를 수행할 때 대체 표본(트래픽)은 얼마나 모아야 하는지?

2) 이와 관련해서 테스트를 세팅, 실행할 때 주의할 점은 없는지?

등을 살펴보고자 한다

더 많은 지식과 경험, 노하우가 궁금하다면

홈페이지 방문하기

뉴스레터 구독하기

keyword

작가의 이전글A/B 테스트 계산기 세팅 & 해석하기A/B 테스트에 적정한 표본의 크기와 주의 사항작가의 다음글