a/b 테스팅이란 무엇인가

Jun 11. 2018

a/b 테스팅이란 무엇인가

라고는 해도 사실 써야겠다고 생각한 결정적인 계기는 옆자리에 앉은 직원의 질문 때문이었다.

"a/b testing 할 때, 샘플 사이즈를 어떻게 정해요?"

이 질문은 스타트업 관련, 데이터 관련 컨퍼런스에서 항상 등장하는 주제라서, 한 번 정리해 보면 (hopefully) 많은 사람들한테 도움이 될 수 있을 것 같았다.

그리하여 이왕 하는 김에 a/b testing 관련해서 그간 생각해왔던 이것저것을 정리해보려 한다.

(이하는 조만간 버즈빌 기술 블로그에 출판될 내용입니다. 회사 블로그에 출판하기에 앞서 개인 브런치에 먼저 출판하게 되었습니다.)

(통계학과 박사과정 재학 중인 아는 형한테 퇴고를 부탁드렸더니, 영어를 줄이라는 제안이 왔다. 그렇지만 쓰는 데 너무 많은 에너지를 쏟다 보니 고칠 에너지가 없었다.)

===========================================================================

1. sample size

보통 a/b testing에 들어가는 통계 기법(?)은 t-test이다. 그룹 a의 평균값과 그룹 b의 평균값이 같은 분포에서 나온 것인지 다른 분포에서 나온 것인지를 파악하는 테스트이다.

샘플 사이즈가 충족되었다면, 그다음에 알아봐야 할 문제가 진짜 문제입니다. 보통 a/b testing이 혼선을 겪는 부분이 이 부분부터입니다.

샘플이 랜덤하게 그룹 지어져 있는가?

첫 번째는 샘플들이 충분히 랜덤하게 추출되어야 한다는 부분입니다. 여기서 랜덤 샘플링이 필요한 이유는, a/b testing에서 확인해보고자 하는 stimulus가 오롯이 잘 표현되어야 하기 때문입니다.

예를 들어서 모바일 환경에서의 a/b testing 중 가장 많이 등장하는 KPI 중 하나인 CTR을 생각해봅시다.

샘플을 500명씩 뽑아서, group A에게는 초록색 글자를 보여주고 group B에게는 파란색 글자를 보여줘서, 파란색과 초록색 중 CTR이 높은 쪽으로 폰트 색깔을 바꾸는 테스트를 가정해 봅시다.

group A와 group B가 랜덤으로 배정되어야만 두 그룹의 유일한 차이점은 폰트 색깔이 될 것이고, 그럴 때에 폰트 색깔이 만들어내는 차이점을 온전히 관찰할 수 있습니다.

만약 group A에 초록색을 좋아하는 유저들이 모여있다면?

만약 group A에 폰트 색깔과 관계없이 CTR이 높은 유저들이 모여있다면?

그럴 경우에는 결과가 ‘group A = 3% vs group B = 1%’라고 나온다고 하더라도, ‘초록색이 만들어내는 CTR > 파란색이 만들어내는 CTR’이라고 결론지을 수 없습니다.

서비스에 가입하는 순서의 홀짝 숫자에 따라서 유저 군의 특성이 갈릴 위험이 없으므로, 이 방식으로 대부분의 노이즈를 없앨 수 있습니다. 즉, 90% 이상 random sampling이 가능해집니다.

남아있는 10%는 경험에서 체득한 팁이므로 서비스의 특성에 따라 적용되지 않을 수도 있습니다.

sample은 population의 축소판이고, 축소판이어야 합니다

sample은 population을 반영해야 합니다.

population을 랜덤하게 반영해야 한다는 것이 위에 기술된 내용이었고, 이번 단락에서는 sample이 population을 반영해야 한다는 보다 근본적인 이야기를 다뤄보려 합니다.

sample이 population을 온전히 반영하지 못하면 실망스러운 결과가 발생할 수 있습니다.

실제 버즈빌에서 있었던 예를 들어서 설명드리겠습니다.

버즈빌에서는 랜덤 샘플링의 이론에 충실하게 NRU만을 대상으로 테스트를 진행할 때가 있습니다.

오래된 유저들은 기존의 색깔인 초록색에 익숙한 경험이 있을 테니, 새로운 색인 파란색에 더 민감하게 반응할 것이라는 가정이 있었고, 이러한 “노이즈"를 없애기 위하여 샘플을 NRU로 한정한 것이었습니다.

그리하여 테스트를 통해 ‘초록색 = 3% vs 파란색 = 3.6%’로 20% 발전이라는 야심 찬 계획을 가지고 파란색을 전체 유저를 대상으로 구현한 결과! 기존의 3% CTR이 3.15%로 5% 발전하는 실망스러운 경험을 하게 되었습니다.

왜 이런 일이 발생했을까요?

여러 이유가 있겠지만, sample이 population을 반영하지 못한 부분이 가장 큽니다.

우리의 전체 유저 군을 population으로 봤을 때, NRU는 특정한 유저 군을 의미합니다. 그들은 새로 서비스에 들어왔기 때문에 지금까지 이뤄진 learning도 없고, 그러므로 폰트 색깔에 대한 선입견도 없습니다.

그렇지만 선입견이 없다는 점이 문제였습니다.

sampling은 noise를 상쇄할 수 있도록 random하게 수행되어야 하지만, 내가 달성하고자 하는 KPI의 대상이 되는 population을 충실히 반영해야 한다는 대전제를 반드시 기억해야 합니다.

2. interpretation

이제 샘플링도 끝났고 각각의 그룹에 각각의 stimulus를 주었습니다. 그러면 각 그룹이 어떤 반응을 보였는지 결과를 해석해야 합니다.

다시 글씨 색깔의 예로 돌아가 봅시다.

population을 대표하는 random sample group A 500명과 group B 500명에게 각각 초록색 글씨와 파란색 글씨를 보여주는 실험을 2주일간 진행하였습니다.

결과는 group A는 CTR 3%이고 group B는 CTR 4%를 기록하였습니다.

그렇다면 group B가 더 좋은 결과를 보인 것인데, 이 결과를 믿어도 되는 것일까요?

t-test가 무엇을 판별하는 테스트인지 이해해야 합니다

group B의 CTR 4%가 group A의 CTR 3%보다 높은 것이 믿을만한 것이라는 질문은 무슨 뜻일까요?

이를 이해하기 위해서 우리는 우선 group A의 CTR 3%가 고정되어있는 숫자가 아니라, 유저별로 혹은 시간이나 날씨와 같은 외부적 환경에 따라 조금씩 바뀔 수 있는 숫자라는 점을 알아야 합니다.

그러므로 똑같은 유저들에게 정확히 같은 조건으로 2주간 실험을 다시 하면 3.1%가 될 수도 있고 2.7%가 될 수도 있습니다. 다만 이번 실험에서 3%를 보였다는 의미입니다.

이는 group B가 보여준 4%도 마찬가지입니다. 다음 실험에서는 3.5%가 나올 수도 있고, 4.2%가 나올 수도 있습니다.

위 질문을 통계적으로 해석하면 과연 3%와 4%라는 값이 같은 분포에서 나왔는지 다른 분포에서 나왔는지를 묻는 것입니다.

3%와 4%가 정말 의미가 있는 차이를 가지려면 둘이 다른 분포를 가져야 합니다.

위와 같이 3%와 4%가 서로 다른 분포에서 나온 것이라면, 다음 실험에서도 3%와 4%의 차이가 유지될 확률이 높고, 그러할 때에 “group B의 CTR 4%가 group A의 3%보다 높은 것이 믿을만한 것이다”라고 할 수 있습니다.

각각 10,000명의 샘플을 가지고 3%와 4%가 나온다면, 두 그룹이 다른 분포를 형성하고 있을 확률이 보다 높다고 할 수 있을 것입니다.

confidence를 95로 설정했으므로 보다 정확히 말하면 “실험을 무한히 반복할 때, group A의 CTR이 group B의 CTR보다 낮은 경우가 95% 이하로 발생할 확률이 점점 커진다"라는 말입니다.

매일매일을 독립적인 테스트라고 생각하면 훨씬 간단할 수 있습니다

버즈빌에서는 테스트를 진행할 때 많은 경우 결과를 일별로 끊어서 그래프를 확인합니다.

group A와 group B가 2주일간 보여준 결과를 하나의 실험이라고 본 것이 위에 적어놓은 내용이라면, 2주일 동안 매일매일을 새로운 실험으로 보고 14개의 실험을 한 경우라고 생각해본다고 가정해봅시다.

테스트를 한 번 수행해서 나온 값 3%와 4%는 통계적으로 유의미한 결과인지 생각해봐야 하지만, 14번 동안 일관되게 “group A’s CTR < group B’s CTR”이라면 group B의 CTR이 유의미하게 높다고 봐도 무방할 것입니다.

진짜 현실적으로 판단하기 어려운 때가 매일매일의 값은 일반적으로 B가 높은데, 어떤 특수한 날 A의 값이 이상한 정도로 높은 때, 즉 아웃라이어가 있을 때입니다.

그럴 때는 보통

1) 아웃라이어를 만들어내는 유저를 찾아보고 샘플에 포함시키는 것이 합당한 지 판단해본다.

2) 실험의 외부적인 요소가 그 아웃라이어를 만들어내지 않았을지 알아본다. (데이터의 인풋 자체가 잘못됐을 가능성 조사)

등을 통해 문제를 해결할 수 있습니다.

이상으로 a/b 테스팅과 관련된 포스팅을 마치겠습니다.

읽다가 궁금하신 사항이나 맞지 않는 정보가 담겨있다고 생각하시는 부분 있으면 언제든지 elia.rho@utexas.edu로 문의하시기 바랍니다.

독자 여러분의 a/b 테스팅에 조금이나마 도움이 되기를 바랍니다.

감사합니다.