brunch

You can make anything
by writing

C.S.Lewis

by 플래터 Jul 30. 2022

A/B 테스트를 설계할 때의 우리의 진짜 질문

A/B 테스트는 A와 B만 나누는 게 다가 아니다 (1)

A와 B만 비교하면 A/B 테스트인가?


서비스기획/PM 또는 그로스 해킹과 관련한 부트캠프 또는 신입을 대상으로 한 교육 과정을 살펴보면, A/B 테스트에 대한 이야기가 많다. 아마도 서비스를 개선시키는 실험 방안 중 하나로 A/B 테스트가 가장 유명(?) 하기 때문인 것 같은데, 그도 그럴 것이 A/B 테스트와 관련해서 오바마 대선 캠페인의 사례 등 여러 사례들이 이미 일반인들에게도 알려져있기 때문이다.


그런데 문제는 그 중 상당수가 A/B 테스트의 사례나 세팅 방법 (트래픽을 절반으로 나눈다, 변수는 1개만 둔다) 정도로 설명이 그치다 보니, 종종 신입 또는 직무 취업준비생의 과제나 질문을 보면, 단순히 아무거나 A와 B안으로 분리한 다음 가져와서 '더 나은 놈을 살려주겠다'라는 식으로 과제를 마무리하는 모습을 종종 발견하게 된다.


그런데, A/B 테스트는 정말 A와 B안 (또는 경우에 따라 C, D, E안....)을 가져와 균등한 트래픽으로 나누어 동시간대에 진행하기만 하면 되는 건가?


즉슨 A/B 테스트를 통해 우리가 알고 싶은 건 정말 “목표를 달성하기 위한 방안으로 A안과 B안 중 어느 게 더 효과가 좋은가?”가 끝인 걸까?


A/B 테스트의 사례에 관한 다양한 아티클들 (출처 : Google)




A/B 테스트를 설계할 때 우리가 진짜로 궁금해하는 것


A/B 테스트를 설계할 때 표면상으로 우리의 궁금증은 “목표를 달성하기 위한 방안으로 A안과 B안 중 어느 게 더 효과가 좋은가?”일지도 모른다. 그러나 사실 우리의 '진짜' 궁금증은 이것보다 더욱 복잡하고 섬세하다.


우리의 표면상의 질문 뒤에 숨은 진짜 질문을 정의하기 위해, 몇 가지 가상의 실험 결과를 생각해보자


1. 우리는 암묵적으로 A/B 방안의 결과가 상당히 크길 바란다.  


만약 네이버 지식in 서비스에서 답변을 남기는 이들이 더 좋은 답변을 남길 수 있도록 유도하는 콘텐츠를 제공하고, 좋은 답변의 기준을 '답변 채택률'을 보는 실험을 설계했다고 가정해보자. 두 그룹의 구성원은 각각 적게는 몇 개 ~ 많게는 수십 개의 답변을 작성하지만, 모든 답변이 채택을 받는 것은 아니므로 이들이 만든 답변 중 '채택받은 답변'으로 전환되는 비율(%)을 비교하는 실험이다.


그런데 만약 두 집단의 채택 전환율 차이가 1%p 밖에 차이 나지 않는다면, 이는 유효한가? A와 B 중 A가 1%p라도 높으니 일단은 A가 이겼다고 하면 될까?


그런데 보통 우리는 이런 경우, 뭔가가 찝찝하다고 생각할 것이다. 왜냐하면 1%p는 별로 차이가 나지 않아 보이니까. 즉, 우리는 A/B테스트를 할 때 두 실험 결과의 차이가 '상당히 크거나 확실하길' 바란다.

두 그룹이 작성한 답변 중 채택받은 답변으로의 전환율에 1%p 밖에 차이가 나지 않는다면? 이는 유효한가?


2. 우리는 실험의 진행이 공정하길 바란다. 그 공정함의 실체가 무엇인지는 모르지만.


그리고 만약 최대한 트래픽을 균등하게 나누려고 했지만, 어떠한 이유로 두 그룹에 노출되는 비율에 차이가 생겼다고 가정해보자. A그룹은 전환율이 55%이긴 하지만 333개의 답변 중 184개가 채택되었고, 반면 B그룹은 전환율이 1%p 낮은 54%지만 무려 2,287개의 답변 중 1,239개의 답변이 채택받았다.


그럼 이 경우에도 우리는 A그룹에게 적용한 방안이 무조건 낫다고 생각할까? 비율은 1%p 차이밖에 안 나는데, 결과적으로 B그룹이 좋은 답변을 더 많이 (1,055개) 작성했으니 B 그룹이 더 나은 건 아닐까?


또는 두 그룹의 비율이 다르니 비교를 하는 게 옳지 않은 건 아닐까? 이처럼 우리는 A/B 테스트를 할 때에 진행이 공정하길 바란다. 그 공정함의 실체가 무엇인지는 모르지만 (그래서 무조건 5:5 라고 생각하지만)

만약 두 그룹의 표본 비율이 달랐다면?



3. 우리는 이번 실험의 결과가 이례적이거나 우연이 아니길 바란다


두 방안의 결과 차이도 그다지 크지 않은 것 같고, 무엇보다 어디선가 듣기로 5:5로 트래픽을 나눠야 한다고 했는데 두 그룹의 표본 비율마저 5:5가 아니니까 실험이 공정하지 않다고 생각이 된 우리는 그래서 같은 실험을 한 차례 더 진행하기로 한다. 그리고 이번엔 아래와 같은 결과를 얻었다고 가정해보자


이번에도 트래픽이 정확히 5:5로 나뉘진 않았지만 이전 실험에 비해 상당히 격차가 줄어든 것을 확인했다. 그리고 무엇보다 두 그룹의 전화율 차이가 1%p에서 4%p 로 증가했다. 트래픽은 차이가 있지만 어쨌든 4%p라면 그래도 제법 괜찮은 비율 같아 보인다.


첫 번째 실험이 뭔가 만족스럽지 않은 우리는 두 번째 실험을 진행해 위와 같은 결과를 얻었다. 이번엔 만족스러운가?


그런데, 이전엔 1%p 차이였는데 이번엔 4%p 차이라니? 이에 우리는 고민한다. '실험마다 이렇게 결과가 다르다면, 이 실험을 우리는 믿을 수 있는 걸까?'


즉, 우리는 A/B 테스트로 실험을 해서 나온 결과가 이번 한 번 만의 이례적인 경우, 또는 우연이 아니기를 바란다.




즉, 우리가 A/B 테스트를 설계하거나 진행할 때 지닌 표면상의 질문- “목표를 달성하기 위한 방안으로 A안과 B안 중 어느 게 더 효과가 좋은가?”-뒤에 숨은 진짜 질문은 아래와 같다.

“이번 며칠 동안 모은 000명~0,000명의 트래픽/고객에 대해서만 유효한 게 아니라, 앞으로도 & 해당 유형의 모든 고객에게 A안과 B안 중 어느 게 ‘확실하게’ 효과가 좋은가? 그리고 이 결과는 우연이 아닌 게 맞나? 이 결과는 정말로 A와 B의 차이 덕분에 생긴 게 맞는가?”


이를 생각한다면 A/B 테스트의 설계와 결과 해석을 단순히 1) 트래픽을 절반으로 나눈다거나 2) 변수를 하나만 둔다거나 3) 또는 더 나은 결과를 보여주는 방안을 선택해서 배포한다 라는 식으로 퉁칠 순 없게 된다.


이어지는 글에서는, 그렇다면 우리가 궁금한 진짜 질문에 대한 답을 얻기 위해 A/B 테스트의 설계 또는 결과 해석 과정에서 유의할 것과 이를 위해 알아두어야 할 기초 통계에 대한 정보를 간단하게 공유하고자 한다.


https://brunch.co.kr/@539insight/139



더 많은 지식과 경험, 노하우가 궁금하다면

홈페이지 방문하기

뉴스레터 구독하기

이전 06화 엑셀로 SQL 이해하기-GROUP BY, HAVING
brunch book
$magazine.title

현재 글은 이 브런치북에
소속되어 있습니다.

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari