brunch

You can make anything
by writing

C.S.Lewis

by 텐투플레이 Jun 23. 2020

A/B 테스트,
어떻게 해야 할까?

A/B Testing

*본문은 해외 전문가의 블로그 포스트를 재구성한 것입니다.



많은 개발사들이 게임 출시 후 여러 가지 방법으로 잔존율 상승과 수익화 개선을 노리게 됩니다. 가격 설정부터 버튼 디자인까지 구체적으로 어떤 방법으로 운영을 해야 더 큰 효과를 얻을 수 있는지 판단해야 할  때, A/B 테스트를 통해 객관적인 수치로 각 효과를 평가할 수 있습니다.   



목차

1. A/B 테스트 정의

2. A/B 테스트로 어떤 것들을 평가할 수 있을까?

3. 제대로 된 표본 준비하기

    3-1. 표본의 동질성

    3-2. 표본 크기 정하기

4. 지표

5. 결과 해석 시 주의할 점

6. 후퇴 테스트(deteriorating tests)  



1. A/B 테스트 정의


A/B 테스트란 유저들을 임의로 두 그룹으로 나누어 서로 다른 콘텐츠를 제시한 후 두 그룹 중 어느 그룹이 더 높은 성과(잔존율, 전환율, 인앱 구매액 등)를 보이는지 정량적으로 평가하는 것입니다. 예를 들어 유저를 두 집단으로 나누어 한 집단에는 광고를 매 세션마다 넣고 다른 집단에는 다섯 세션마다 넣은 후 각 집단의 잔존율을 평가하는 것이 A/B 테스트입니다.  


2. A/B 테스트로 어떤 것들을 평가할 수 있을까?


·앱스토어 최적화(ASO) 앵그리 버드 2가 앱스토어용 게임 스크린샷에 대해서 진행한 세 가지 a/b 테스트를 진행했다고 합니다

1) 캐릭터들을 내세울 것인지, 플레이 과정을 보여줄 것인지
2) 유저들이 앱스토어를 세로로 들고 이용하므로 스크린샷 이미지를 세로로 할지, 실제 플레이처럼 가로로 할지
3) 액자처럼 이미지에 프레임을 넣을지 말지

·디자인 구매 버튼을 한 개로 할지, 두 개로 할지, 두 개라면 각 버튼에 뭐라고 쓸지 등등

·콜투액션(CTA) 유저의 행동을 유도하는 “상품 구매하기”, “설치”, “공유” 버튼 등이 콜투액션에 해당합니다

·최초사용자경험(FTUE) 튜토리얼이나 인트로 영상 등 유저의 상품에 대한 첫 경험을 말합니다

·설명 문구 

·광고

·푸시 알림과 타이밍

·가격과 프로모션 프로모션에 비해 가격 A/B 테스트는 잘하지 않는데 유저들이 유저마다 제시된 가격이 다르다는 걸 알았을 때 문제가 생기기 때문입니다

·스토어와 구매창

·기타 등등 


3. 제대로 된 표본 준비하기


3-1. 표본의 동질성

A/B 테스트에서는 표본 그룹들은 서로 동질적이어야 합니다. 각 그룹의 구성을 비슷하게 구성하기 위해서는 표본(유저)을 무작위로 선정해야 합니다. 예를 들어 수요일에 접속한 유저를 한 그룹으로, 목요일에 접속한 유저를 한 그룹으로 묶어서는 안 되고, 둘을 무작위로 섞은 뒤 두 집단으로 나눠야 합니다.


같은 맥락에서 해당 게임에 대해서 똑같은 수준의 경험을 갖고 있는 유저들, 즉 게임 최초 설치일 또는 플레이일(日) 등이 비슷한 유저들을 표본으로 테스트를 진행해야 합니다. 보통 튜토리얼 단계에서 테스트하거나 막 다운로드한 사람들을 대상으로 테스트를 하는데, 이는 해당 게임에 대한 경험이 없거나 적은 유저들로만 표본을 구성하기 위함입니다. 해당 게임에 익숙한 유저일지라도 그중 인게임 스토어를 방문한 적이 없는 유저들을 선별해 인게임 스토어 관련 A/B 테스트를 하는 경우도 있지만 대부분은 초심자들을 대상으로 테스트합니다.


표본의 질(동질성)은 A/A 테스트와 A/A/B 테스트로 점검할 수 있습니다.


A/A 테스트에서는 어느 그룹에도 변화를 주지 않고 유저들을 무작위로 두 그룹으로 나눈 뒤 지표를 확인합니다. 테스트 결과가 두 그룹 간에 비슷하게 나타나면 그 표본은 문제가 없다는 뜻입니다. 그러나 만약에 그렇지 않다면 두 표본 그룹이 서로 지나치게 이질적이란 뜻으로, 표본 수를 늘려서 두 그룹을 보다 동질적으로 만들어야 합니다.


A/A 테스트 외에 A/A/B 테스트를 할 수도 있습니다. 유저를 세 그룹을 나눈 뒤 두 그룹에는 아무 변화를 주지 않고 세 번째 그룹에만 변화를 줍니다. 테스트 결과가 그룹 A1과 그룹 A2은 같고 이 두 그룹과 그룹 B는 다르다면 그 표본은 합격입니다. 


3-2. 표본 크기 정하기

표본이 많을수록 테스트 결과의 신뢰도가 높아지지만 실제로 테스트할 수 있는 표본의 숫자는 한정되어 있습니다. 필요한 표본의 크기를 결정하는 요소는 다음과 같습니다.


선택지(변량)의 개수 선택지가 많을수록 유저들을 더 여러 그룹으로 나눠야 하고 더 많은 표본이 필요합니다

목표치와 현재 수치의 차이 차이가 작을수록 더 많은 표본이 필요합니다

지표의 안정성 (표준 편차) 지표가 불안정할수록 더 많은 표본이 필요합니다


선택지(변량)의 개수

A/B 테스트는 한 개의 변수와 두 가지 선택지를 테스트하므로(예를 들어, 가격이라는 1개의 변수와, 2달러와 3달러라는 두 가지 선택지(변량)) 두 개의 그룹만 필요합니다. 하지만 만약 두 가지 이상의 선택지를 테스트하고 싶다면 다변량 테스트를 할 수 있습니다. 예를 들어, 가격이 2달러와 3달러일 때의 차이와, 문구가 “구매”와 “바로 구매”일 때의 차이를 둘 다 테스트하고자 할 때, 이 두 테스트를 하나씩 순차적으로 하지 않고 동시에 하면 그게 다변량 테스트입니다. 

동시에 두 가지 변수를 테스트하게 되면

가격 선택지 2개(2달러와 3달러) X 문구 선택지 2개(“구매”와 “바로 구매”) =4개(=2달러 x”구매”, 2달러 x”바로 구매”, 3달러 x”구매”, 3달러 x”바로 구매”) 의 선택지를 테스트하게 되고 4개의 표본 그룹이 필요합니다. 

그런데 이는 선택지가 적을 때만 가능합니다. 10개의 색깔과 10개의 버튼 크기를 테스트하려고 하면 10x10=100개의 선택지가 발생하고 100개의 표본 그룹이 필요합니다. 100개의 그룹에 충분한 표본 크기를 확보하는 것은 어렵기 때문에 유의미한 테스트 결과를 얻기 어렵습니다. 


목표치와 현재 수치의 차이 & 지표의 안정성 (표준 편차)

위 공식은 표준 그룹별로 필요한 유저수를 표준편차와 필요 변화량으로 나타낸 것입니다. 이 공식에 따르면 표준편차에 제곱이 되어 있어서, 지표가 불안정할수록, 편차가 클수록 훨씬 더 많은 유저를 테스트해야 합니다. 분모의 “필요한 변화량”은 현상태에서 목표에 도달하기 위해 필요한 변화량을 말합니다. 작은 변화를 원할수록 더 많은 표본(유저)이 필요합니다. 예를 들어, 현재 잔존율이 30%인데 라이브옵스 이벤트로 잔존율을 40%까지 올리고 싶다고 하면 유저(표본)가 많이 필요하지 않습니다. 반면에 잔존율을 30%에서 30.1%로 올리고 싶다면, 결과가 매우 정교해야 하기 때문에 훨씬 더 많은 유저(표본)가 필요합니다. 


4. 지표


A/B 테스트에서 다음과 같은 것들을 지표로 사용할 수 있습니다.


구매 전환율 몇 퍼센트의 유저가 주말에 구매를 했는지, 또는 몇 퍼센트의 유저가 월말까지 5번 이상 구매를 했는지 등

잔존율 D1(Day1), D7, D30 잔존율

수익성 지표 ARPU(가입자당평균매출), ARPPU(구매자당평균매출), LTV(사용자당총기대수익), 평균 첫 구매액 등

플레이 시간 세션당 평균 플레이 시간 등

기타 등등


누적 ARPU(가입자당평균매출)를 예로 들어보겠습니다.


7일 누적 ARPU를 지표로 분석하면 유저가 첫 7일 동안 얼마나 돈을 쓰는지 알 수 있습니다. 이는 수익성을 보여줄 뿐만 아니라 간접적으로는 잔존율까지 보여주는, 게임의 질적 변화를 알려주는 아주 좋은 지표입니다. 수익성 관련 테스트에는 이 누적 ARPU가 적합한 지표가 될 수 있을 것입니다.  


5. 결과 해석 시 주의할 점


중간에 원하는 결과가 나왔더라도 테스트를 중단하지 않고 끝까지 완료해야 합니다. 테스트를 시작할 때부터 우리는 이미 마음속에 내가 선호하는 선택지의 결과가 좋게 나오길 기대합니다. 테스트 중간에 결과를 확인했을 때 내가 원하는 대로 결과가 나오면 자금을 아낀다는 명분으로 테스트를 중단하기도 합니다. 하지만 중간 결과와 최종 결과는 완전히 달라질 수 있기 때문에 절대 모든 표본을 테스트할 때까지 중단해서는 안 됩니다. 이는 마치 FC Barcelona와 어떤 듣보잡 팀이 경기하는데, 바르셀로나가 한 골 넣었다고 경기를 15분 전에 마치려는 것과 같습니다.  


6. 후퇴 테스트 (Deteriorating tests)


A/B 테스트를 정석대로 하기에는 너무 많은 시간과 노력이 들 때가 있는데 그럴 땐 후퇴 테스트(Deteriorating test)를 할 수 있습니다. 예를 들어, 레벨을 더 많이 만들어야 좋을지 A/B 테스트할 때, 한 달 걸려 새 레벨을 50개 만드는 대신 한 그룹의 유저에게는 기존에 만들어 놓은 150개의 레벨을 주고 다른 그룹에는 100개만 주고 결과를 비교할 수 있습니다.



투플레이의 다른 글 읽으러 가기




함께 읽어보면 좋은 글





참고한 것들


작가의 이전글 텐투플레이 웨비나, 꾸준한 관심 속에 마무리!
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari