brunch

You can make anything
by writing

C.S.Lewis

by 공유현 May 21. 2021

구글 플레이 스토어 A/B 테스트

번개장터의 그로스 팀은 6개월 이상 구글 플레이스스토어 A/B 테스트를 진행해오고 있다. 많은 시행착오를 거치며 우리가 얻었던 노하우를 일부 공개한다.


AOS 구글 플레이 스토어에서는 앱 서비스를 위한 A/B 테스트를 제공한다. 별도의 앱 배포 필요 없이 스토어에서 자유자재로 내가 원하는 테스트 안들을 입력하여 일정 기간동안 A/B 테스트를 진행할 수 있고, 진행 결과를 테스트 중이나 마무리 후에도 상시적으로 확인 가능하다.


A/B 테스트 개요

A. 테스트 적용 가능 대상

상기 각 항목에 대한 A/B 테스트를 적용할 수 있다. 예를들어, "스크린샷"이라고 하면 앱을 설명하는 스플래시 이미지 / 스크린샷을 의미한다.


참고로 각 항목 내에서의 A/B 테스트만 가능하고, 항목간의 A/B테스트는 불가능하다. 즉, A, B, C, D안의 스크린샷들에 대해서는 A/B테스트를 수행 가능하나, (스크린샷 A + 간단한설명 X) + (스크린샷 B + 간단한설명 Y) 등으로는 테스트 할 수 없다.


B. 대안 설정

기존 안 + 테스트해볼 신규 3가지 안을 포함하여 총 4가지 안까지 테스트 가능하다. (물론 기존안 + 신규안 1개로도 테스트 가능하다.) 다음은 A/B 테스트를 해 볼 4가지 스플래시 메인 이미지의 예시다.


C. 노출 비중 설정

기존안과 신규 대안들에 대하여 노출 비중을 설정 가능하다. 정확히 말하면, 신규 대안들을 몇 % 노출시킬 지 설정 가능하다. 예를들어 신규 대안들을 50%로 노출한다고 설정하면,


1) 기존안은 50% 노출

2) 신규안이 2개라면 각각 25%, 25%로 동일한 비중으로 노출


A > B > C 순으로 설정하고 테스트를 시작하면, 테스트 기간 내 스토어 방문자에게 우리가 설정했던 노출 비중대로 각 테스트 대안들이 랜덤하게 노출되게 된다. 동일한 기간 내, 랜덤 샘플링으로 테스트가 진행되므로 각 종 Confounding을 제어할 수 있다는 것이 장점이다.

 


최적화할 지표

구글 A/B 테스트를 통해서 최적화하고자 하는 결과값은 1) 최초 설치 사용자수, 2)  설치 후 제거하지 않은 사용자수 (=1일 이상 앱을 제거하지 않은 사용자수)다. 1), 2)번에 대해서 각각 결과값을 확인 가능하다.


필자는 최초 설치 사용자수 증가를 주지표로, 설치 후 제거하지 않은 사용자수를 보조지표로 활용한다.

(참고로, 필자가 이때까지 진행했던 1) 최초 설치 사용자수에서 가장 우수한 대안이 2) 설치 후 제거하지 않은 사용자수 측면에서도 가장 우수하였다.)


참고로, A/B 테스트 기능을 알기전에는, 스토어의 특정 Feature를 변경 후, 설치 전환율의 before & After를 비교하였으나...

스토어 전환율, 즉 스토어 랜딩 수 대비 설치수는 많은 Confounding 요소들에 의해 좌지우지 된다. 특정 일에 유난히 페이드 마케팅을 많이 했다면 당연히 단순 광고 클릭수 증가에 따라 해당일의 전환율은 낮아질 것이다. 이러한 Confounding 요소들을 제거한 Clean한 전환율을 시계열 상에서 비교 불가능하다. 구글 플레이 스토어의 A/B 테스트 기능에서도 전환율 관련된 A/B 테스트 결과값을 제공해주면 좋겠으나, 안타깝게도 설치 사용자수와 설치 후 제거하지 않은 사용자수에 대한 결과값만 제공해주고 있다.   



A/B 테스트 결과 해석


플레이스토어 A/B 테스트 결과 화면 예시 (상기 제시된 4가지 이미지 데이터가 아니다. 보안을 위해 다른 테스트 데이터를 제시했다.)


맨 오른쪽의 Bar가 핵심이다. "New A"안의 Bar가 90% 신뢰구간이 0을 포함하지 않으면서 양의 부호를 가지므로 통계적으로 유의미하게 "New A"안이 기존안 대비 성과가 좋다. 우리가 이 실험을 무한대로 반복한다면, 약 90%의 실험의 경우 "New A"안이 기존안 대비 0.7%에서 3.2% 설치수가 증가할 것이다. 중간값으로 보면 1.95% (0.7%와 3.2%의 중간)의 증가율을 달성했다고 볼 수 있다.


설치된 사용자는 실제 A/B 테스트 기간동안 설치된 최초 사용자수를 나타내며, 설치된 사용자(확장된 값)은 A/B 테스트를 수행하지 않고 해당 안으로 전체 방문자에게 노출시켰을 시 예상되는 최초 설치자수를 의미한다. (우리의 예시에서는 설치된 사용자 X 4 = 설치된 사용자 (확장된 값))


실무적인 꿀팁

1. IOS 앱스토어의 경우, A/B 테스트 기능을 지원하지 않으며 스플래시 이미지 등 앱의 정보를 변경하려면 별도의 배포가 필요하다. 따라서, 우리 팀에서는 먼저 구글 플레이 스토어에서의 A/B 테스트를 8차에 걸쳐서 진행하고, 가장 효율 좋은 안을 IOS 앱스토어에 적용하였다.)


2. 주목도가 높은 굵직굵직한 부분 (동영상, 스플래시 이미지, 스플래시 이미지 중 메인 이미지, 상위 3개 이미지 등) 부터 먼저 바꾸고, "앱의 간단한 설명" 등 주목도가 상대적으로 낮은 부분은 후차적으로 fine-tuning 하는 것이 좋다.


예를들어, "앱의 간단한 설명"으로 A/B 테스트 하여 A안을 선택했다고 가정하자. 하지만, 지금 현재 상태에서는 A안이 최적일 수 있으나, 만약 그보다 주목도 높은 스플래시 이미지들이 통채로 바뀌었고, 스플래시 이미지 내의 메세지가 A안 보다는 B안과의 Fit이 더 잘 맞는다면, 여전히 A안이 최적의 결과를 낼까? 따라서 굵직굵직한 부분들을 먼저 바꾸고 Fix한 후, 세부 사항에 대한 Fine-tuning을 하는 것이 더 바람직하다.


3. 동영상의 경우, 앱의 기능을 설명하는 부분만 잘라서 포함하는 것이 가장 이상적이다. 30초짜리 동영상의 앞단 15초는 브랜딩 영역으로서 번개장터의 전국구 택배거래가 가능한 점을 강조, 뒷단 15초는 앱의 기능을 설명하는 부분이었는데, 30초 풀 영상 대비 기능을 설명한 15초만 잘라서 첨부하는 것이 훨씬 효과적이었다.


4. 최적의 안을 선정해서 적용할지라도 플레이스토어에서 검수 후 반려할 가능성이 있다. 즉 A/B 테스트 시에는 검수를 하지 않으나, 최종안 선정 및 전체 모수에게 적용 시에는 검수를 한다. 예를들어 스토어의 각 영역에 동일한 설명이 2번 이상 들어간 경우, 반려 대상이 된다. 사실 검수 Guideline을 일일이 확인하고 A/B 테스트를 진행하기는 현실적으로 어려우니, 일단 A/B 테스트를 진행하고 검수에서 반려당하면 그때 이유를 파악하고 다른 방안으로 진행하는 것이 좋다.


5. 그로스 팀과 디자인 팀이 협업을 많이 하게 되는데, 결과를 전사 또는 셀 구성원에게 공유해주고 디자인팀에게 공을 돌리는 것 또한 중장기적 협업 관점에서 매우 중요한 부분이다. A/B 테스트 하나 당 약 2주의 시간이 소요되고 몇 달간 테스트를 진행하여 최적화하므로 장기간 디자인팀과 호흡을 맞춰야하는데, 디자인팀에게 성공 체험을 공유하면서 "이 작업을 왜 하는 것인지?", "실제로 작업을 했더니 성과가 난다"를 알려주어 동기부여 하는 것이 중요하다.

작가의 이전글 브런치에 글을 쓰게 된 계기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari