AB Test 기본부터 심화까지 -2편

AB Test에 기반한 전략적 의사결정으로 서비스 개선하기

by Digital Native Magazine

Nov 12. 2020

저번 AB Test 기본부터 심화까지 - 1편에 이어서, 이번 편에서는 단순히 할 수 있는 AB Test를 조금 더 심화적으로 서비스에 적용하는 것과 AB Test의 한계에 대해서 이야기 해보도록 하겠습니다.

본 글의 주요 내용은 다음과 같습니다.

1. AB Test 기본편

1-1. AB Test가 뭐야? 왜 하는거지?

1-2. AB Test에서 사용자를 분리하는 방법은?

1-3. 어떻게 AB Test 결과를 신뢰할 수 있을 것인가?

1-4. AB Test를 해볼 수 있는 간단한 툴들

2. AB Test 심화편

2-1. AB Test 결과를 왜곡할 수 있는 요소들

2-2. 복합 AB Test란?

2-3. MAB(Multi-armed Bandit) Test를 통한 자동화

2-4. AB Test가 만능은 아니다.

2. AB Test 심화편

2-1. AB Test 결과를 왜곡할 수 있는 요소들

앞서 1편에서는 AB Test의 기본적 개념과 트래픽 분할 방식에 대해서 이야기 해보았는데요. 하지만 테스트 대상 트래픽의 양이 충분하고, P Value가 높게 나온다고 하더라도 AB Test 결과가 왜곡될 수 있는 요소들은 항상 존재합니다.

대표적인 것이, 서비스적 특성에 따라 소수의 Heavy User에 전환 결과값이 매우 집중되어 있는 경우 해당 Heavy User들에 의해 AB Test 결과가 왜곡됨으로 단기적 성과와 장기적 성과에 차이가 발생하는 것입니다.

1%의 사용자가 전체 매출액의 90% 이상을 발생 시키는 모바일 게임의 확률형 시스템 예시 화면

게임 인더스트리에서 들은 케이스 중 하나는 최근의 대부분 모바일 게임이 차용하는 확률형 아이템 뽑기 시스템의 경우 1%의 사용자가 전체 매출액의 90% 이상을 발생 시키는 경우가 대부분이라고 합니다.

하지만 AB Test에서 한번에 여러번의 대규모 뽑기를 결제하고 뽑기 시간을 단축 시켜주는 기능을 추가한다고 하였을 때, 단기적으로는 1%의 Heavy User들의 결제액이 증가하여 Experimental Group에서 전체 매출액이 증가한다고 측정이 될 수 있지만, 이는 장기적으로 보았을 때 무과금 유저와 과금 유저의 격차를 급격히 증가시키면서 무과금 유저들에게 상대적 박탈감을 주어 게임을 이탈하게 되고, 결국 Heavy User들만 남음으로 게임의 흥미로를 하락 시키는 결과를 가져올 수도 있습니다. 그래서 항상 결과값을 해석 할 때 단순히 특정 지표가 높게 나왔음만을 가지고 끝낼 것이 아니라, 장기적으로 서비스의 Balance와 Engagement를 측정 할 수 있는 지표들을 같이 이해하고 있어야지, 진정한 AB Test의 가치를 다 한다고 할 수 있습니다.

그 외에도 대규모 할인 시즌에 성과가 좋은 추천 알고리즘과 비성수기 시즌에 성과가 좋은 추천 알고리즘이 다른 경우나, 특정 시기 마다 주요 방문자들의 성향이 다름에 따라 결과값이 전혀 다르게 나오는 등 서비스의 Seasonality도 AB Test의 결과에 크게 영향을 끼칠 수 있으며, 때로는 크게 신경쓰지 않았던 작은 실수들이 AB Test 결과 자체를 크게 왜곡할 수 도 있습니다. (The top 3 mistakes that make your A/B test results invalid)

그리고 어떤 경우에는 너무 특정 가설에 대한 확신을 가지거나 조직 내에서 특정 방향성으로 이끌기 위해 AB Test의 환경을 의도적으로 설정하여 특정 결과가 나올 수 밖에 없도록 하는 경우도 발생을 합니다.

2-2. 복합 AB Test란?

복합 AB Test란 기존에 단순히 A안과 B안을 트래픽을 분할하여 테스트 하는 것이 아니라, 여러가지 Case를 설정하고 Case 별로 다른 A안과 B안을 테스트 하는 방식을 말합니다.

4가지 기부 버튼의 종류에 따른 전환 성과 A/B 테스팅 [사진 출처 : 제임스 컨테이블 블로그]

이러한 복합 AB Test 또한 가장 잘 알려진 것이 오바마 대선 당시 사용자의 가입 여부를 Case로 분리하고, 각 Case 별로 다른 버튼 테스트를 동시에 진행한 것이 있습니다.

위의 Case 별 AB Test 결과값이 보시면 알 수 있는 것처럼, 복합 AB Test를 활용을 하면 가입하지 않은 사용자와 가입했지만 기부하지 않은 사용자, 이미 과거에 기부했던 사용자 별로 적합한 버튼 문구가 전혀 다름을 알 수가 있습니다. 이러한 Case 또는 사용자들의 다른 성향을 고려하지 않고 단순한 A안과 B안만을 전체를 대상으로 테스트를 했으면, 가입하지 않은 사용자가 가장 많기에 Donate and Get a Gift 버튼이 승리하여 전체 적용이 되었을 수 있지만, 이러한 Case들을 고려했기 때문에 전체 성과를 더 극대화할 수 있었습니다.

그런데 가끔은 이러한 Case에 따른 복합 AB Test 과 다변수 AB Test (Multi-variate AB Test)를 착각하는 경우가 많습니다. Multi-variate AB Test는 동시에 여러 변수들을 테스트 하는 방식으로 User Case에 따라 다른 AB Test를 수행하고 결과를 극대화하는 것과는 다릅니다. 개인적으로 다변수 AB Test는 결과의 유의성을 심각하고 낮출 수 있기에 굳이 테스트 가능 기간이 짧은 것이 아니면 추천 드리지 않는 편입니다. (물론, 여러 UX적 요소들이 한 페이지에서 상호간에 영향을 끼칠 수 있을 경우 다변수 AB Test를 할 수 밖에 없는 경우도 있습니다.)

2-3. MAB(Multi-armed Bandit) Test를 통한 자동화

Multi armed 테스트의 개념

AB Test가 많아지고, Seasonality, 고객사의 카테고리에 따라 결과값이 매우 다른 경우 한 단계 더 진보된 개념으로 가장 잘 알려진 것인 Multi-Armed Bandit(이하 MAB) Test이다

MAB는 과거에 카지노에서 슬롯 머신 마다 다른 당첨 확률을 가지고 있어서, 동시에 여러개의 손을 가지고 있어서 여러개의 슬롯 머신을 돌리다가 당첨 확률이 높게 나오는 슬롯 머신을 더 많이 당기면 궁극적으로 이익률을 극대화할 수 있다는 개념에서 나왔다.

이것을 AB Test에 적용을 해보면, 단순한 AB Test는 3개의 Variation을 테스트 하다 가장 결과값이 높은 Variation을 결정하면 끝인데, MAB는 여러 Variation의 결과를 기간 별로 자동으로 측정하고 그 결과값에 따라 노출되는 트래픽의 분할 비율을 자동으로 늘려감으로써 궁극적으로 가장 높은 성과를 보이는 Variation을 자동으로 찾아가는 것이며, 이는 Seasonality 등에 따라서 낮은 가치를 보이던 Variation이 다시 떠오르기도 한다.

이러한 MAB 테스트는 때로는 상용 서비스 중인 대규모 서비스에서 아주 적을 비율의 실험군(5% 이하)에서만 테스트를 하다가 성과에 따라 전체 적용 비율을 늘려나가는 경우에 사용되기도 한다.

데이블 같은 개인화추천 서비스 기업이나 Optimizely 같은 전문 AB Testing Tool들은 이러한 MAB를 대부분 지원하며, 이는 자동으로 서비스 효율이 개선된다는 점에서 매우 유용하게 활용될 수 있다.

2-4. AB Test가 만능은 아니다.

하지만 그렇다면 이러한 AB Test는 모두 서비스나 제품에 만능일까?

스티브 잡스가 운영하던 애플은 대표적으로 AB Test를 하지 않는 기업으로 굉장히 유명하다. 그 이유는 AB Test가 궁극적으로 즐거움을 주고 '통합된 전체'라는 느낌을 전달하는 제품을 개발하는데는 기여하지 못 한다. (A/B 테스트는 좋은 결과물을 그저 선택하면 되기 때문에) 선택의 균형을 유지해야 할 필요성에 대한 인식도 없다. (애플이 AB Test를 하지 않는 이유)

조금 더 다른 해석을 찾아보면 어떻게 보면 스티브 잡스나 애플의 디자인 철학의 독선이라고 느껴질 수도 있지만, 대중의 선호를 묻는 AB Test는 결국에는 대중의 현재 선호를 따라갈 수 밖에 없고 아예 패러다임 자체를 바꾸는 혁신은 그 선호 자체를 바꾸는 것이 목적이라는 이야기를 한다.

실제로 많은 AB Test를 해보면은, 가장 효율이 좋게 나오는 AB Test는 사용자들에게 익숙한 경우일 때가 많다. 데이블이 수행했던 수 많은 AB Test 결과 중 한국에서만 유독 2x2 매트릭스 구조의 UI 보다 리스트 형태의 UI가 효율이 좋게 나오는 이유는 네이버가 리스트 형태의 UI를 많이 활용하기 때문이며, 해외에서는 2x2 매트릭스 구조의 UI가 더 좋게 적용이 되기도 한다.

따라서 AB Test는 만능이 아니며, 때로 사용자들의 선호자체를 바꿀 수 있는 위대한 혁신은 특정 리더의 강력한 직관에서 나오는 경우도 많다.

하지만 우리 모두가 스티브 잡스나 조나선 아이브는 아니기 때문에(ㅜㅜ) 여전히 AB Test는 매우 유용한 Tool이며, 현재로는 서비스의 세부 효율을 개선하여 전체 서비스 성과를 극대화 시킬 수 있는 가장 확실한 방법이다.

* 시간 부족으로, 이미지와 인용 출처를 전부 확인하지 못하였고, 최종 공개 전 확인할 예정입니다.

keyword

Digital Native Magazine 직업 컨설턴트

Digital Native, Agile Product Development, Monetization and Start-up

구독자 656