brunch

You can make anything
by writing

C.S.Lewis

by 고요한호수 Apr 08. 2021

퍼포먼스 매트릭스
- MAB vs AB테스트

난 마켓터, 그래 결심했어!

광고 소재 테스트, MAB vs AB테스트


광고 소재 (Creative) 테스트의 목적은 캠페인에서 어떤 광고 소재가 더 나은 효율성을 발휘하고 있는지 평가하는 것이다. 이를 위해 아래와 같이 AB테스트와 MAB(Multi Armed Bandit) 테스트를 설명해 보고자 한다. 이 두 가지 방법은 각각의 장점과 단점이 있으니 마케터 여러분들께서는 상황에 맞게 테스트해보시는 것을 권해드린다.


1. AB테스트

AB테스트는 A 광고 소재와 B 광고 소재의 퍼포먼스 평가 대결에서 승자와 패자를 가려내기 위해 설계된 것이다.

즉, AB테스트는 일정 규모의 소재를 일정 시간 테스트하고 난 후 챔피언을 가려내는 것이다. 탐색 단계를 거쳐 클릭, 전환율, 기타 다른 목표 대비 승자를 가려내고, 잔여기간 동안 승자를 이용하여 캠페인을 진행하는 것으로 방법을 이해하기 쉽우며 캠페인 설정 방법도 쉽다. 캠페인 초반 하나의 챔피언을 골라내야 하는 경우라면 정말 유용한 방법이다. 특히 완전히 다른 스타일의 소재를 테스트하거나 혹은 2-3개의 옵션만을 테스트한다면 더할 나위 없이 유용하다고 볼 수 있다. 동일한 유저군 - 예를 들면 대한민국에 있는 게임 이용자 - 을 대상으로 모든 광고 소재를 테스트하는 탐색 단계(exploration stage)챔피언 소재만으로 캠페인을 진행하는 활용 단계(exploitation stage)를 거치게 되는 AB테스트는 캠페인 대상, 캠페인 기간 등을 미리 설정해 놓을 수 있기 때문에 캠페인 소재가 최적화되지 않는 경우에 대비해서 캠페인 예산(비용)을 제한해서 운영할 수 있다. 

하지만 이러한 장점에도 불구하고 AB테스트를 진행하는 데 있어서 몇 가지 고려할 사항은 있다. 

1. 제한된 테스트만 진행한다는 것이다. 효율이 좋지 않은 소재를 찾아내기 위해 탐색 기간을 최대한 짧게 하고 테스트를 위한 유저 집단도 전체 유저 집단보다는 더 적은 규모의 유저 집단을 대상으로 테스트를 진행할 수밖에 없기 때문에 샘플 유저가 더 많은 유저풀, 혹은 전체 유저풀을 대변할 수 있는지 의문이 들 수 있다.

2. 더 많은 비용이 소요된다. 마케터는 AB테스트를 위해 가장 적은 규모의 유저 군에 비용을 투입한다 하더라도 결국은 A와 B 소재에 집행한 금액의 차이는 같게 된다. 즉, 효율이 좋지 않은 소재에 1%의 예산을 사용할 수도 있지만 50%를 사용할 수도 있다는 것이다.

3. 결국은 임의로 타협점을 찾아야 한다는 것이다. AB테스트는 최적의 방안이나 올바른 방안이 없다. 모집단의 규모, 예산, 소재, 그리고 다양성에 따라 결과는 달라지게 된다. 모집단의 규모가 크지 않거나, 혹은 A소재와 B소재 모두 우열을 가릴 수 없는 용호상박의 챔피언이거나 혹은 기타 다른 이유로 인해 실제 AB테스트를 통해 얻을 수 있는 이익이 크지 않을 수도 있다.


2. MAB (Multi-Armed Bandits) 

MAB는 슬롯머신을 연상하면 쉽게 이해할 수 있다. MAB는 대안을 제시하면서 더 복잡한 방식으로 광고 소재를 테스트할 수는 방안을 제공하고 있다. 즉 MAB는 카지노의 모든 슬롯머신을 최저의 비용으로 가장 빠르게 테스트하고자 하는 이론적인 알고리즘에서 출발하였으며 효율성이라는 측면에서 다양하게 나타난다.  

즉, "원하대로 테스트를 하세요"라는 슬로건을 가지고 있는 MAB는 출발점과 종착역이 있는 AB테스트와 반대되는 개념이 될 수 있으며, 모바일 애플리케이션의 캠페인 진행에 있어서 여러 소재를 동시에 테스트하고 효율에 따라 예산의 비중을 다르게 진행하면 된다. 

아래 그림에서 보듯이 MAB는 AB테스트와 달리 '챔피언" 소재를 찾아내기 위한 탐색 단계(exploration stage)와 활용 단계(exploitation stage) 구분 없이 서로 얽혀 있다.

MAB는 알고리즘을 통해 퍼포먼스의 효율을 평가하고 이에 따라 각각의 광고 소재에 소요되는 비용을 끊임없이 바꿔 나가는 것이다. 즉, 최고의 퍼포먼스를 내고 있는 소재가 가장 많은 광고비용을 소진하고 가장 효율이 낮은 소재는 가장 적은 비용의 광고 예산을 배정받으며, 각각의 광고 소재는 효율에 따라 예산 배정의 규모가 달라지는 것이다. 즉 AB테스트를 통해 챔피언 자리에 오르더라도 MAB에서는 효율이 떨어지면 또 다른 챔피언에게 왕좌를 양보해야 한다는 것이다. 

MAB는 탐색 단계(exploration stage)와 활용 단계(exploitation stage) 구분 없이 동시에 진행되기 때문에 AB 테스트보다 더 효율이 좋다고 알려져 있다. MAB에서는 작은 차이라도 감지하게 되면 효율이 더 좋은 곳으로 재빠르게 움직이기 때문에 AB테스트와 달리 실험이 끝날 때까지 기다릴 필요가 없으며, MAB 알고리즘은 더욱 빠르게 작동하고 각각의 소재가 다른 효율을 낸다면 더 낮은 비용으로 목표에 도달할 수 있다.

AB테스트를 통해 챔피언 소재를 확정하고 이를 통해 도달할 수 있을 것이라 예상한 퍼포먼스에 혹시라도 혹은 대부분 도달하지 못한다 하더라도 후회에 대한 캠페인 비용의 환불은 없다. 즉 계속해서 효율성을 최적화해나가는 MAB에 비해 챔피언만을 이용하는 AB테스트는 결과를 두고 후회할 가능성이 높다. 


MAB vs AB테스트

1. 데이터가 중요하다. AB테스트는 캠페인을 진행한 제한된 시간 내에 획득한 결과에 따라 캠페인을 진행하게 되지만 MAB는 데이터에 따라 결과가 계속해서 바뀌게 된다. 어떤 소재가 초반에는 효율이 좋을 수도 있지만 여러 요인의 영향을 받게 될 것이고 MAB는 데이터에 따라 계속해서 캠페인을 다양하게 진행하게 된다.  

2. 소재를 추가해야 한다. 다른 소재와 예산의 비중은 다른 결과를 만들어 낸다. 새로운 소재를 추가하면서 챔피언과 같이 테스트하는 것은 쉬운 일이다. 게다가 새로운 소재가 뜻밖에 혹은 당연하게도 더 많은 주목을 받게 된다면 당연히 더 많은 볼륨을 얻게 될 것이다.

3. 학습과 획득을 동시에 진행한다. 탐색과 활용이 합쳐지면서 MAB는 단가가 더 낮아지게 되며 최적화가 시작된 이후에도 계속해서 데이터는 수집하게 되므로 최적화는 더욱 빨라지게 될 것이다. 

4. 자동화. MAB는 머신러닝을 통해 광고 소재를 선정하며 최적화 작업이 자동으로 진행된다. 특히 다른 유저군 특징을 고려하여 AB테스트를 진행해야 할 때 더욱 효율적이며 MAB 알고리즘은 가장 유저에 접근한 단계에서부터 활성화되어 타깃 유저 군별 세부 항목에서 가장 적절한 광고 소재를 골라낼 수 있다. 


모바일 캠페인에서 AB테스트를 진행해야 한다면

위의 사례만 볼 때 MAB를 통해 캠페인을 진행해야 할 것 같고, 비용을 더 절감할 수 있으며, 더 빨리 원하는 결과를 도출할 수 있을 것 같아 보이지만 그럼에도 불구하고 AB테스트가 여전히 인기 있는 이유가 있다.

1. 모바일 애플리케이션을 새로 출시하였으며, 광고 소재를 결정하지 못한 상태에서 눈에 띌 정도로 다른 광고 소재를 각각 테스트하고 싶다면, AB테스트는 Yes/No를 결정하는 답이 될 것이다. 

2. 광고 소재가 2-3개 정도로 한정되어 있고 다양한 버전에 예산을 소진하고 싶지 않다면 AB 테스트는 가장 간단한 방법이 될 수 있다.

3. UA캠페인을 진행하는 주요 채널에서 MAB 기반의 최적화 캠페인을 진행하기 어렵고 AB테스트만 진행할 수 있거나 혹은 다양한 소재별로 테스트를 진행할 수 없는 경우라면 최소한 AB테스트를 진행하는 것이 더 나을 수도 있다. 


3. MAB 알고리즘의 종류

복잡한 주제이긴 하지만 마케터를 위해 좀 더 단순하게 MAB 모델을 설명하고자 한다. 


Epsilon Greedy

Epsilon Greedy 모델은 챔피언에게 가장 많은 예산을 배정하게 된다. 예를 들어 전체 예산의 80%를 챔피언에게 배정하고 나머지 20%는 챔피언을 제외한 나머지 광고 소재에 동일한 비율로 광고 예산을 배분하게 되는 것이다. 이는 얼핏 보면 AB테스트와 비슷해 보이지만 새로운 도전자가 다시 챔피언이 되어 왕좌를 계속해서 차지할 수 있다는 면에서 차이가 있다. 


Thompson Sampling

Epsilon Greedy와 비슷하다고 할 수 있지만 약간의 차이점이 있다. 위의 사례와 같이 전체 예산의 80%를 챔피언에게 배정하고 나머지 20%는 다른 광고 소재에 배정하는 것은 동일하지만 예산 배분에 있어서 각각의 소재에 동일하게 예산을 배정하는 것이 아니라 효율에 따라 각각의 소재에 차등하여 예산을 배분하는 것이다. 즉, A소재는 8%, B소재는 5%, C 소재는 4%, D소재는 3% 등과 같이 차등하여 예산을 배정하게 된다.


The Upper Confidence Bound(UCB)

Thompson Sampling과 다소 상이한 개념이 될 수 있는데, UCB는 효율이 낮은 소재가 적은 비율의 예산 배분과 연관이 있을 것이라는 가정하에 추가로 예산을 집행할 수 있는 여분의 주머니를 제공하는 것이다. 즉 추가로 배정받은 주머니에 있는 예산을 사용하여 좀 더 높은 가격의 비딩에 참여하게 되고 이는 LTV가 더 높은 유저를 찾아낼 수 있다.


Contextual Bandits

이름에서 볼 수 있듯이 context를 그룹화하여 MAB 알고리즘을 이용한다. 광고 소재 테스트에 있어서 성별, 위치, 혹은 다른 관련 사항을 그룹화하여 각각의 그룹별로 챔피언과 도전자를 지정하게 된다. 이는 전체 광고 소재와 유저 군에서 경쟁하는 대신 유저 군을 세분하고 하고 각각의 세분화된 조각에서 각각의 챔피언을 가지게 되는 것이다.


[위의 내용은 Persona.ly의 UA Glossary에서 발취하여 작성한 것이며 모든 저작권 및 소유권은 Persona.ly에 있음을 알려드립니다.]

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari