고객행동분석을 활용한 Meta의 A/B 테스트
흔히 A/B 테스트라고 하면 단순히 두 가지 버전을 만들어놓고 어떤 게 더 나은지 비교하는 정도로 생각한다.
Meta가 소개하는 A/B 테스트는 Mean2.0이라 불리는 방식을 사용한다.
즉, 회귀 조정 방식을 활용한 A/B 테스트이다.
회귀 조정 방식이란 데이터를 비교하거나 분석할 때, 결과에 영향을 줄 수 있는 외부 요인을 통제하는 방식을 말한다. 이 방식에서 가장 주목할 만한 점은 개인 또는 집단의 행동 양식을 부가적인 기준으로 삼는다는 것이다. 메타는 Mean2.0으로 결과의 신뢰도를 30%나 향상시켰다고 한다.
예를 들면, A그룹과 B그룹의 학생들이 있다.
A그룹, B그룹에 서로 다른 학습 앱을 제공하고, 어떤 앱이 더 효과적인지 알아보고 싶어 A/B테스트를 진행했다. 결과를 보니 A그룹의 평균 점수가 80점이고, B그룹은 90점이 나왔다.
그러면 이 결과로 보았을 때 B그룹의 평균점수가 90점이니, B그룹 학생들이 쓴 학습앱이 성적향상에 더 효과적이라고 볼 수 있을까?
정답은 '확신할 수 없다' 이다.
학생들의 원래 성적, 공부 습관, 공부 시간, 앱 활용 능력 등 변수가 많기 때문에, 이 결과를 신뢰할 수는 없다.
그럼 이렇게 바꿔보자.
"공부 시간을 동일하게 맞췄다면 각 앱의 효과는 어떨까?"
두 그룹 학생들의 평균 공부 시간을 기준을 맞춰놓고, 앱을 사용하게 한 뒤 앱의 순수한 효과만 비교한다면
결과가 좀 더 명확할 것이다.
예를 간단하게 들어서 그렇지, 이런 정교한 방법론을 실제로 적용하는 건 쉽지 않다.
Meta의 사례를 보면 단순한 통계 분석을 넘어서 CUPED 방법론에 필요한 데이터 처리 최적화부터 시작해 시스템 확장성까지, 고려해야 할 요소가 너무나 많다.
(CUPED는 *Causal Inference Using Pre-Experiment Data*의 줄임말로, 실험 전에 사용자의 행동 데이터를 활용해 실험 결과를 보정하는 기술이다. 그냥 사용자의 행동 데이터를 객관적으로 볼 수 있는 기술이라고 생각하자.)
Meta의 접근법에서 배울 점은, 정교한 시스템(배치, 알고리즘)과 유연한 시스템(애드혹 가설)을 병행했다는 점이다.
완벽한 방법은 없다는 걸 인정하고, 상황에 맞게 절충점을 찾아간 것이다.
이런 맥락에서 기획자가 고민해야 할 지점들이 보인다. A/B 테스트를 설계할 때 우리는 얼마나 정교한 분석이 필요한지, 어느 정도의 신뢰도면 충분한지, 그리고 이를 위해 어떤 자원을 투입할 수 있는지를 현실적으로 판단해야 한다.
어떤 방식으로 테스트하고, 어떻게 결과를 해석하고, 그것을 어떻게 의사결정에 반영할지도 다 다르다.
때로는 완벽한 분석보다 빠른 피드백이 더 중요할 수 있고, 때로는 더 정교한 분석을 위해 시간을 투자할 가치가 있을 것이다.
그래서 우리는 A/B 테스트를 단순한 도구가 아닌, 조직 문화의 일부로 보아야 한다.
조직이 A/B테스트를 시행하는 목적이 완벽하게 분석하기 위함인지, 빠르게 분석하고 피드백을 받을지, 시간을 더 투자해봐야하는지는 다 다르기 때문에 각 기업의 분위기에 따라 다르다는 것이다.
A/B 테스트의 근본적인 목적은 더 나은 제품을 만들기 위해, 더 나은 의사결정을 하기 위해서임을 다시한번 되새겨 본다면, 우리 고객에 대한 이해도는 필수라는 것을 알 수 있다.