brunch

Meta A/B 테스트로 30% 빠르게 의사결정하기

고객행동분석을 활용한 Meta의 A/B 테스트

by Harriet Jeong



흔히 A/B 테스트라고 하면 단순히 두 가지 버전을 만들어놓고 어떤 게 더 나은지 비교하는 정도로 생각한다.

Meta가 소개하는 A/B 테스트는 Mean2.0이라 불리는 방식을 사용한다.
즉, 회귀 조정 방식을 활용한 A/B 테스트이다.




회귀 조정 방식? Mean2.0이 뭐길래?



회귀 조정 방식이란 데이터를 비교하거나 분석할 때, 결과에 영향을 줄 수 있는 외부 요인을 통제하는 방식을 말한다. 이 방식에서 가장 주목할 만한 점은 개인 또는 집단의 행동 양식을 부가적인 기준으로 삼는다는 것이다. 메타는 Mean2.0으로 결과의 신뢰도를 30%나 향상시켰다고 한다.

cartist-hOGKh5qHNAE-unsplash.jpg ©Unsplash


예를 들면, A그룹과 B그룹의 학생들이 있다.
A그룹, B그룹에 서로 다른 학습 앱을 제공하고, 어떤 앱이 더 효과적인지 알아보고 싶어 A/B테스트를 진행했다. 결과를 보니 A그룹의 평균 점수가 80점이고, B그룹은 90점이 나왔다.

그러면 이 결과로 보았을 때 B그룹의 평균점수가 90점이니, B그룹 학생들이 쓴 학습앱이 성적향상에 더 효과적이라고 볼 수 있을까?

정답은 '확신할 수 없다' 이다.

학생들의 원래 성적, 공부 습관, 공부 시간, 앱 활용 능력 등 변수가 많기 때문에, 이 결과를 신뢰할 수는 없다.

그럼 이렇게 바꿔보자.

"공부 시간을 동일하게 맞췄다면 각 앱의 효과는 어떨까?"

두 그룹 학생들의 평균 공부 시간을 기준을 맞춰놓고, 앱을 사용하게 한 뒤 앱의 순수한 효과만 비교한다면

결과가 좀 더 명확할 것이다.




모든 기업이 회귀 조정 방식을 사용할 수 있을까?

스크린샷 2024-12-27 001021.png ©Meta


예를 간단하게 들어서 그렇지, 이런 정교한 방법론을 실제로 적용하는 건 쉽지 않다.
Meta의 사례를 보면 단순한 통계 분석을 넘어서 CUPED 방법론에 필요한 데이터 처리 최적화부터 시작해 시스템 확장성까지, 고려해야 할 요소가 너무나 많다.

(CUPED는 *Causal Inference Using Pre-Experiment Data*의 줄임말로, 실험 전에 사용자의 행동 데이터를 활용해 실험 결과를 보정하는 기술이다. 그냥 사용자의 행동 데이터를 객관적으로 볼 수 있는 기술이라고 생각하자.)


Meta의 접근법에서 배울 점은, 정교한 시스템(배치, 알고리즘)과 유연한 시스템(애드혹 가설)을 병행했다는 점이다.
완벽한 방법은 없다는 걸 인정하고, 상황에 맞게 절충점을 찾아간 것이다.





이런 맥락에서 기획자가 고민해야 할 지점들이 보인다. A/B 테스트를 설계할 때 우리는 얼마나 정교한 분석이 필요한지, 어느 정도의 신뢰도면 충분한지, 그리고 이를 위해 어떤 자원을 투입할 수 있는지를 현실적으로 판단해야 한다.

어떤 방식으로 테스트하고, 어떻게 결과를 해석하고, 그것을 어떻게 의사결정에 반영할지도 다 다르다.
때로는 완벽한 분석보다 빠른 피드백이 더 중요할 수 있고, 때로는 더 정교한 분석을 위해 시간을 투자할 가치가 있을 것이다.

스크린샷 2024-12-27 000540.png


그래서 우리는 A/B 테스트를 단순한 도구가 아닌, 조직 문화의 일부로 보아야 한다.

조직이 A/B테스트를 시행하는 목적이 완벽하게 분석하기 위함인지, 빠르게 분석하고 피드백을 받을지, 시간을 더 투자해봐야하는지는 다 다르기 때문에 각 기업의 분위기에 따라 다르다는 것이다.


A/B 테스트의 근본적인 목적은 더 나은 제품을 만들기 위해, 더 나은 의사결정을 하기 위해서임을 다시한번 되새겨 본다면, 우리 고객에 대한 이해도는 필수라는 것을 알 수 있다.


keyword
매거진의 이전글카드 슬래시 하게 되는 Hook기법