brunch

You can make anything
by writing

C.S.Lewis

by 해라 Aug 21. 2023

A/B 테스트 분석을 자동화하는 방법

분석 자동화 | 스플릿 테스트 | SPLIT TEST | A/B TEST

이전 글에서 데이터를 통한 의사결정의 중요성에 대해 이야기하면서, 의사결정을 위한 최소한의 데이터를 확보하는 방법으로 A/B 테스트 등의 실험을 이야기한 적이 있습니다.


A/B 테스트 등의 실험을 통해 의사결정을 한다는 것은 인과 관계를 확인한다는 의미이며, 인과 관계를 확인하기 위해서는 분석에 쓰이는 시간이 많아질 수밖에 없습니다.


실제로 최근에 다수의 실험을 진행하며 결과 분석에 쓰이는 시간이 많았습니다.

분석을 자동화하면 더 많은 시간을 실험 설계에 쓸 수 있겠다는 생각이 들어, 분석 자동화를 위한 Framework를 만들었습니다.


참고로 Framework는 에어비앤비의 기술 블로그를 참고해서 만들었습니다.


이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.

'A/B 테스트의 몇 가지 원칙' 바로가기 >




Experiment Reporting Framework

완성된 Framework의 모습을 먼저 보여드리면 아래와 같습니다.

Framework를 만들 때 가장 중요시했던 것은 매일 실험 Raw Data를 입력하는 것만으로도 실험이 잘 진행되고 있는지 확인할 수 있고, 실험 결과를 채택(Adeption)할지 기각(Rejection)할지 여부를 누구나 쉽게 알 수 있도록 하는 것이었습니다.



이어서 각 항목에 대해 조금 더 자세히 설명하겠습니다.


Metric / Conversion

Metric은 주요하게 개선하려는 '항목'을 선택하는 용도입니다.

여러 항목의 실험 데이터를 하나의 Framework에 적재할 예정이었기 때문에 Metric은 조금 넓은 범위로 잡았습니다.

Conversion은 Metric 내에서 개선하고자 하는 '상세한 지표'를 선택하는 용도입니다.

예를 들어서 Metric은 재방문이라면 Conversion은 Day 7 재방문율 등으로 정의할 수 있습니다.

다만, Metric과 Conversion 부분은 필요에 따라 하나만 사용하거나 원하는 단위로 변경해도 무방할 것 같습니다.


Control / Varient

Control의 경우는 통제 그룹을 의미하며, 실험의 영향을 받지 않는 그룹입니다.

Varient의 경우 실험의 영향을 받는 그룹이며, Varient1과 Varient2는 서로 다른 독립 변수의 영향을 받는 그룹으로 구분했습니다.

이 외에도 Varient는 Varient3, Varient4..., 등으로 독립 변수에 따라 그룹을 더 많이 나눌 수도 있습니다.

예를 들어서 Control에는 쿠폰 지급을 하지 않고, Varient1에는 20% 쿠폰 지급, Varient2에는 30% 쿠폰 지급을 하여 그룹을 나눠서 실험을 진행할 수 있습니다.


Percent Change / P-value

Percent Change는 Control 대비 Varient의 Conversion 차이이며, 우측에 전체 기간 동안의 변화량을 그래프로 표시해서 추이를 볼 수 있도록 했습니다.

이전 글에서 어떤 독립 변수가 종속 변수를 더 많이 개선 또는 변화시켰는지 확인하는 과정과 기존 성과와 비교 검증하는 과정이 필요하다고 설명했었는데, Percent Change가 바로 이런 역할을 수행하는 부분입니다.

P-value는 결과를 신뢰할 수 있는지 여부를 확인하는 부분이며, 0.05 미만일 때 통계적으로 유의하다고 할 수 있습니다.

P-value 역시 Percent Change처럼 우측에 전체 기간 동안의 변화량을 그래프로 표시해서 추이를 볼 수 있도록 했습니다.

* P-value에 대한 자세한 내용은 마케팅에 활용하는 통계 개념 에서 확인할 수 있습니다.


MDE (Minimum Detectable Effect)

MDE는 우리말로 최소감지효과를 의미합니다.

P-value와 함께 Sample size를 결정하는데 중요한 역할을 하는 요소입니다.

MDE는 비용 대비 효과가 얼마나 클 때, 실험 결과가 유의하냐를 기준으로 결정됩니다.

MDE에 대한 자세한 내용은 추후 다른 글로 다뤄보겠습니다.


Sample size

Sample size는 실험 표본 집단의 크기입니다.

실험을 종료해도 될지, 지속해야 할지 등을 결정하는 가이드라인이 되는 부분입니다.

Sample size가 너무 작으면 결과를 신뢰하기 어렵기 때문에, Sample size를 미리 계산하고 Varient의 size가 Sample size에 도달했는지 확인할 필요가 있습니다.


Guardrail

실험을 진행하다 보면 하나의 Metric에 긍정적인 영향을 미치는 변수가 다른 Metric에는 부정적인 영향을 미치는 경우가 자주 있습니다.

Guardrail은 이렇게 부정적인 영향을 미칠만한 Metric을 미리 식별하고 해당 Metric의 변화를 함께 확인하기 위한 항목입니다.


Result

앞서 설명한 Percent Change, P-value, MDE(Minimum Detectable Effect), Sample size, Guardrail을 모두 검토하여 최종적으로 결과를 채택(Adeption)할지, 기각(Rejection)할지 여부를 한눈에 확인할 수 있는 영역입니다.

앞서 설명한 모든 항목들이 다 중요하지만, 그 모든 항목을 다 이해하지 못하더라도 Result 영역만 확인하면 실험의 채택(Adeption), 기각(Rejection) 여부를 누구나 쉽게 알 수 있습니다.




데이터 기반 의사결정의 중요성은 이제 두말하면 입 아플 정도입니다.

그리고 실험은 의사결정을 돕는 정말 좋은 도구입니다.

분석을 자동화해서 실험 분석보다 실험 설계에 더 많은 시간을 할애할 수 있다면, 더 효과적인 테스트와 더 나은 의사결정을 할 수 있을 것입니다.


* 단, 이번 글에서 소개한 Framework의 경우 Sequential 한 실험에는 적절하지만, T-test 등을 기반으로 하는 실험에서는 활용이 어렵다는 한계가 있습니다.



작가의 이전글 클래스101에 [기초 수학·통계] 강의가 론칭됐습니다!

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari