brunch

A/B 테스트, 대조군도 쿠폰을 받는다면?

불완전한 실험을 해석하는 세 가지 방법

by 이건승

교과서 속 A/B 테스트는 언제나 깔끔합니다. 실험군은 새로운 처치를 받고, 대조군은 아무런 영향을 받지 않습니다. 하지만 현실은 다릅니다. 예를 들어, 플랫폼에서 공통 쿠폰(B) 이 모든 사용자에게 열려 있는 상황을 생각해 봅시다. 그리고 우리는 추가로 실험군에게만 제공하는 쿠폰(A)의 효과를 보고 싶습니다.


문제는 대조군도 B를 받고 있다는 점입니다. 즉, “깨끗한 대조군”이 존재하지 않기 때문에, 단순 비교만으로는 A의 순수한 효과를 알기 어렵습니다.


왜 문제가 될까?


대조군이 이미 B의 영향을 받고 있으므로, baseline이 왜곡됩니다. 따라서 단순히 실험군(A+B)과 대조군(B)을 비교하면

✔️ 효과가 희석되거나

✔️ 반대로 과대추정될 수 있습니다


다만 엄밀히 말하면, A가 무작위 배정되고 실험 기간 동안 B의 분포가 A와 독립이라면 단순 A/B 차이는 (A+B) 대비 (B)의 평균 인크리멘탈을 올바르게 추정합니다. 문제는 층별(B=0/1) 이질성이나 잠식 정도가 드러나지 않는다는 점입니다. 따라서 이를 보완하기 위해 계층화(Stratified)상호작용 모델링이 필요합니다.


비유하자면 무대에 이미 파란 조명(B)이 켜져 있는 상태에서 빨간 조명(A)을 더하는 것과 같습니다.

전체 밝기만 보면 빨간 조명의 고유한 효과를 알아내기 어렵습니다.

W%2B7zVCzovAjJ4%3D


예제로 확인하기


이 문제를 직관적으로 보여주기 위해, 20만 명의 사용자를 가정해 데이터를 생성했습니다.

✔️ B(공통 쿠폰) : 약 60% 노출

✔️ A(추가 쿠폰) : 50% 랜덤 배정


세 가지 방법(① 단순 A/B, ② Stratified, ③ 상호작용 모델)을 적용한 결과는 아래와 같습니다.

결과 (전환율 차이, 퍼센트포인트 기준)

Naive A/B : +2.36pp (95% CI 2.07~2.66)

Stratified by B : +2.38pp (95% CI 2.08~2.68)

Model (g-computation) : +2.45pp

fst_chart.png



세 가지 해석 방법


1. 차분(순증분) 접근 - "공통 쿠폰을 baseline으로 두자"

대조군이 이미 B를 받으니, (A+B) − (B) = A의 추가 효과로 봅니다. 즉, 공통 쿠폰 B를 baseline으로 삼아, 추가 쿠폰 A가 가져다주는 순수 효과만 따로 떼어내는 방식입니다.


예제 데이터 (시뮬레이션 결과)

스크린샷 2025-09-05 오후 11.27.19.png

✔️ B=0 (공통 쿠폰 없음)

대조군 전환율: 7.9%

실험군 전환율: 12.3%

차이: +4.4pp

이 층의 사용자 비중: 약 40%

✔️ B=1 (공통 쿠폰 있음)

대조군 전환율: 15.0%

실험군 전환율: 16.1%

차이: +1.1pp

이 층의 사용자 비중: 약 60%

스크린샷 2025-09-05 오후 11.25.57.png

공통 쿠폰이 없는 환경에서는 A가 강하게 작용하지만, 공통 쿠폰이 있는 환경에서는 효과가 희석됩니다. 이 방법은 단순하면서도 실무 적용이 쉽습니다. 즉, “희석된 인크리멘탈”을 평균치로 추정하는 방식이라고 할 수 있습니다.


2. 상호작용 모델링 — “A와 B의 관계까지 반영하자”

로지스틱 회귀에 A, B, A×B 항을 모두 포함시켜 A와 B가 어떻게 상호작용하는지를 계량화합니다. 특히 A×B 항은 두 쿠폰이 동시에 주어졌을 때 효과가 잠식되는지, 혹은 시너지가 있는지를 보여줍니다.


하지만 계수(β) 자체만으로는 “평균적으로 A가 얼마만큼 전환율을 올려주는지(=ATE)”를 직관적으로 해석하기 어렵습니다. 그래서 g-computation을 통해 현실의 사용자 분포(B=0/1, x, y_pre)를 반영한 평균 인크리멘탈 효과를 계산합니다.


예제 데이터 (시뮬레이션 결과)

스크린샷 2025-09-05 오후 11.32.58.png

⋅ A 계수 = +0.56 → A 자체는 전환율을 올리는 효과가 있다

⋅ B 계수 = +0.81 → 공통 쿠폰 B만으로도 전환율이 크게 상승한다

⋅ A×B 계수 = −0.45 → 하지만 B가 있는 상태에서는 A의 효과가 거의 사라진다(잠식)

⋅ g-comp ATE = +2.45pp

스크린샷 2025-09-05 오후 11.42.51.png

참고로 g-comp란?

모든 사용자에게 “A=1인 세상”을 가정해 전환 확률을 예측한다.

같은 사용자에게 “A=0인 세상”을 가정해 전환 확률을 다시 예측한다.

두 상황의 차이를 평균내면 평균 처리 효과(ATE)가 된다.

즉, g-comp는 단순히 한 그룹의 평균 차이를 보는 것이 아니라, 모델이 학습한 계수(β)를 바탕으로 전체 사용자 분포를 반영해 평균 인크리멘탈을 추정하는 방법입니다.


이를 다시 해석하면,

B가 없는 환경에서는 A의 효과가 뚜렷하다(+0.56).

하지만 B가 있는 환경에서는 A 효과가 사실상 미미하다(+0.11).

따라서, 공통 쿠폰이 깔린 환경에서 추가 쿠폰의 인크리멘탈은 실제보다 작게 나타난다.

g-comp ATE = +2.45pp는 이런 현실을 반영한 평균적 순증분 효과다.


상호작용 모델링은 “대조군도 영향을 받을 때 A의 효과가 어떻게 희석되는지”를 수치로 드러냅니다. 여기에 g-comp를 결합하면, 계수 해석을 넘어서 전체 사용자 기준으로 봤을 때 A가 실제로 얼마나 전환율을 끌어올리는지를 추정할 수 있습니다. 따라서 단순 비교보다 훨씬 현실적인 해석이 가능합니다.


3. 3군 설계 — “대조군 문제를 원천 차단하자”

앞선 방법들은 모두 “대조군도 B를 받는다”는 한계를 안고 있습니다. 이를 원천적으로 해결하려면 실험 설계 단계에서 집단을 세분화하는 것이 가장 확실합니다.


즉, 사용자들을 세 개 그룹으로 나눕니다.

✔️ B만 받는 그룹 → 공통 쿠폰만 받는 집단

✔️ A만 받는 그룹 → 추가 쿠폰만 받는 집단

✔️ A+B 그룹 → 공통 쿠폰과 추가 쿠폰을 동시에 받는 집단


이렇게 설계하면, A와 B 각각의 단독 효과와 동시에 줬을 때의 결합 효과를 모두 직접 관찰할 수 있습니다.


예제 데이터 (시뮬레이션 결과)

B만 : 전환율 15%

A만 : 전환율 12%

A+B : 전환율 16%

secd_chart.png

✔️ A 단독 효과 : 대조군 대비 +12% → A만으로도 어느 정도 효과 있음

✔️ B 단독 효과 : 대조군 대비 +15% → B만으로도 효과가 큼

✔️ A+B 결합 효과 : 16%에 그침


만약 단순 합산이라면 A와 B를 동시에 주면 27%까지 올라야 합니다. 그러나 실제는 16% → 효과가 겹치면서 서로 잠식(cannibalization)되었다는 것이 명확히 드러납니다. 즉, 3군 설계를 하면 A, B 각각의 순수 효과뿐만 아니라, 두 쿠폰을 동시에 줬을 때의 상호작용까지 실험 데이터에서 직접 확인할 수 있습니다.

third_chart.png

3군 설계는 가장 직관적이고 설득력이 큰 방법입니다. “쿠폰이 서로 잠식하는가, 시너지가 있는가”를 논쟁할 필요 없이, 데이터를 통해 바로 보여줄 수 있습니다.


하지만 단점도 분명합니다. 필요한 샘플 사이즈가 늘어나고, 각 그룹의 운영 정책을 별도로 관리해야 하며, 비용과 정책 제약 때문에 현실적으로 매번 쓰기는 어렵습니다. 따라서 실험 설계에 충분한 리소스와 유연성이 있을 때, 전략적으로 중요한 쿠폰/혜택 정책을 검증해야 하는 순간에 고려할 수 있는 옵션입니다.


1번부터 3번까지의 해석 방법을 표로 요약하면 아래와 같습니다.

스크린샷 2025-09-06 오전 12.00.03.png


끝으로


이번 글에서 다룬 세 가지 방법은 각각 다른 활용 가치를 가집니다.

✔️ 차분(순증분) 접근

→ 단순하고 빠르게 적용 가능. 공통 쿠폰으로 인해 희석된 인크리멘탈을 현실 분포에 맞춰 추정할 수 있다.

✔️ 상호작용 모델링 + g-computation

→ A와 B의 상호작용을 계량화하고, g-comp를 통해 현실 환경 전체에서의 평균 효과를 추정할 수 있다.

→ “잠식이 어느 정도 있는지”를 설명할 수 있어, 단순 비교보다 훨씬 설득력이 크다.

✔️ 3군 설계

→ 가장 투명하고 직관적. A, B, A+B 효과를 직접 분리해 보여줄 수 있다.

→ 다만 샘플 사이즈, 운영 정책상의 비용 부담이 크므로 전략적으로 중요한 의사결정에 선택적으로 활용하는 것이 현실적이다.


핵심은 “대조군이 이미 영향을 받는 환경에서, 추가 처치(A)의 순수 효과를 어떻게 해석할 것인가”입니다.


단순 비교만으로는 효과를 과소평가하거나 과대평가할 위험이 있습니다. 상호작용 모델과 g-computation은 그러한 한계를 보완하여, 현실을 반영한 평균 효과를 보여줍니다. 3군 설계는 비용과 제약이 크지만, 가장 명확하고 직관적인 결과를 제공합니다.


실험은 언제나 완벽할 수는 없습니다. 그러나 불완전한 실험일지라도 이를 해석할 수 있는 도구와 언어를 갖춘다면, 충분히 의미 있는 인사이트를 얻을 수 있습니다. 여러분이 현장에서 마주할 다음 실험에서도, 오늘 소개한 세 가지 방법 중 상황에 맞는 해석 도구를 선택해 보시길 바랍니다.

keyword
이전 23화푸시, 프로모션, 멤버십… 무엇이 고객을 바꿀까?