PO
구루님, 저 이상한 걸 발견했어요.
지난주 A/B 테스트 결과를 분석했는데요, 연령대별로는 B안이 항상 더 좋았거든요.
그런데 전체 데이터를 합쳐 보니까… A안이 더 나은 걸로 나와요.
이거, 뭔가 잘못 분석한 거겠죠?
구루
오, 아주 좋은 발견이네. 그게 바로 심슨의 역설이야.
PO
심슨...이요? 그 만화 심슨 가족이 아니라?
구루
하하, 이름은 같지만 통계학에서의 심슨은 좀 달라.
부분 집합에선 B안이 나은데, 전체를 합쳐 보면 A안이 더 좋아지는 역전 현상, 이걸 말하지.
PO
아니, 그게 어떻게 가능하죠?
각 연령대에서는 분명 B안이 더 나았잖아요.
근데 전체에선 A안이 이겼다고요?
구루
그래서 숫자를 해석할 때는 그 ‘구성’을 반드시 봐야 해.
예를 들어 이런 연령대 예시를 보자.
PO
잠깐만요…
각 연령대별로는 B안이 A안보다 전환율이 높은데,
전체 합치니까 A안 전환율이 낮아지는 게 아니라, 더 낮아져야 하는 거 아닌가요?
구루
여기선 B안이 전환율이 높지만, 연령대마다 유저 수가 다르기 때문에 전체 평균이 왜곡되는 거야.
B안은 대부분 10대가 몰려 있고, 그 집단은 원래 전환율이 높은 세그먼트잖아.
반대로 A안은 전환율이 낮은 20대가 대부분이고.
PO
아, 결국 전환율이 높은 세그먼트에 유저를 많이 배정하면,
그게 전체 성과를 밀어올릴 수 있다는 거군요.
구루
맞아. 그래서 우리가 단순히 “B안이 좋아”라고 말할 수 없는 거지.
이게 심슨의 역설이 보여주는 핵심이야.
숫자 자체는 사실이지만, 그 숫자가 누구의 평균이냐에 따라 완전히 다른 이야기가 될 수 있어.
PO
그럼 이런 일이 일어나지 않도록 하려면, 실험 설계에서 뭘 주의해야 해요?
구루
무조건 충분한 모수 확보, 그리고 무작위이면서 균형 잡힌 할당.
특히 A/B군을 나눌 때 세그먼트 간 분포가 비슷한지 꼭 확인해야 해.
한쪽에는 10대만, 다른 쪽엔 20대만 몰려 있으면, 실험 자체가 이미 기울어진 거지.
PO
그러면 꼭 연령대가 아니라도 이런 문제가 생길 수 있겠네요?
구루
물론이지. 신규 vs 기존 유저, 남성 vs 여성, iOS vs Android처럼
모든 ‘구분 가능한 세그먼트’에서 모수 차이가 있고, 성향 차이가 있으면
심슨의 역설은 언제든지 발생할 수 있어.
그래서 PO는 실험 결과만 보는 게 아니라, 그 실험의 구성과 조건도 반드시 점검해야 해.
그게 데이터 뒤의 진실을 읽는 자세지.