brunch

You can make anything
by writing

C.S.Lewis

by 정경문 May 17. 2022

23 할인쿠폰과 적립쿠폰은 구매효과차이가 있을까?

내가 분석한 데이터가 맞는지 틀리는지 검증이 필요할 때 P-Value

데이터 분석가 남편 일루와 봐


지난번 아내의 쇼핑몰에서 데이터와 결과에 맞는 "결론"을 내려준 것이 마음에 들었는지, 남편을 다시 불렀습니다. 오오! 조금 신뢰가 쌓인 걸까요?


"이번 봄을 맞이해서 온라인 쇼핑몰에서 행사를 하려고 해. 근데 할인 쿠폰을 줘야 할지 적립 쿠폰을 줘야 할지 모르겠어!"


'음,, 이건 조금 어려운 문제인데,,, 좀 쉽게 설명할 순 없을까?' 속으로 생각이 듭니다.


"일단 좀 고민해보고 내일 알려줄게!"

"뭐야, AI가 바로 답을 못 내려? ㅎㅎ 알았어 하루 줄게"



# 01. 할인 쿠폰과 적립 쿠폰중 어떤걸 발행할까?


아내에게 받은 쇼핑몰 과제에 대한 실험을 합니다. 일단 두 가지 쿠폰이 있다고 가정할게요.
A 할인 쿠폰과 B 적립 쿠폰. A "할인" 쿠폰과 B "적립" 쿠폰은 다릅니다.


A 할인쿠폰과 B 적립 쿠폰은
효과 차이가 있을까?


그리고 아내는 A 할인쿠폰과 B 적립 쿠폰의 효과에 차이가 있는지 알고 싶습니다.

그래서 A 할인쿠폰을 1명에게 주었고, 그리고 다른 1명에게 B 적립 쿠폰을 주었습니다.

A 할인쿠폰을 받은 한 사람은 구매를 했고, B 적립 쿠폰을 받은 한 사람은 구매를 하지 않았습니다.


그렇다면 A 할인쿠폰이 >  B 적립 쿠폰보다 더 좋다고 결론을 내릴 수 있을까요?

아닙니다.



B 적립 쿠폰은 여러 가지 다른 이유들 때문에 구매까지 연결에 실패했을 것입니다.


예를 들어 아마 이 사람이 B 적립 쿠폰에 적립금을 사용할 수 없는 상황(오류, 출국 등) 일 수도 있죠 또는 B 적립 쿠폰에 대해 극도로 싫어하는 특이한 성향을 가지고 있을 수도 있습니다. 아니면 또 이 사람이 B 적립 쿠폰을 제대로 사용할 줄 모르거나, 적립 쿠폰을 받은 사실을 잊어버렸을 수도 있습니다.


아니면 A 할인쿠폰이 구매를 하려고 마음먹었던 사람에게 우연히 배달되었을 수도 있습니다.

검증을 할 때에는 이렇게 이상하고 우연한 상황들이 많이 포함되어 있을 수 있습니다.


이것은 각 쿠폰을 1명의 사람보다 더 많은 사람에게 실험해야 한다는 것을 의미합니다.

동의하시죠?





그래서 우리는 다시 실험을 합니다. 하지만 이번에는 각 쿠폰을 다른 2명의 사람에게 주었습니다.

이번에는 A 할인쿠폰을 받은 두 명 모두 구매를 하였습니다.
그리고 B 적립 쿠폰을 받은  사람 중에 한 명은 구매를 하고, 다른 한 명은 구매를 하지 않았습니다.


결론으로 A 할인쿠폰이 더 좋다고 말할 수 있나요? ( A 할인쿠폰 > B적립 쿠폰 )
아니면 여전히 A 할인쿠폰과 B 적립 쿠폰은 같다고 할 수 있나요? ( A할인쿠폰 = B적립 쿠폰 )


우리는 두 가지 질문에 답할 수 없습니다.

 
왜냐하면 B 적립 쿠폰을 받은 첫 번째 사람에게, 아니면  B 적립 쿠폰을 받은 두 번째 사람에게 어떤 이상한 일이 일어났을 수도 있기 때문입니다. 예를 들면 쿠폰에 표시를 잘못해서 실제로는 A 할인쿠폰을 주었고 그것이 구매로 이어졌을 수도 있습니다. 또 B 쿠폰을 받은 사람이 마음이 변해서 다른 가게에서 구매했을 수도 있습니다.



# 02. 많은 사람들에게 실험을 해봐야 하지 않겠어?


네, 그래서 이제는 아주 많은 사람들에게 쿠폰을 테스트합니다.

이것이 그 결과입니다.

A 할인 쿠폰 : 구매 1043, 구매 안 함 3
B 적립 쿠폰 : 구매 2, 구매 안 함 1432

A 할인쿠폰은 많은 사람들(1043명)이 구매를 하였습니다. 구매하지 않은 사람들 3명에 비해서 말입니다.

다시 말해, A 할인쿠폰을 받은 사람 1046명 중에서 99.7%가 구매하였습니다.


반대로 B 적립 쿠폰은 구매한 사람이 아주 적습니다. 2명. B 적립 쿠폰을 받고 구매하지 않은 사람들 1432명에 비해서 말입니다.

즉, B 적립 쿠폰을 받은 사람 1434명 중 구매한 사람은 단지 2명, 0.1% 밖에 안됩니다.


만약 이것이 결과라면 A 할인쿠폰이 B 적립 쿠폰보다 좋다는 것이 꽤나 명백해 보입니다.

다시 말해, '이 결과가 우연한 것들에 의해서 만들어졌고, 두 쿠폰이 차이가 없다'라고 생각하는 것은 맞지 않습니다.


만약에 A 할인쿠폰을 받은 사람들 중 몇 명이 기분이 좋아 그냥 구매를 되었다면, 그리고 B 적립 쿠폰을 받은 사람들 중에서 적립 쿠폰을 사용할 수 없는 상황 때문에 구매를 되지 않았다고 해볼게요. A 할인쿠폰에 의해 구매된 사람들이 매우 많고, B 적립 쿠폰으로 구매된 사람이 매우 적기 때문에, 이 결과가 단순히 우연에 의한 이유 때문은 아니겠죠! 그리고 "A 할인쿠폰이 B 적립 쿠폰보다 더 좋지 않다" 거나, 거꾸로 "더 나쁘다"라고 말하지는 않을 것입니다.




# 03. 만약 실험 결과가 애매하다면 어쩌지?


이와는 대조적으로 결과가 이렇다고 하면 어떨까요?

A 할인 쿠폰 : 구매 73, 구매 안 함 125 (37% 구매)
B 적립 쿠폰 : 구매 59, 구매 안 함 131(31% 구매)


A 할인쿠폰을 받은 사람들 중 37%만이 구매했습니다. 그리고 B 적립 쿠폰을 받은 사람들은 31%가 구매했습니다. 그렇다면 A 할인쿠폰이 좀 더 많은 사람들을 구매하도록 했군요.


하지만 모든 테스트가 완벽하지 않고, 항상 우연한 상황들이 존재하는 상태에서 어떻게 A 할인쿠폰이 더 우수하다고 확신할 수 있을까요?


바로 이 지점이 P 값이 필요한 이유입니다.


그럼 P 값이 뭘까요? P값에서 'P'는 영어로 PROBABILITY (확률) 니다. 그러니까 P값은 "확률 값"이라는 말입니다. 확률이니까 0과 1 사이의 숫자가 되겠네요. P값을 이용하면 A 할인쿠폰과 B적립 쿠폰의 차이에 대해 얼마만큼 확신할 수 있을지를 정량화할 수 있습니다. P값이 0에 가까울수록 “A 할인쿠폰과 B 적립 쿠폰의 차이가 있다” 고 확신할 수 있습니다.


그럼 질문이 있습니다.

P값이 얼마나 작아야 A할인쿠폰과 B적립 쿠폰이 차이가 있다고 우리는 자신 있게 말할 수 있을 까요? 다른 말로 표현하면, 합리적인 의사결정을 할 때 그 경곗값이 얼마일까요?


P 값은 0.05보다 작아야 돼


결론적으로 말해서 실무에서 사용되는 이 경곗값은 0.05입니다.

A할인쿠폰과 B적립 쿠폰의 차이가 없고, 이러한 실험을 아주아주 많이 반복했다고 가정했을 때, 5%의 실험의 결과만이 틀린다는 것을 의미합니다.

아직 잘 모르시겠다고요? 그렇다면 하나하나씩 예를 들어 설명해볼까요?




# 04. 만약 실험 결과가 애매하다면 어쩌지?


[ 다른 그룹 / 같은 쿠폰 ]


그럼  이번에는 두 개의 다른 그룹에, 같은 쿠폰 A할인쿠폰을 줬다고 가정해봅시다.

이제 결과의 차이는 100% 우연한 것. 그러니까 쿠폰에 의한 것이 아니라고 하겠습니다.

한 그룹은 극도로 적립을 싫어해서 쿠폰을 안 쓰고, 다른 한 그룹은 무조건 지르는 충동구매가 강한 사람들처럼 말이죠.


A 할인 쿠폰 : 구매 73, 구매 안 함 125
A 할인 쿠폰 : 구매 71, 구매 안 함 127
P-값 : 0.9


이 경우에 P값은 0.9입니다. 0.05보다 훨씬 큰 값입니다. 0.9 > 0.05

바로 이 경우, 우리는 “두 그룹 간에 차이가 없다!” = “차이를 증명하는데 실패(기각)했다.”라고 이야기합니다.


“두 그룹 간에 차이가 없다!” = “차이를 증명하는데 실패(기각)했다.”


우리가 같은 실험을 계속 계속 반복한다면 대부분의 경우, 매우 큰 P값을 계속 같게 될 것입니다.


A 할인 쿠폰 : 구매 71, 구매 안 함 127
A 할인 쿠폰 : 구매 72, 구매 안 함 126
P-값 : 1

...(계속 반복)

A 할인 쿠폰 : 구매 75, 구매 안 함 123
A 할인 쿠폰 : 구매 70, 구매 안 함 128
P-값 : 0.7




그러나 가끔씩 적립을 극도로 싫어하는 모든 사람이 왼쪽 그룹에 속할 수도 있고,

알림만 오면 사는 강한 충동구매를 하는 모든 사람들이 오른쪽 그룹에 속할 수도 있습니다.


A 할인 쿠폰 : 구매 60, 구매 안 함 138(30% 구매)
A 할인 쿠폰 : 구매 84, 구매 안 함 114(42% 구매)
P-값 : 0.01


결과적으로 이러한 특수한 실험에서는 결과가 꽤 다르게 나오기 때문에 P값은 0.01이라는 작은 값이 됩니다.

그러므로 이경우 두 그룹은 모두 같은 쿠폰을 주었음에도 불구하고" 두 그룹 간에는 차이가 있다." 고 말할 수 있습니다. 같은 A할인쿠폰을 주었는데 결과가 다르다? 정말 틀렸네요?


실제로는 차이가 없지만 작은 P값을 얻는 것을
거짓 양성(FALSE POSITIVE)이라고 합니다.


P값의 경곗값이 0.05라는 것은 5% 실험만이 우연에 의한 것들에 의해 차이가 난다는 것을 말합니다.

다시 말해, A할인쿠폰과 B적립 쿠폰의 차이가 없다면, 5%의 실험만이 P값이 0.05보다 작게 나올 것입니다.(나머지 95%는 전부 P값이 크게 나올 겁니다)



쿠폰의 차이가 있다고 말하는 것이 극단적으로 중요하다면

0.0001과 같이 더 작은 경곗값을 사용할 수도 있습니다. 예를 들어 10만 원짜리 쿠폰을 발행한다고 가정해볼 때 말이죠. 경곗값 0.0001을 사용한다는 의미는 거짓 양성을 1만 번 실험 중에 딱 1번만 얻는다는 것을 의미합니다.


이와 반대로, 그다지 중요하지 않은 문제에 대해서는 어떨까요?

예를 들면 500원짜리 쿠폰의 효과에 예측하는 문제에서는 0.3와 같은 좀 더 큰 경곗값을 설정할 수도 있습니다. 경곗값 0.3을 사용한다는 의미는 거짓 양성을 10번 실험 중에 3번 얻는다는 것을 의미합니다. 거짓 양성을 5% 미만으로 줄이기 위해 노력하는 것은 종종 가성비가 떨어지기 때문에 대부분 일반적인 경곗값 0.05를 사용합니다.


다시 처음으로 돌아와서, 우리가 이 실험에서 P값을 계산했고, 그 값이 0.05보다 작다면 A 할인쿠폰과 B 적립 쿠폰은 차이가 있다고 결정을 내릴 것입니다. 그런데 실제로 계산해보니까 P값은 사실 0.24가 나왔네요. 이럴 경우 A 할인쿠폰과 B 적립 쿠폰은 차이가 난다고 확신할 수가 없습니다.


[결론] A 할인쿠폰 와 B 적립 쿠폰을 뿌렸을 때 효과에 차이가 있는가?


없다!


A 할인 쿠폰 : 구매 73, 구매 안 함 125 (37% 구매)
B 적립 쿠폰 : 구매 59, 구매 안 함 131 (31% 구매)
P-값 = 0.24


# 05. 지금까지 여러분은 가설 검증을 하신 거예요. 그 어려운!


마지막으로 두 가지 정리하고  끝내겠습니다.

오늘 조금 머리를 쓰면서 쿠폰에 효과가 있는지 없는지를 살펴보았습니다. 쿠폰에 차이가 있는지 없는지를 결정하기 위해 노력하는 것을 멋진 말로 "가설 검증(HYPOTHESIS TESTING)"이라고 합니다.


그리고 앞서 살펴본 또 다른 멋진 용어 P값은 우리의 실험을 신뢰할 수 있는 수준으로 "실험이 불확실한 정도"로 이해하시면 좋을 것 같습니다.

여기서 두 번째 정리가 있습니다.

P값이 더 작을수록  효과의 차이가 큰 것은 아니다


좀 이해가 안 되신다고요? 사실 좀 흥미롭습니다.(저로서는^^)

작은 P값이 "A할인쿠폰과 B적립 쿠폰의 차이가 있다"는 것을 말해주지만, 그들이 얼마나 다른지는 말해주지 않습니다. 다시 말해 A할인쿠폰과 B적립 쿠폰의 차이의 크기에 관계없이 작은 P값을 얻을 수 있습니다. 그 차이는 작거나 클 수 있습니다.


A 할인 쿠폰 : 구매 73, 구매 안 함 125 (37% 구매)
B 적립 쿠폰 : 구매 59, 구매 안 함 131 (31% 구매)
P-값 = 0.24


예를 들어 위의 실험에서는 A 할인쿠폰과 B 적립 쿠폰이 6% 차이가 있음에도 불구하고, 이 실험은 0.24라는 큰 P 값이 나왔습니다.


A 할인 쿠폰 : 구매 5005, 구매 안 함 9868 (34% 구매)
B 적립 쿠폰 : 구매 4800, 구매 안 함 9000(35% 구매)
P-값 = 0.04

반면에 아주 많은 사람들이 참가한 이 실험에서는 0.04라는 아주 작은 P값을 얻었습니다.

심지어 주어진 데이터에서는 A 할인쿠폰과 B 적립 쿠폰의 차이가 1% 밖에 나지 않습니다.


요약하자면 작은 P값은 “효과의 크기”나 “A할인쿠폰과 B적립 쿠폰의 차이가 크다”는 것을 의미하지는 않습니다.



# 06. 데이터를 놓치면 실패 박물관으로 갈 수 있어요


오늘날 우리는 쉽게 데이터를 얻을 수 있습니다. 이른바 데이터 홍수 시대, 데이터의 양이 폭발적으로 증가하였습니다. 또한 온라인 사업 비중이 증가하면서 데이터와 직, 간접적인 관련이 없이는 어떤 일도 하기가 어려워졌습니다.


수많은 대기업들이 소비자 조사를 통해 트렌드를 파악하고 시장에 대해 분석합니다. 그 결과 새로운 제품이나 서비스 내놓게 되는데, 그 상품이 성공할 수도 실패할 수도 있는 것이 현실입니다. 아무리 시장점유율이 높은 브랜드라고 할지라도 특정 상품이 시장에서 고객들에게 차갑게 외면받은 사례는 많이 보셨을 겁니다. 반면에 오히려 이름도 몰랐던 작은 스타트업의 제품과 서비스가 선풍적인 인기를 끌기도 합니다.

출처 : https://www.newsnack.tv/failure-is-the-mother-of-success-failure-to-gather-all-kinds-of-failure
실패 박물관

미국 미시간주에는 실패 박물관이라는 곳이 있습니다.  그런데 신기한 점은 이 박물관 설립자는 처음부터 실패한 제품을 모은 것은 아니라고 합니다. 로버트 멕메스 실패 박물관 설립 및 운영자는 이렇게 말합니다.


매년 신제품을 모았을 뿐인데 그중 90%가 실패했다.
이유는 소비자의 마음을 제대로 읽지 못했기 때문이다.


오늘 아내의 쇼핑몰을 예로 들었지만 우리가 처한 환경은 저마다 다르면서도 또 유사합니다. 기업마다 개인마다 의사결정의 크기가 저마다 다를지 모릅니다. 하지만 오늘날 "데이터를 사용해서 합리적인 의사결정을 해야 한다"는 사실에는 변함이 없습니다.


제품과 서비스, 그리고 나아가 기업의 의사결정이 어려워졌다고 생각이 듭니다. 이때 우리에게 주어진 데이터를 잘 활용할 수 있다면, 그 데이터로 고객들의 반응을 과학적으로 검증해볼 수 있다면, 그렇지 않은 기업과는 분명히 차이를 만들어 낼 수 있다고 생각합니다. 그 작은 차이가 쌓이고 쌓여서 기업의 생존이 됩니다.

기억하세요 이 모든 것들이 작은 생쥐 한 마리에서 시작되었다는 사실을요


매거진의 이전글 22 데이터를 알면 화성에서도 살아 돌아올 수 있다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari