23 할인쿠폰과 적립쿠폰은 구매효과차이가 있을까?

내가 분석한 데이터가 맞는지 틀리는지 검증이 필요할 때 P-Value

May 17. 2022

데이터 분석가 남편 일루와 봐

A 할인쿠폰과 B 적립 쿠폰은
효과 차이가 있을까?

아닙니다.

동의하시죠?

우리는 두 가지 질문에 답할 수 없습니다.

A 할인 쿠폰 : 구매 1043, 구매 안 함 3
B 적립 쿠폰 : 구매 2, 구매 안 함 1432

A 할인 쿠폰 : 구매 73, 구매 안 함 125 (37% 구매)
B 적립 쿠폰 : 구매 59, 구매 안 함 131(31% 구매)

바로 이 지점이 P 값이 필요한 이유입니다.

P 값은 0.05보다 작아야 돼

A 할인 쿠폰 : 구매 73, 구매 안 함 125
A 할인 쿠폰 : 구매 71, 구매 안 함 127
P-값 : 0.9

“두 그룹 간에 차이가 없다!” = “차이를 증명하는데 실패(기각)했다.”

A 할인 쿠폰 : 구매 71, 구매 안 함 127
A 할인 쿠폰 : 구매 72, 구매 안 함 126
P-값 : 1

A 할인 쿠폰 : 구매 75, 구매 안 함 123
A 할인 쿠폰 : 구매 70, 구매 안 함 128
P-값 : 0.7

A 할인 쿠폰 : 구매 60, 구매 안 함 138(30% 구매)
A 할인 쿠폰 : 구매 84, 구매 안 함 114(42% 구매)
P-값 : 0.01

실제로는 차이가 없지만 작은 P값을 얻는 것을
거짓 양성(FALSE POSITIVE)이라고 합니다.

없다!

A 할인 쿠폰 : 구매 73, 구매 안 함 125 (37% 구매)
B 적립 쿠폰 : 구매 59, 구매 안 함 131 (31% 구매)
P-값 = 0.24

P값이 더 작을수록 효과의 차이가 큰 것은 아니다

A 할인 쿠폰 : 구매 73, 구매 안 함 125 (37% 구매)
B 적립 쿠폰 : 구매 59, 구매 안 함 131 (31% 구매)
P-값 = 0.24

A 할인 쿠폰 : 구매 5005, 구매 안 함 9868 (34% 구매)
B 적립 쿠폰 : 구매 4800, 구매 안 함 9000(35% 구매)
P-값 = 0.04

출처 : https://www.newsnack.tv/failure-is-the-mother-of-success-failure-to-gather-all-kinds-of-failure

실패 박물관

매년 신제품을 모았을 뿐인데 그중 90%가 실패했다.
이유는 소비자의 마음을 제대로 읽지 못했기 때문이다.

기억하세요 이 모든 것들이 작은 생쥐 한 마리에서 시작되었다는 사실을요

23 할인쿠폰과 적립쿠폰은 구매효과차이가 있을까?

지난번 아내의 쇼핑몰에서 데이터와 결과에 맞는 "결론"을 내려준 것이 마음에 들었는지, 남편을 다시 불렀습니다. 오오! 조금 신뢰가 쌓인 걸까요?

"이번 봄을 맞이해서 온라인 쇼핑몰에서 행사를 하려고 해. 근데 할인 쿠폰을 줘야 할지 적립 쿠폰을 줘야 할지 모르겠어!"

'음,, 이건 조금 어려운 문제인데,,, 좀 쉽게 설명할 순 없을까?' 속으로 생각이 듭니다.

"일단 좀 고민해보고 내일 알려줄게!"

"뭐야, AI가 바로 답을 못 내려? ㅎㅎ 알았어 하루 줄게"

# 01. 할인 쿠폰과 적립 쿠폰중 어떤걸 발행할까?

아내에게 받은 쇼핑몰 과제에 대한 실험을 합니다. 일단 두 가지 쿠폰이 있다고 가정할게요.A 할인 쿠폰과 B 적립 쿠폰. A "할인" 쿠폰과 B "적립" 쿠폰은 다릅니다.

그리고 아내는 A 할인쿠폰과 B 적립 쿠폰의 효과에 차이가 있는지 알고 싶습니다.

그래서 A 할인쿠폰을 1명에게 주었고, 그리고 다른 1명에게 B 적립 쿠폰을 주었습니다.

A 할인쿠폰을 받은 한 사람은 구매를 했고, B 적립 쿠폰을 받은 한 사람은 구매를 하지 않았습니다.

그렇다면 A 할인쿠폰이 > B 적립 쿠폰보다 더 좋다고 결론을 내릴 수 있을까요?

B 적립 쿠폰은 여러 가지 다른 이유들 때문에 구매까지 연결에 실패했을 것입니다.

아니면 A 할인쿠폰이 구매를 하려고 마음먹었던 사람에게 우연히 배달되었을 수도 있습니다.

검증을 할 때에는 이렇게 이상하고 우연한 상황들이 많이 포함되어 있을 수 있습니다.

이것은 각 쿠폰을 1명의 사람보다 더 많은 사람에게 실험해야 한다는 것을 의미합니다.

그래서 우리는 다시 실험을 합니다. 하지만 이번에는 각 쿠폰을 다른 2명의 사람에게 주었습니다.

이번에는 A 할인쿠폰을 받은 두 명 모두 구매를 하였습니다. 그리고 B 적립 쿠폰을 받은 사람 중에 한 명은 구매를 하고, 다른 한 명은 구매를 하지 않았습니다.

결론으로 A 할인쿠폰이 더 좋다고 말할 수 있나요? ( A 할인쿠폰 > B적립 쿠폰 )아니면 여전히 A 할인쿠폰과 B 적립 쿠폰은 같다고 할 수 있나요? ( A할인쿠폰 = B적립 쿠폰 )

# 02. 많은 사람들에게 실험을 해봐야 하지 않겠어?

네, 그래서 이제는 아주 많은 사람들에게 쿠폰을 테스트합니다.

이것이 그 결과입니다.

A 할인쿠폰은 많은 사람들(1043명)이 구매를 하였습니다. 구매하지 않은 사람들 3명에 비해서 말입니다.

다시 말해, A 할인쿠폰을 받은 사람 1046명 중에서 99.7%가 구매하였습니다.

반대로 B 적립 쿠폰은 구매한 사람이 아주 적습니다. 2명. B 적립 쿠폰을 받고 구매하지 않은 사람들 1432명에 비해서 말입니다.

즉, B 적립 쿠폰을 받은 사람 1434명 중 구매한 사람은 단지 2명, 0.1% 밖에 안됩니다.

만약 이것이 결과라면 A 할인쿠폰이 B 적립 쿠폰보다 좋다는 것이 꽤나 명백해 보입니다.

다시 말해, '이 결과가 우연한 것들에 의해서 만들어졌고, 두 쿠폰이 차이가 없다'라고 생각하는 것은 맞지 않습니다.

# 03. 만약 실험 결과가 애매하다면 어쩌지?

이와는 대조적으로 결과가 이렇다고 하면 어떨까요?

A 할인쿠폰을 받은 사람들 중 37%만이 구매했습니다. 그리고 B 적립 쿠폰을 받은 사람들은 31%가 구매했습니다. 그렇다면 A 할인쿠폰이 좀 더 많은 사람들을 구매하도록 했군요.

하지만 모든 테스트가 완벽하지 않고, 항상 우연한 상황들이 존재하는 상태에서 어떻게 A 할인쿠폰이 더 우수하다고 확신할 수 있을까요?

바로 이 지점이 P 값이 필요한 이유입니다.

그럼 질문이 있습니다.

P값이 얼마나 작아야 A할인쿠폰과 B적립 쿠폰이 차이가 있다고 우리는 자신 있게 말할 수 있을 까요? 다른 말로 표현하면, 합리적인 의사결정을 할 때 그 경곗값이 얼마일까요?

결론적으로 말해서 실무에서 사용되는 이 경곗값은 0.05입니다.

A할인쿠폰과 B적립 쿠폰의 차이가 없고, 이러한 실험을 아주아주 많이 반복했다고 가정했을 때, 5%의 실험의 결과만이 틀린다는 것을 의미합니다.

아직 잘 모르시겠다고요? 그렇다면 하나하나씩 예를 들어 설명해볼까요?

# 04. 만약 실험 결과가 애매하다면 어쩌지?

[ 다른 그룹 / 같은 쿠폰 ]

그럼 이번에는 두 개의 다른 그룹에, 같은 쿠폰 A할인쿠폰을 줬다고 가정해봅시다.

이제 결과의 차이는 100% 우연한 것. 그러니까 쿠폰에 의한 것이 아니라고 하겠습니다.

한 그룹은 극도로 적립을 싫어해서 쿠폰을 안 쓰고, 다른 한 그룹은 무조건 지르는 충동구매가 강한 사람들처럼 말이죠.

이 경우에 P값은 0.9입니다. 0.05보다 훨씬 큰 값입니다. 0.9 > 0.05

바로 이 경우, 우리는 “두 그룹 간에 차이가 없다!” = “차이를 증명하는데 실패(기각)했다.”라고 이야기합니다.

우리가 같은 실험을 계속 계속 반복한다면 대부분의 경우, 매우 큰 P값을 계속 같게 될 것입니다.

...(계속 반복)

그러나 가끔씩 적립을 극도로 싫어하는 모든 사람이 왼쪽 그룹에 속할 수도 있고,

알림만 오면 사는 강한 충동구매를 하는 모든 사람들이 오른쪽 그룹에 속할 수도 있습니다.

결과적으로 이러한 특수한 실험에서는 결과가 꽤 다르게 나오기 때문에 P값은 0.01이라는 작은 값이 됩니다.

그러므로 이경우 두 그룹은 모두 같은 쿠폰을 주었음에도 불구하고" 두 그룹 간에는 차이가 있다." 고 말할 수 있습니다. 같은 A할인쿠폰을 주었는데 결과가 다르다? 정말 틀렸네요?

P값의 경곗값이 0.05라는 것은 5% 실험만이 우연에 의한 것들에 의해 차이가 난다는 것을 말합니다.

다시 말해, A할인쿠폰과 B적립 쿠폰의 차이가 없다면, 5%의 실험만이 P값이 0.05보다 작게 나올 것입니다.(나머지 95%는 전부 P값이 크게 나올 겁니다)

쿠폰의 차이가 있다고 말하는 것이 극단적으로 중요하다면

0.0001과 같이 더 작은 경곗값을 사용할 수도 있습니다. 예를 들어 10만 원짜리 쿠폰을 발행한다고 가정해볼 때 말이죠. 경곗값 0.0001을 사용한다는 의미는 거짓 양성을 1만 번 실험 중에 딱 1번만 얻는다는 것을 의미합니다.

이와 반대로, 그다지 중요하지 않은 문제에 대해서는 어떨까요?

[결론] A 할인쿠폰 와 B 적립 쿠폰을 뿌렸을 때 효과에 차이가 있는가?

# 05. 지금까지 여러분은 가설 검증을 하신 거예요. 그 어려운!

마지막으로 두 가지 정리하고 끝내겠습니다.

오늘 조금 머리를 쓰면서 쿠폰에 효과가 있는지 없는지를 살펴보았습니다. 쿠폰에 차이가 있는지 없는지를 결정하기 위해 노력하는 것을 멋진 말로 "가설 검증(HYPOTHESIS TESTING)"이라고 합니다.

그리고 앞서 살펴본 또 다른 멋진 용어 P값은 우리의 실험을 신뢰할 수 있는 수준으로 "실험이 불확실한 정도"로 이해하시면 좋을 것 같습니다.

여기서 두 번째 정리가 있습니다.

좀 이해가 안 되신다고요? 사실 좀 흥미롭습니다.(저로서는^^)

예를 들어 위의 실험에서는 A 할인쿠폰과 B 적립 쿠폰이 6% 차이가 있음에도 불구하고, 이 실험은 0.24라는 큰 P 값이 나왔습니다.

반면에 아주 많은 사람들이 참가한 이 실험에서는 0.04라는 아주 작은 P값을 얻었습니다.

심지어 주어진 데이터에서는 A 할인쿠폰과 B 적립 쿠폰의 차이가 1% 밖에 나지 않습니다.

요약하자면 작은 P값은 “효과의 크기”나 “A할인쿠폰과 B적립 쿠폰의 차이가 크다”는 것을 의미하지는 않습니다.

# 06. 데이터를 놓치면 실패 박물관으로 갈 수 있어요

미국 미시간주에는 실패 박물관이라는 곳이 있습니다. 그런데 신기한 점은 이 박물관 설립자는 처음부터 실패한 제품을 모은 것은 아니라고 합니다. 로버트 멕메스 실패 박물관 설립 및 운영자는 이렇게 말합니다.

아내에게 받은 쇼핑몰 과제에 대한 실험을 합니다. 일단 두 가지 쿠폰이 있다고 가정할게요.
A 할인 쿠폰과 B 적립 쿠폰. A "할인" 쿠폰과 B "적립" 쿠폰은 다릅니다.

이번에는 A 할인쿠폰을 받은 두 명 모두 구매를 하였습니다.
그리고 B 적립 쿠폰을 받은 사람 중에 한 명은 구매를 하고, 다른 한 명은 구매를 하지 않았습니다.

결론으로 A 할인쿠폰이 더 좋다고 말할 수 있나요? ( A 할인쿠폰 > B적립 쿠폰 )
아니면 여전히 A 할인쿠폰과 B 적립 쿠폰은 같다고 할 수 있나요? ( A할인쿠폰 = B적립 쿠폰 )