brunch

매거진 제품에 관한 생각

라이킷 26 댓글 2

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 김아영 Oct 04. 2020

A/B 테스트와 P-Value

A/B테스트는 꼭 해야 할까?

들어가기에 앞서, A/B테스트는 두 그룹의 사용자들에게 서로 다른 페이지를 보여준 뒤 어떤 그룹에서 더 좋은 성과가 나타나는지, 긍정적인 사용자 경험을 제공할 수 있는지 여부를 지속적인 시험을 통해 정량적으로 평가할 수 있는 테스트 기법이다. 서비스 사용자들의 이탈을 막고 방문객을 구매자로 전환하기 위해서는 일련의 실험 과정이 필요한데, 고객들과의 상호 작용을 이끌어낼 수 있는 요소가 무엇인지 정략적으로 알 수 있다면 제품 성장과 개선의 측면에서 유동적인 대응이 가능해질 것이다.

“아마존에서의 성공은 우리가 1년, 1달, 1주, 그리고 하루에 얼마나 많은 실험을 하는지에 따라 결정됩니다." - 제프 베조스 (아마존 CEO)
"Our success at Amazon is a function of how many experiments we do per year, per month, per week, per day.” - Jeff Bezos (CEO of Amazon)

AB테스트는 왜 해야 할까? 꼭 해야 할까? = 지속적인 실험의 중요성

1. 서비스의 이탈률을 감소시키고 전환율은 증가시킨다.

"우리는 고객이 어떤 것을 좋아하는지, 싫어하는지 알 수 없다."

그러므로 고객의 이탈률을 감소시키고 전환율은 끌어올릴 수 있는 효과적인 방안을 찾아내야 한다. 우선 퍼널 관점에서 생각해 보자. 스타트업의 경우, 현재 우리 서비스가 가지고 있는 가장 큰 병목은 무엇인지 확인하고 어떤 단계에 가장 초점을 맞춰서 중점적으로 서비스를 개발/개선해야 할지 파악하는 것이 무엇보다도 중요하다. 이 대목에서 A/B 테스트는 지속적인 실험을 통해 사용자가 어떤 변수에 반응을 하고 호감을 느끼는지 관찰하고, 방문객을 구매자로 전환시킬 수 있는 요소가 무엇인지 효과적으로 파악할 수 있는 방법이 되어준다.

2. 정량적인 데이터를 기반으로 한 의사 결정을 통해 사업의 리스크를 일부분 줄일 수 있다.

이렇다 할 검증 없이 전략을 수정하거나 변경할 시 상당한 시간적/금전적 비용이 발생할 수 있다. 직관에 의존하여 정량적인 분석 없이 내부 관계자들의 시각으로만 의사 결정을 하는 것은 단순히 고객을 배제하는 행동일 뿐만 아니라 실패 확률을 현저히 높이는 무모한 선택이기도 하다. A/B 테스트는 고객들의 행동 패턴을 파악하여 (구체적으로 어떤 목표가 되었든) 성공 가능성을 높이고, 최대한의 효과와 효율을 통해 불필요한 위험을 지는 것을 피하도록 도움을 준다.

3. 단/장기적인 관점에서 제품의 수익률과도 연결된다.

반복적인 실험을 통해 더 많은 수의 구매전환을 유도함으로써 수익률을 높이고 종국에는 경쟁 우위를 높여 충성 고객으로 통하는 활로를 뚫을 수 있다. 단순히 일회성으로 끝내지 않고 몇 차례의 A/B테스트를 통해 고객에 관한 유의미한 데이터를 지속적으로 쌓는다면 이는 고객을 학습하는 과정이 되며, 향후 실효적인 가설을 세우고 제품을 개선하는 데 긍정적인 영향을 미친다. (인사이트.. 제게 인사이트를 내려주소서.. 아카이빙만이 살 길인가) 결국 어떤 형태의 최적화가 높은 구매전환율로 이어지는지 과거의 교훈, 현재의 실험을 통해 빠르게 확인하고 개선안을 신속하게 적용해 봄으로써 수익률 면에서도 우위를 가진다.

AB테스트는 절대적으로 신뢰할 수 있을까?

AB테스트가 가져다주는 이점만 보면 완벽한 테스트 기법처럼 보인다. 하지만 그 이전에, 우리는 A/B 테스트의 결과를 절대적으로 신뢰할 수 있을지 우선적으로 고민해 봐야 한다. 테스트 수행에 앞서 표본은 어떻게 설정할 것인지, 어떤 변수를 줄 것인지도 중요하지만 실험에 잠재되어 있는 통계적 불안 요인도 사전에 감안해야 한다. 일반적으로 A/B테스트의 결과 지표는 전환율로 삼는데, 이 통계의 차이가 정말로 유의미한 지 또는 우연에 의한 것인지는 p-value(통계적 유의성)을 통해 확인할 수 있다고 알려져 있다. 관례적으로는 p-value 값이 0.05 이하일 때 두 집단의 평균 차이가 허용 가능한 수준이라 여겨지고 있다. (P값에 관한 잘못된 이해와 오용 사례도 많아 통계학회에서는 해당 값의 증거능력에 관한 기사를 싣기도 했다.)

* 시안 A의 전환율 : 고객 10명 중 5명이 구매 - 전환율 50%

* 시안 B의 전환율 : 고객 10명 중 7명이 구매 - 전환율 70%

위와 같은 경우, 시안 A/B의 차이가 정말 유의미할까? 우선, 표본의 크기가 작기 때문에 어떤 우연에 의해 결과의 차이가 발생한 것일 수도 있다. 만약 우연이라면, 우연이 일어날 수 있는 정확한 확률은 얼마나 될까? p-value는 통계 신뢰도의 OK/NG sign으로 단순 활용되어도 괜찮은 걸까?

https://abtestguide.com/calc/

상기의 데이터로 계산기를 돌려보면, A와 B의 전환율에 실질적인 차이가 거의 없다는 결과가 나온다. 정확한 통계를 위해서는 더 많은 수의 표본으로 시험을 해야했다. 그렇다면 표본의 수를 늘려보면 어떨까?

표본 수를 늘리고 전환 수에 변화를 주자 해당 통계가 우연에 의한 것이 아닌 신뢰할 만한 결과임을 나타내는 창이 떴다. 이 샘플의 경우, p-value 가 0.01 이하로 수렴한다. 그렇다면 이 통계는 절대적으로 신뢰할 수 있는 결과일까? 복잡한 계산을 통해 통계가 유의미하다는 결론이 났다고 해서 시안 B를 서비스에 적용했을 때 99%의 확률로 전환율이 증가할 것이라는 결론을 도출해 내는 것이 과연 바람직한 지에 대해서는 신중히 고민을 해봐야 할 부분이라 생각된다. (그보다는 우연이 일어났을 확률이 약 1% 정도라 참고하는 것이 안전하지 않을까.)

테스트를 진행할 때마다 p-value 값이 0.05 아래로 떨어지는 경우가 얼마나 빈번할까. 오차 범위가 줄어들 때까지 계속해서 시험을 진행할 수 없는 상황에 부딪힌다면 어떻게 대처해야 할까? 결국 A/B테스트는 데이터를 기반으로 가설을 검증하는 과정이며, 때때로 확률과 현실은 다를 수 있다는 점을 염두에 둔다면 효율적인 의사 결정에 도움이 될 것이라 생각된다.

SUMMARY. A/B 테스트의 예시, 넷플릭스

아마존, 구글, 쿠팡 등 이미 많은 기업들이 A/B 테스트 기법을 적용하여 다양한 가설을 실험하고 있다. 넷플릭스 역시 대표적인 예시로 자주 꼽히는데 그들은 어떤 방식으로 실험을 진행하고 있을까?

https://netflixtechblog.com/its-all-a-bout-testing-the-netflix-experimentation-platform-4e1 ca458c15

넷플릭스는 모든 변경 사항을 엄격한 A/B 테스트를 거쳐 반영되도록 방침을 세웠다. 이들은 실험을 할 때 실험군과 대조군의 특정 지표(대개는 스트리밍 시간, 리텐션이라고 한다.)를 추적해 유의미한 결과를 이끌어내고 있다. 관련한 대표적인 사례가 바로 '비회원 콘텐츠 브라우징 실험'이다.

"비회원에게도 어떤 콘텐츠가 있는지 보여주면 가입 수가 늘지 않을까요?"

2013년, 제품 디자인 팀은 유저의 피드백으로부터 출발한 하나의 가설을 세웠다. "회원 가입 전 비회원도 콘텐츠를 검색할 수 있는 기능을 도입하면 신규 유저의 유입이 늘 것"이라는 가설이었다. 넷플릭스는 기존 디자인 A와 비회원 콘텐츠 브라우징 기능을 추가한 개선 버전 B로 총 5회의 테스트를 진행했다. 그 결과, 5번의 실험 모두 기존 디자인의 승리로 끝이 났다. 짐작과 현실의 차이였다.

넷플릭스의 개인화된 알고리즘 역시 A/B 테스트의 대표적인 예시다. 넷플릭스의 인터페이스는 콘텐츠 별 아트워크를 개인 선호도와 일치하는 맞춤형 썸네일로 제공함으로써 더 많은 사람들이 콘텐츠를 재생하게끔 유도했다. 만약 사용자가 조셉 고든 레빗을 좋아한다면, 영화 <인셉션>의 썸네일에 디카프리오 대신 조셉 고든 레빗이 포함된 이미지를 보여주는 식. 이러한 퍼스널 큐레이션은 시간이 흐름에 따라(사용자 데이터가 쌓임에 따라) 품질이 개선될 확률이 점차적으로 높아진다.

이는 한 가지 예시일 뿐이며 A/B 테스트는 이미 다양한 분야에서 가설 검증을 위해 사용되고 있다. 수행에 앞서 유의해야 할 점이 있는 것은 분명하지만, 잘 활용한다면 세운 가정이 더 나은 퍼포먼스를 낼 수 있을지 예측하는 가치 있는 수단이 될 수 있다.

[참고한 자료]

https://medium.com/@Aaron__Kim/a-b-테스트-a-b-test-split-test-8269a1798762

빈도론 기반의 A/B 테스트 -A/B Test, Split Test, Frequentism

A/B 테스트란? 서비스 사용자를 두 개의 그룹으로 임의 추출 (random sampling)하여, 다른 상황을 제시하고, 그 반응을 확인하는 통계 기반의 분석 기법이다. 과거에는 마케팅 분야에서 많이 사용되었�

medium.com

https://growthacking.kr/a-b-테스트로-서비스-성장시키기/

A/B 테스트로 서비스 성장시키기 - 재밌는 그로스해킹

growthacking.kr

https://boxnwhis.kr/2016/04/15/dont_be_overwhelmed_by_pvalue.html

A/B 테스트에서 p-value에 휘둘리지 않기

A/B 테스트에서 p-value에만 과하게 집중하는 것이 왜 좋지 않은지 설명합니다.