brunch

You can make anything
by writing

C.S.Lewis

by 곽지호 Oct 07. 2021

[실무를 위한 A/B테스트] 첫번째 이야기

통계기반 A/B 테스트

A/B 테스트 주제를 시작으로,

실무 비즈니스에서 디지털 리터러시를 넓혀나가는 많은 주제를 남기려고 합니다.

데이터 사이언티스트 뿐 아니라, 일반 운영실무 현직자까지도 모두가 데이터를 늘상 끼고 살며,

비즈니스를 과학적으로 이해하고 바라보는 것이 습관이 된 그런 세상을 꿈꾸며 말이죠.


그 첫번째 주제가 A/B 테스트입니다. A/B 테스트는 말그래도 A와 B를 비교해 더 나은 대안을 찾으려는 시도를 일컫습니다. 누구나 컨셉이 어렵다고 느끼지 않을 만큼 쉽게 다가갈수 있고, 빠르게 적용해서 그 효과를 맛볼수 있다는 매력이 있습니다. 의료/제약 임상연구 분야의 실험설계 영역에서 가장 많이 활용되던것이 일반 상업시장에서도 더욱더 활발하게 퍼지고 있는 듯합니다. 글로벌 IT업체들의 발빠른 범용 솔루션화도 한몫한 것 같습니다. 이처럼 환경은 우리가 A/B테스트를 하려고만 한다면, 누구든지 할수 있는 상태가 조성되었습니다. 다만 우리의 업무의 관성이 시작을 못하게 하고 있고,  전문가와 경영인들의 '감'에 의존한 숱한 도전들이 반복된 실패와 결과의 왜곡으로 이런 실험설계 발전의 큰흐름을 약간은 둔화시키고 있지 않나 싶습니다.

전 아티클과 기술문서 들을 계속해서 공유하려고 합니다. 많은 분들이 공감하고 영감을 얻고, 지식을 습득해가면서 하수구를 뚫어주시길 기대합니다.


하루는 잘나가는 쿠팡이 로켓 배송을 시작한 이유를 듣게 되었습니다.

그 내부 이야기야 얼마나 복잡한 사정이 있겠냐마는,

지금 제가 이야기 하려고 하는 A/B 테스트 이야기의 서문으로 좋은 사례일것 같아 이야기를 해봅니다.

'세상에 없던 서비스'로 고객의 불만을 해소하고 감동을 주고자 하는 여러가지 시도들이 있었습니다.


저의 기억을 더듬어 봐도 쿠팡의 로켓배송 같은 직접익일새벽배송이 없던 시절을 생각해보면,

가격비교사이트가 횡행하고 쿠폰발급으로 무한경쟁을 했던 것이 생각납니다.

이 때 쿠팡이 다른 생각을 합니다. 바로 '가설세우기'를 통한 '인과관계' 확인이었습니다.

고객불만은 늦은 배송과, 제품파손 또는 불량, 택배기사의 불친절함 등이 주류를 이루었고, 어느 커머스서비스가 상황은 비슷했습니다. 대행물류를 하는 이커머스사의 입장에서는 컨트롤 하기 어려운 영역이었을 것입니다. 쿠팡이 세운 가설은 '기사를 직접고용해서 깔끔하고 친절한 서비스를 교육해 주문바로 다음날새벽에 받아보게 하면,  잊고 있다가 주문하는 늑장 주문 흡수, 빠른 교환이 가능해 더 많은 주문시도, 친절한 택배기사로 인한 만족감 이 고객을 재구매로 이어지게 한다' 라는 것이었습니다.


 이를 확인하기 위해, 무작위추출된 동네아파트 단지를 샘플링하고, 일반배송 서비스와, 로켓배송 서비스를 실험설계를 했습니다. 결과는 샘플에 대한 정량결과이므로, 전체의 일반화를 위한 절차를 밟게 되고 쿠팡은 가설의 강력한 입증을 바탕으로 로켓배송의 전국망 확산으로 성공일변도를 달리게 되었습니다. 이렇게 로켓배송은 A/B 테스트를 통해 탄생한 것입니다.


 일반기업에서 마케팅 일선에서 새상품 또는 서비스의 파일럿 테스트를 하는 경우는 많습니다.다만, 연주 같은 테스트를 해도, 새로운 대안이 더 좋을때가 있고 아닐때가 있고, 기간을 늘리면 좋다가도, 기간을 변경하면 결과가 흔들리는 일이 일쑤이고, 명절이나 법정공휴일, 코로나, 경쟁사 프로모션 등 예측하기 힘든 제 3의 외생적 변수로 결과가 흔들리니, 파일럿의 결과에 대한 객관적 신뢰를 답보하기 어렵게 됩니다. 결국, 다시 '감'의 영역으로 대박을 희망하게 되지요.


 이 때, 일반 파일럿 테스트의 한계를 극복하기 위해, 앞으로 다룰 오탐률(1종오류) 즉, 새롭게 제시한 대안이 더 좋을 것이라는 확신과 달리 실제는 효과가 없거나 더 나빠질 확률을 관리하는 것입니다. 이때 통계적 유의성을 확인하는 방법론이 등장을 합니다. 우리가 기초 통계를 배워야 할 지점입니다. 


 제가 재직했던 '헬로네이처' 라는 곳도 '식음료' 카테고리에 한정한 새벽배송이었고,

쿠팡처럼 완전한 직접배송은 아니지만, 대행택배물류를 점차 줄이고 '더그린박스' 같은 친환경컨셉의 익일새벽배송의 권역을 더 넓히기 위한 일들을 진행했습니다. 이때 통계방법론이 큰힘을 발휘했습니다.


통계기반 A/B 테스트는 크게 빈도주의 방법론과 베이지안 방법론의 두 갈래로 나뉩니다. 그 안에는 수많은 비즈니스적 이슈, 분석적 이슈 등의 암초가 기다리고 있습니다. 우리는 그 암초를 만났을 때, 적절한 문제해결능력을 익히는 것입니다. 그리고 자기 스스로 뿐 아니라, 주변과 조직에 이 플랫폼으로 사고하고 의사결정하는 패러다임을 심기는 주역이 되어야 합니다.


통계기간 A/B테스트의 끝에는 머신러닝 강화학습의 MAB 알고리즘을 적용하는 최적화 기법으로 까지 발전하게 되고 우리는 이마저도 실습해서 터득을 할수 있습니다. 하지만 거기까지 가지 않아도 됩니다. 수단이 어떻든지 간에, '로켓' 같은 대안을 찾아내는 데이터 리터러시의 대표주자 'A/B 테스트' 의 개념과 간단한 활용만으로도 큰 변화가 올것이니까요. 저와 함께 가시죠.


제가 분석가들을 위해 가르치는 목차는 아래와 같습니다.


1      통계기반 A/B 테스트와 친해지기

    가)     비즈니스에서 통계의 사용

    나)     왜 다시 A/B Test 가 나에게 필요한지

    다)     A/B Test 를 시작하기 위한 준비사항

    라)     통계기반 A/B Test의 기초통계개념

        ①      실무적 가설과 통계적 가설

        ②      표준편차, 신뢰구간, Z통계량

        ③      유의수준과 유의확률(P-value)

        ④      최대 가능도 추정

    마)     통계기반 A/B Test 설계의 가정과 평가


2      A/B 테스트 설계 기본

    가)     통계 검정력의 역할

    나)     이산형 변수와 연속형 변수

    다)     통계 알고리즘 소개

    라)     샘플사이즈 계산하기

    마)     최소 감지 효과

    바)     낮은 검정력과 높은 검정력 설계

    사)     1종오류와 2종오류

    아)     테스트의 해석


3      A/B 테스트 설계 심화1

    가)     단측검정과 양측검정

    나)     우월성 테스트와 비열등성 테스트

    다)     A/B/n 테스트 설계

        ①     다중분석을 위한 샘플사이즈

          ②      MVT와의 차이점

        ③      사후분석과 FWER의 적용

    라)     결과 세그먼트 분석

    마)     종속변수가 2개 이상인 테스트의 설계


4      A/B 테스트 설계 심화2

    가)     Early Stopping ( 순차그룹 테스트 )

        ①      테스트 조기종료는 가능한 것인가?

        ②      순차적 A/B 테스트의 효익

         ③      Alpha Spending과 Beta Spending 개념

         ④      Early Stopping 테스트 설계 실전

    나)     베이지안 기반 A/B 테스트

        ①      빈도주의와 베이지안의 Pros. & Cons

        ②      사후확률분포와 기대확률

          ③      ROI 계산

        ④      베이지안 방법론의 유의점


5      A/B 테스트 토픽

    가)     결정지표 설계 핵심포인트

    나)     적절한 테스트 기간의 설정 Know-How

    다)     최소감지효과를 정하기 어렵다면?

    라)     통계적 유의성이 없다고 실패한 테스트일까?

    마)     여러테스트를 동시에 진행해도 문제는 없을까?

    바)     외부 타당성의 위험성

    사)     ‘성공’한 테스트의 보다 확실한 정의는?


6      A/B 테스트 Tool 활용법

    가)     상용 솔루션 소개

          ①      Google Optimize

          ②      Adobe Target

          ③      Optimizly

    나)     Self A/B 테스트를 위한 파이썬과 R 활용법

        ①      라이브러리 소개

        ②      핵심코드 설명

    다)     A/B테스트의 시각화

    라)     분석결과레포트는 어떻게 구성할것인가


7      A/B 테스트 사례 Case-Study

    가)     사례1

    나)     사례2

    다)     사례3


하지만, 이 아티클은 좀더 일반에게 다가가려고 합니다. 더 욕심내는 사람은 더 깊이, 빠르고 쉽게 적용하고 싶은 사람은 활용중심으로..

또 뵙겠습니다.

작가의 이전글 찐 데이터분석가 만평
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari