실무에서 배운 데이터의 착시를 경계해야 하는 이유
약 2년 전 지금의 회사로 옮겨온 뒤, 지난 1년 반 동안 내 일과의 대부분은 AB 테스트를 런칭하고, 지표를 분석하며, 이를 바탕으로 이터레이션(Iteration) 워크샵을 진행하는 것이었다.
수많은 실험을 거치며 깨달은 놀라운 사실 중 하나는 AB 테스트의 평균 성공률이 고작 12% 내외라는 점이다. 산술적으로 10개의 새로운 기능을 야심 차게 런칭해도, 그중 유의미한 성공을 거두는 것은 단 1개뿐이라는 뜻이다. 실패가 일상인 AB 테스트 현장에서, 나는 데이터가 보내는 교묘한 속임수인 '노벨티 효과(Novelty Effect)'에 대해 말해 보고 싶다.
론 코하비의 저서 <Trustworthy Online Controlled Experiments>에서는 노벨티 효과(novelty effect)에 대해 아주 명확하게 설명한다.
노벨티 효과란, 솔루션으로 인해 제품의 성능이 실제로 좋아졌기 때문이 아니라 단순히 '변화 그 자체'에 사용자가 반응하여 일시적으로 지표가 튀는 현상을 말한다.
당시 우리 서비스의 프로덕트 리스팅 페이지(Product Listing Page)의 화면 상단에 상품 리스트들이 아닌 요소들이 너무 많은 부분을 차지하고 있었다. 사용자는 정작 상품을 보기도 전에 거대한 헤더 때문에 내가 어느 페이지에 있는지 헷갈려 했고, 상품 리스트를 보려면 불필요하게 스크롤을 내려야만 했다.
통계적으로 화면 상단은 '컨버전 존(Conversion Zone)'이라 불릴 만큼 전환에 핵심적인 영역이다. 대다수의 사용자는 스크롤을 끝까지 내리지 않기 때문이다. 우리는 이 소중한 영역을 효율화하기 위해 화면 상단의 여러 요소들을 줄이기로 결정하였다.
[해결 방안]
SEO 텍스트 최적화: 타이틀 아래 길게 나열된 SEO 텍스트를 한 줄로 줄이고, '더 보기(Show more)' 링크를 통해 아코디언 방식으로 제공했다.
카테고리 링크 및 필터 바 축소: 시각적인 부피를 줄여 상품 리스트가 더 상단에 노출되도록 조정했다. 이 디자인은 데스크탑, 모바일, 태블릿 전 뷰포트에 적용되었다.
첫 번째 AB 테스트 결과는 다소 복합적이었다.
전체 CVR: +0.8% ± 1.7% (통계적 유의미성 미달)
모바일 전용 CVR: +1.1% (긍정적 시그널)
필터 사용률: +7.18% ± 0.9%
비주얼 카테고리 링크 사용률: -10.49%
전체적인 결과는 플랫(Flat)했으나, 모바일에서의 CVR 상승은 우리에게 큰 희망을 주었다. "역시 모바일 환경에서는 상단 영역 확보가 핵심이구나!"라는 확신을 가지고, 우리는 똑같은 디자인을 모바일에만 집중하여 두 번째 실험을 진행하기로 했다.
하지만 기대 속에 진행된 두 번째 테스트 결과는 안타까웠다.
모바일 전용 CVR: +0.16% ± 0.59% (플랫)
1차 실험에서 보여주었던 그 상승 폭은 어디로 사라진 것일까? 왜 데이터는 갑자기 다른 결과를 보여주기 시작했을까? 여기서 우리는 AB 테스트가 보내는 가짜 시그널, '노벨티 효과(Novelty Effect)' 를 직시해야 한다.
이 두 실험 결과는 AB테스트에서 얼마나 흔히 노벨티 효과를 접할 수 있는지 보여준다. 우리의 1차 실험 당시, 기존 유저들은 익숙했던 화면 디자인이 갑자기 달라지자 일시적인 컨버전 상승을 보여주었다. 특히 모바일처럼 한정된 화면에서 구성 요소가 작아지고 위치가 변하면 유저는 본능적으로 변화를 더 강하게 인지한다. 하지만 이 일시적인 변화가 장기적인 컨버전 상승에는 영향을 미치지 못하였다. 마치 UI 개선이 성공하여 전환율이 오른 것처럼 착시 현상을 일으킨 것이다.
<Trustworthy Online Controlled Experiments> 책에서는 노벨티 효과의 무서움을 다음과 같이 경고한다.
지속 불가능성: 호기심은 시간이 지나면 금방 사라진다. 새로웠던 디자인이 다시 '익숙한 것'이 되는 순간, 지표는 가차 없이 원래 자리(Base line)로 돌아온다. 우리의 2차 실험이 플랫했던 이유도 바로 이 때문이다.
잘못된 의사결정의 근거: 1차 실험의 달콤한 결과에 속아 전면 배포를 강행했다면, 우리는 장기적으로 아무런 이득이 없는 기능에 리소스를 쏟은 셈이 된다.
기존 유저의 편향: 노벨티 효과는 주로 기존 시스템에 익숙한 유저들에게서 나타난다. 반면, 무엇이 바뀌었는지 모르는 '신규 유저'에게는 이러한 반등이 나타나지 않는다.
프로덕트 디자이너로서 데이터는 가장 강력한 무기지만, 때로는 우리를 눈멀게 하는 독이 되기도 한다. 12%라는 낮은 성공률 속에서 한 줄기 빛 같은 상승 데이터를 발견했을 때, 우리는 기뻐하기보다 의심해야 한다. 과연 이 효과과 얼마나 장기적으로 지속가능하게 우리 비즈니스에 긍정적인 영향을 미칠 것인지 다시 생각해보아야 한다.
지금 보고 있는 이 지표가 유저의 불편함을 해결한 결과인지, 아니면 잠시 스쳐 지나가는 일시적인 효과인지를 구분해내는 것. 그것이 <Trustworthy Online Controlled Experiments>가 강조하는 '신뢰할 수 있는 AB 테스트'의 핵심이다.