brunch

You can make anything
by writing

C.S.Lewis

by 주정민 Jul 04. 2024

프로덕트 성장을 위한 실험 바이블

A/B 테스트 실험 문화와 리뷰의 중요성


그동안 온오프라인 환경에서 실험 문화 경험을 바탕으로 실험 관련 내용을 정리해보았습니다. 실험이 매주 활발히 운영되는 조직에서 실험 문화를 경험하면서 깨달은 점이 많았는데요. 이번 글은 실험 바이블 글 1탄으로서 실험에 대한 정의, 프로세스, 실험 문화 성숙도와 같이 기본적인 내용들을 알아보고자 합니다.





실험이란?


들어가기전에 실험의 간단한 정의, 종류 그리고 실험 지표에 대해 알아볼텐데요. 실험은 버킷 테스트라고도 불리며, 실험의 종류에는 대표적으로 A/B 테스트 또는 A/A 테스트가 있습니다.


실험을 온오프라인 환경에서 진행해보았는데요. 온라인 서비스와 마찬가지로 오프라인에서도 데이터를 수집할 트래커와 같은 도구가 있다면 실험을 활용할 수 있습니다.


실무에서는 아래와 같이 자주 접하게 되는 문제들이 있습니다. 각 팀마다 풀어야할 문제들에 대해 실험을 활용해볼 수 있겠죠.


1) 디자인팀에서 서비스의 새로운 UI 기능을 배포했을 때


- 새로운 서비스 기능 배포 테스트를 통한 전환 효과는?


2) 마케팅팀에서 쿠폰 프로모션이 미치는 효과를 확인하고 싶을 때


- 프로모션이 고객의 구매율에 미치는 영향은?

- 개인화 메세지 푸시 알림의 전환 효과는?


3) 데이터팀에서 모델 알고리즘의 효과를 알고 싶을 때


- 추천 시스템 모델 도입으로 CTR 증감 효과는?

- 다이나믹 프라이싱 모델 배포로 상품의 가격이 고객의 구매에 미치는 영향은?



A/B Testing은 무엇일까요?


일반적으로 주로 진행되는 실험 방식입니다. A/B 테스트는 두 가지의 변형 중 한 가지를 무작위로 선택하여, 비교할 두 가지 실험군, 대조군을 선정하고 이 중 어떤 것이 더 효과적인지 비교합니다. 가설을 기반으로 기존 요소가 담긴 A안과 특정 요소를 변형한 B안을 생성합니다.


예를 들어, 일반적으로 이커머스 도메인에서 A/B 테스트는 서로 다른 두 버전의 웹페이지를 무작위로 사용자에게 보여주어 어떤 버전이 고객에게 더 많은 구매를 유도하는지 비교합니다. 웹페이지 A안을 보는 집단은 대조군(Control Group), 웹페이지 B안을 보는 집단은 실험군(Experimental Group)이 됩니다. 실험을 통해 유저의 경험과 프로덕트의 성과를 향상시킵니다.






실험에 필요한 지표


실험을 설계할 때 자주 등장하는 실험에 필요한 지표는 성공 지표(Success Metric), 가드레일 지표(Guardrail Metric), 서포트 지표(Supporting Metric), MDE(Minimum Detectable Effect)가 있습니다. 실험 지표에는 일반적으로 아래의 4가지 목표 지표를 설정합니다.


실험 주요 지표


실험을 위해 알아두면 좋은 통계 용어


귀무가설 : 일반적인 사실 또는 우리가 실험에서 틀리길 바라는 가설
대립가설 : 우리가 실험에서 맞다고 입증하고자 하는 가설, 차이가 있음을 실험을 통해 입증하고자 하는 가설
p-value : 귀무가설이 맞다는 가정에서, 실제 실험 결과와 같이 귀무가설을 지지하는 결과가 나올 확률을 의미합니다. 예를 들어, 두 그룹의 평균을 비교하는 실험에서, 귀무가설이 “두 그룹의 평균은 같다”라면, p-value는 두 그룹의 평균이 같다는 결과가 나온 확률입니다. p-value가 일정 수준(0.05)보다 작으면 귀무가설이 잘못되었을 가능성이 높기 때문에 기각하고, 대립가설을 채택합니다.
가설 검정(t-test): 두 그룹 간의 차이가 통계적으로 유의미한지를 검정하는 방법 중 하나입니다. 일반적으로 서로 독립적인 두 그룹간의 비교를 통해 두 그룹의 평균값이 다른지를 검정합니다. t-test 결과, 귀무가설이 기각되면 두 그룹 간의 차이는 통계적으로 유의미하다는 것을 의미합니다.



실험 프로세스 파헤치기


실험은 가설 설정-실험 설계-실험 진행-실험 결과 분석/실험 리뷰 4단계 프로세스로 진행됩니다.


실험 4단계 프로세스


가설 설정: 실무에서 풀어야할 문제와 이에 따른 가설을 정의합니다.


실험 설계: 실험군과 대조군의 비율 설정, 실험 기간 설정, 목표 지표 설정과 같이 실험의 나침반을 제시할 가장 중요한 단계입니다. 실험 싸이클이 빠른 조직일 경우, 실험 기간은 1~2주내로 빠르게 실행됩니다.


실험 결과 분석/실험 리뷰: 실험 리뷰는 실험 결과를 분석하고 실험을 통해 얻은 효과를 리뷰합니다. 더 나아가 다음에 진행할 Action과 의사결정 Next Step에 대해 논의합니다.




실험 플랫폼 사례 알아보기


실험이 활발한 조직은 실험 플랫폼을 자체 개발하여 활용하기도 합니다. 실험 플랫폼이 개발된 조직은 국내 뿐만 아니라 글로벌 회사 사례에 많이 등장하는데요. 글로벌 빅테크 기업 중 넷플릭스는 Netflix 실험 플랫폼 XP, 스포티파이는 Spotify 실험 플랫폼 ABBA, Experiment Planner을 자체 개발하여 운영하고 있습니다.


1) Netflix 실험 플랫폼 XP

Netflix에 따르면, Experimentation 플랫폼 XP를 개발하여 활용 중인데요. 넷플릭스는 실험이 민주화된 조직으로 데이터팀에 제한되지 않고 모든 구성원이 실험 결과를 액세스할 수 있도록 실험 플랫폼을 개발하였습니다. 새로운 추천 알고리즘, 사용자 UI 기능, 콘텐츠 홍보 전술 및 전략, 스트리밍 알고리즘 등을 포함하여 서비스에 A/B 테스트를 활용합니다.

*Reference: Netflix Tech Blog


2) Spotify 실험 플랫폼 ABBA, Experiment Planner

Spotify에 따르면, 플랫폼 Experiment Planner를 개발하여 수백번씩 운영되는 실험에 활용합니다. 플랫폼에는 실험 지표 세팅, 실험 분석, 실행 중인 실험과 예정된 실험을 보여주는 타임라인 기능 등이 구현되어 있습니다. 더불어 원활한 실험 일정 이동 및 자동화를 위해 salts 기능을 개발하였으며, salts 트리를 사용하여 사용자를 버킷으로 해싱하여 수행됩니다.


*Reference: Spotify Tech Blog



이제 실험 프로세스를 알게 되었다면, 조직에서 실험 문화의 성숙 단계를 확인하고 리뷰하는 다음 단계도 중요합니다!




실험 조직의 구조와 실험 문화의 단계는?


여러분의 회사는 실험 조직의 구조와 실험 문화의 성숙도는 어느 단계에 있다고 생각하시나요? 실험 조직의 구조는 중앙 집중식 구조, 분산 구조, 하이브리드 구조 3가지로 나눌 수 있습니다. 회사 전체의 실험을 주도하고 각 팀의 필요에 따라 실험의 우선순위를 지정하는 중앙 집중식 구조입니다. 각 팀의 전문가가 다양한 실험 프로젝트를 동시에 실행하는 분산 구조, 각 팀에 실험 유닛과 전문가가 있는 하이브리드 구조가 있습니다.


< trustworthy online controlled experiments > 책을 참고하여, 회사의 실험 문화 성숙 단계를 다음과 같이 정리해보았습니다.


실험 문화의 성숙 단계


3단계: 실험이 민주화된 조직, 사내 개발된 실험 플랫폼이 존재하고 모든 조직이 실험을 주도적으로 하는 단계


이 단계는 실험이 수백번 이루어지고 데이터팀 뿐만 아니라 모든 조직이 적극적으로 실험을 필요로 하고 진행하는 상황입니다.


ex) 아마존, 구글, 마이크로소프트 (국내에서는 토스와 쿠팡이 대표적인 예라고 생각합니다.)


2단계: 다른 조직에서 실험의 필요성을 인지하고 데이터 조직에게 실험을 요청하는 단계


데이터팀이 주도적으로 실험을 설계, 진행, 리뷰를 합니다. 다른 팀도 실험의 필요성을 인지하고 데이터팀에게 실험을 요청합니다.


1단계: 실험을 도입하는 단계(실험 관련 툴 도입 등)


실험의 필요성을 인지하고 실험을 실행할 툴을 리서치하고 도입하여 실험 환경을 세팅합니다. 앰플리튜드 experiment 또는 핵클과 같은 실험을 진행할 수 있는 툴을 도입합니다.

0단계: 실험이 무엇일까요? 아직 실험의 필요성을 인지하지 못하는 단계



어떻게 하면 실험 리뷰를 잘할 수 있을까요?




실험이 끝나고 나서 실험을 리뷰하는 과정, 실험 프로세스를 최적화하는 과정도 굉장히 중요합니다. 실험을 잘 활용할 수 있는 방법과 실험이 액션으로 이어지려면 중요하다고 생각했던 점을 4가지로 정리해보았습니다.


1) 실험 결과 전사 공유

실험 프로세스가 끝났을 때, 실험 결과를 단순히 성공과 실패로 분류하지 않고 전사, 팀 단위로 리뷰하는 과정도 중요합니다. 그 과정을 반복하면 데이터팀이 아닌 다른 팀들도 실험을 활용하려하고, 이 과정에서 실험 문화가 형성됩니다.



2) 실험 리뷰/타임라인 문서화

실험 리뷰를 문서화하여 팀 더불어 전사에 공유하는 것도 중요합니다. 실험 문화가 성숙한 조직일 경우, 팀내에서만 실험을 공유하게 된다면 팀마다 동시 다발적으로 실험이 이루어질 수 있기 때문에 실험 지표의 증감 및 하락의 영향을 줄 수 있습니다. 실험 리뷰 및 실험 타임라인의 문서 형태는 간단하게 스프레드 시트로 템플릿을 만들어 진행하기도 하며 위키, 슬랙 등 툴을 활용하여 공유합니다.


예를 들어, 종종 모든 조직이 실험을 주도적으로 진행한다면 다음과 같은 지표 측정이 충돌하는 상황이 발생하여 실험의 효과를 측정하기 어려울 수 있습니다. 마케팅팀에서 프로모션 배너 테스트로 상품의 구매 전환율을 보기 위해 conversion 지표를 성공 지표로 잡았습니다. 프로덕트팀에서 상품 가격 테스트로 상품의 구매 전환율을 보기 위해 conversion 지표를 성공 지표로 잡았습니다.



3) 실험 의사결정 트리

Decision Tree 형태로 실험 의사결정 트리를 만드는 방법이 있습니다. 단순히 실험 프로세스를 나열하는 것이 아니라 의사결정 프로세스를 도식화를 하면 체계적으로 실험 프로세스를 최적화할 수 있습니다. 실험 지표가 어떻게 변화했고, 실험 결과에 대한 액션과 다음 실험을 또 진행할지를 논의할 수 있습니다.



4) 실험 결과 대시보드화

실험 결과를 단순히 수치화하면 실험 리뷰 미팅이나 실험을 공유할 때 직관적으로 이해하기 어려울 수 있습니다. 사전에 실험 결과 대시보드를 자동화를 한다면 실험 결과의 시각화를 통해 조직의 구성원들이 직관적으로 이해하기 쉽습니다. 단순 수치화가 아닌 시각화를 통해 목표 지표들의 실험 전후 변화를 한 눈에 알아보기 쉽게 대시보드를 디자인하는 방법을 추천합니다.






마치며


데이터 분석가의 실무에서 자주 등장하는 실험에 대해 전반적으로 기초적인 내용을 살펴보았습니다. 가설 정의, 실험 설계, 실험 리뷰까지 실험 프로세스를 간단하게 살펴보았는데요. 실험을 설계하는 과정도 중요하지만 실험 문화를 구축하고 실험을 리뷰하고 실험 프로세스를 지속적으로 최적화하는 과정도 중요합니다. 실험을 도입하는 단계, 사내 플랫폼 구축되어 있는 실험 문화의 단계와 같이 사내 실험의 성숙도가 각기 다를 것입니다.


만약 사내에서 실험을 하기 어려운 상황이라면 대체할 수 있는 방법 중 인과 추론을 추천합니다. 프로덕트 분석에서 실험은 프로덕트 성장을 이끌어주고 데이터 드리븐 문화의 성숙도를 높여줍니다. 이번 글을 통해 실험을 진행해야하는 실무를 하고 계시는 분들에게 도움이 되길 바랍니다.



매거진의 이전글 주니어 데이터 분석가 회고록
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari