타율 1할, 스타트업 실패 전문가의 이렇게 하면 무조건 실패한다.
회사 또는 팀에 데이터분석가가 없다면 PM(PO)가 성과분석을 하게 됩니다. 통계에 대한 지식과 성과분석에 대한 경험이 부족하다면 할 수 있는 성과분석 망하는 노하우(?) 지금 시작합니다!
성장중독자와 함께 성장, 스타트업, 제품에 대해 이야기하실 분!
어제와 오늘 일정한 비율의 사용자 seg가 들어온다는 확실한 보장이 있나요?
이번 기능이 배포되면 100% 적용되는 시점에 일주일 지표와 이전 동일(요일)의 일주일 지표를 비교하고자 합니다. 신규 마케팅 캠페인은 해당 기간에 없는 것으로 확인하였고 일주일 집행 예산 평균도 큰 차이가 없는 것으로 확인하였습니다.
실패할 수밖에 없는 이유.
완벽한 통제 환경을 우린 만들 수 없기 때문에 아무리 같은 요일, 기간 등을 동일하게 조절하려고 해도 이전 데이터와 비교는 신뢰도를 보장하기 어렵습니다.
: 제품 내에서 굉장히 depth가 깊고 명확하게 정의된 사용자를 대상으로 하는 기능이 아니라면 일반적으로 제품의 활성사용자 구성은 어제와 오늘이 차이가 납니다.
성별, 나이, 관심사, 제품에 대한 애정 등 이런 다양한 사용자들의 구성을 우리는 DAU라고 부르는 지표 속에 포함되어 있습니다. 그렇다 보니 같은 기간이라고 하더라도 전체 사용자의 구성비를 동일하게 조절하기는 힘듭니다.
의사결정 할 수 있는 수준의 유의미한 실험을 하려면 실험 대상, 모수를 균등하게 배분할 수 있는 A/B테스트가 가장 신뢰할 수 있는 방법이라고 생각합니다. 자체 개발하기 어렵다면 다양한 솔루션을 연동하여도 되고 구글의 파이어베이스_리모트 컨피그 기능에 실험기능을 제공합니다. 물론 이 A/B테스트의 성과도 실험 대상을 얼마나 균등하게 두 그룹으로 나눌 수 있는가가 관건이라고 할 수 있겠습니다.
중요한 성과분석, 모수가 많을수록 성과분석을 위한 통계적인 오류가 없는지 한번 더 확인이 필요합니다.
이번달에 릴리스한 기능의 전체 이용자는 10만 명입니다. 이 중에서 결제한 사용자는 1만 명으로 10% 수준입니다. 결제한 사용자는 전월 대비 3천 명이 줄었지만 결제 유저당 평균 금액은 1,000원으로 이전달 대비 100원이 증가하였기 때문에 매출의 유의미한 증가가 있었습니다.
실패할 수밖에 없는 이유.
성과가 개선되었는지 비교, 분석을 할 때는 평균의 함정, 상관관계와 인과관계, 퍼센트와 퍼센트 포인트 차이 등 알고 보면 간단하지만 무심코 해석해 버리면 결과가 전혀 달라지는 것들을 주의해야 합니다.
: 통계학 전공 또는 데이터 분석가가 회사, 팀에 없다면 제품의 기능이 출시된 후의 성과를 확인하는 것은 PM(PO)의 역할입니다. (있어도 다른 구성원이 분석한 내용을 검토해야 합니다) 성과분석 경험이 적으면 생길 수 있는 간단한 통계의 함정들에 대해 설명드리겠습니다.
평균의 함정 : 이건 데이터의 분포와 중앙값을 확인해 봐야 한다는 내용입니다. 같은 평균값이라도 데이터의 분포가 상단에 치우쳐 있는지, 하단에 치우쳐 있는지에 따라서 목표로 하는 성과가 났는지 분석할 수 있습니다. 유저당 평균 금액이 증가했다면 헤비유저의 구매 금액이 올라갔을 수도 있고 라이트 유저의 구매 건수가 올라갔을 수도 있습니다. 이것을 "평균"이라는 값으로 정의하게 되면 올바른 분석이 어렵습니다.
인과관계와 상관관계 : 통계적으로 인과관계인지 상관관계인지를 분석하는 수식이나 방법들이 있습니다만 제가 설명드리고자 하는 것은 개념입니다. 어떤 업데이트를 통해 리뷰를 작성하는 유저 수가 늘었고, 매출이 증가되는 결과를 얻었습니다. 리뷰 작성 유저 수 < > 매출 증가가 원인과 결과의 관계가 명확한 인과관계인지 아니면 원인과 결과는 아니지만 한쪽이 올라가면 같이 놀라가고 내려가면 같이 내려가는 상관관계인지를 따져볼 필요가 있습니다. 특히 예시처럼 구매의사결정에 도움이 되는 정보나 기능들이 실제 매출에 영향을 주었는지를 따져 볼 때는 이런 것들이 잘 분석할 필요가 있습니다.
퍼센트(%), 퍼센트 포인트(% P) : 얼마 전에 저도 혼용하여 사용해서 코멘트를 받았습니다만 생각보다 많이, 자주 틀리는 내용입니다. 00% 증가하였습니다.라는 설명을 많이 하는데 이때 퍼센트인지 퍼센트포인트 인지에 따라 단위가 달라지는 경우가 많기 때문에 명확하게 정의를 인식하고 사용하는 것이 좋습니다.
근거를 데이터로 삼는 것은 좋지만 데이터 만으로 의사결정을 하려는 고집은 경계해야 합니다.
'실험을 통해 데이터가 나오지 않았는데 어떻게 결정할 수 있죠?'
'실험 환경을 구축하고 기능을 개발하는데 한 달 정도 걸리는데 그동안의 기회비용은..'
'우리는 데이터로만 이야기하고 결정하겠어요. 가설과 가정이 섞인 직관적인 판단은 신뢰할 수 없어요.'
'그 데이터는 얼마나 신뢰할 수 있는 것인가요? 절대적인 믿음을 가질 만큼의 데이터라고 할 수 있나요?'
실패할 수밖에 없는 이유.
데이터 기반 의사결정은 중요합니다. 다만 데이터에 매몰되는 걸 경계할 필요가 있습니다.
: 경계가 필요한 자세는 데이터로 모든 걸 설명할 수 있다거나, 데이터가 없으면 아무것도 결정하지 않는 것입니다. 과제(기능)를 개발할 때 수립한 가설에 가정이 포함되어 있을수록 결과인 데이터에 영향을 미치는 변수가 많다는 것을 뜻하고 그 변수를 통제하기는 사실상 어렵습니다. 결과의 데이터만 보고 중요한 의사결정의 100%를 거기에 의존하는 자세를 경계해야 합니다.
나누지 않으면 보이지 않습니다.
'전환율이 1% P 높아졌는데 왜 1인당 평균 결제 금액이 이 만큼 높아졌을까요?'
'평균이 2% P 높아졌는데 왜 리텐션이 이렇게 많이 떨어졌는지 모르겠어요'
실패할 수밖에 없는 이유.
사용자, 고객, 트래픽을 쪼개어 봐야 합니다.
: 지표, 데이터를 구성하는 사용자의 특성에 따라 여러 segment로 분류할 수 있습니다. 새로운 기능이나 콘텐츠에 반응하는 segment가 어디인지 확인해야 올바른 의사결정을 할 수 있게 됩니다.
제품에서 회원가입 때 회원의 특성을 분류할 수 있는 정보가 있다면 이것을 1차로 분류하기도 하고, 결제가 비결제자, 콘텐츠 생산자와 소비자, 뉴비와 충성 유저 등으로 제품의 특성이나 현재 집중하고 있는 KPI에 따라 중요하게 관찰하고 있는 segment는 달라질 수 있습니다.
분석 전 그 데이터의 신뢰도를 확인하지 않는다면 100,000% 실패할 수밖에 없습니다.
'GA데이터랑 DB데이터가 좀 차이가 있는데 어떤 데이터로 분석하면 될까요?'
'믹스패널, GA, DB에 사용자(USER) 수가 차이가 있는데 어떤 데이터를 기준으로 구매자를 분석하나요? '
실패할 수밖에 없는 이유.
보고 있는 데이터가 어떻게 만들어지는지 분명하게 알아야 합니다.
: 각각의 솔루션이 데이터를 생성하는 기준, 방법이 다르기 때문에 조금 복잡하거나 여정이 긴 데이터를 분석하려면 분석하기 전에 그 데이터에 대한 정합성, 신뢰도, 분석 목적에 부합하는 지를 반드시 따져봐야 합니다. 특히, 여러 솔루션에 데이터와 로그가 흩어져 있고 이것을 하나로 합쳐서 분석하는 경우(ex. 클라이언트 로그는 GA, 결제 데이터는 DB)에는 기준이 되는 값들을 신경 쓰지 않으면 이상한 분석이 되어 버립니다.
제가 경험했던 다양한 실패의 경험을 공유하는 것을 통해서 다른 분들의 학습 비용이 낮아지거나, 현재 어려운 상황에 처한 Product Manager, Product Owner, CEO 분들이 문제를 해결하는데 도움이 되길 바라며 작성합니다.
경험에 의존한 내용으로 검증된 방법론이나 이론이 아닙니다. 편향된 방향으로 기술된 내용이 일부 포함 될 수 있으며, 이로 인해 불편하시거나 이견이 있으신 분들은 편하게 알려 주시면 저의 성장의 기회로 생각하겠습니다.
성장중독자와 함께 성장, 스타트업, 제품에 대해 이야기하실 분!