brunch

매거진 데이터 101

You can make anything
by writing

C.S.Lewis

by 져니박 Apr 22. 2023

똑똑하게 데이터 정의하기 8탄

그 동안 데이터를 어떻게 통계를 낼 것인가, 왜 내야 하는가 


데이터를 정의할 때는 데이터가 왜 필요한지, 즉 어떠한 의사결정을 위해 데이터를 쌓아야 하는지를 고민해야 합니다. 충분한 고민 없이 진행할 경우, 이미 데이터가 쌓이기 시작했는데 중간에 특정 항목(컬럼)이 추가되거나, 불가피하게 여기저기 데이터(테이블)를 조합하는 경우가 발생합니다. 이 경우에 서비스를 운영하기 위한 데이터 처리 과정이 복잡해지면서 로딩 시간이 길어질 수도 있습니다. 또한, 새로운 항목이 추가되게 되면 그 이전까지 쌓인 데이터에도 '0', '-'과 같은 값(디폴트, 1탄 참고.)이 반영되면서 잘못된 인사이트를 줄 수 있습니다. 구글 설문지에서 설문을 받는 중에 뒤늦게 '나이'에 대한 문항을 추가했다면, 그 이전까지의 답변에는 나이가 모두 '없음' 또는 0으로 스프레드시트에 쌓이는 것처럼 말입니다. 


저번 7탄에서 날짜 및 시간을 기록하는 약속(시간도장, timestamp)을 다루었는데, 실제로 데이터가 쌓이고 집계를 할 때 시, 일, 월, 연도에 따른 항목값의 총량이나 변화량이 의사결정에 큰 영향을 미친다는 점에서 한번 더 강조하고 싶습니다.



이렇게 판매량을 보여주는 것이

당신이 원하는 부분일까요?


옷이든 화장품이든 인앱 결제든 컨설팅이든 가장 기초적인 통계는 이용자 수, 판매량, 매출액일 것입니다. 그런데 판매량이 어떻게 집계되고 표시되냐에 따라 의사결정에 미치는 함의가 매우 달라집니다. 


첫째, 현재 시점 유효한 판매량인가?


먼저 판매량은 판매가 된 상품 또는 서비스의 양(개수)입니다. 문제는 집계 시점에 따라 판매상태가 달라질 수 있다는 점입니다. 100개의 에어팟 재고가 있던 상점에서 1주일 간 100개를 완판했습니다. 그런데 재고가 5개인 것입니다. 추가 재고를 수급했을 수도 있지만, 판매되었던 상품 중 반품이 발생한 경우도 가능합니다. 


많은 커머스 기업에서는 매출액에 대해서 주 단위나 월 단위로 환불이나 미지급금에 대한 정산 금액을 보정하고 있습니다. 이렇게 금액 측면에서는 반품에 대한 집계가 시스템적으로 반영된다 하여도, 수량에 대해서는 그래프에 보이는 것 이면을 생각해야 하는 경우가 있습니다. 월별 판매량 그래프가 월 말일 기준 1월 100개, 2월 150개, 3월 200개라 하더라도 - 혹시 1월과 2월에 판매된 것 중에 그다음에 환불 또는 취소가 된 것은 없을까? 의식적으로 고민해야 합니다. 


물론, 미리 판매량 통계를 통해 우리가 어떤 의사결정을 하고 싶은가 미리 고민했으면 일은 더 수월해졌을 것입니다. 순수하게 도달률(%)과 전환율(%)을 높여서 판매량 자체를 늘리는 것이 목적인가? 만약, 장기적인 측면에서 매출액 증진을 생각한다면, 판매량 증대만큼 반품 건수를 감소시키는 것이 중요합니다. 이 경우 반품된 개수와 실 판매량도 같이 통계에 표기하는 것이 맞습니다. 


둘째, 연휴나 성수기 등 계절성이 고려되었는가?


통상적으로 주별 또는 월별 통계 대시보드를 구성하게 될 경우, '매주 4번째 금요일 새벽 3시' 등 주기적으로 대량의 데이터를 일괄 처리하도록 프로그래밍을 합니다. 사용자가 접속하지 않는 시간에, 동일한 형태의 아주 많은 데이터를 몇 행씩(배치 사이즈) 반복적으로 그리고 안정적으로 계산하기 위함입니다. 


그러나 이런 주별 월별 판매량 추이를 갖고 바로 의사결정하기에 앞서 계절성 요인을 고려해야합니다. 여가 서비스의 경우 12월과 1월 등 연말연초이고, 크리스마스 등 공휴일이 포함되어 있는 시기에 판매량이 증가합니다. 꽃이나 초콜릿 등은 연인 간의 사랑을 확인하는 OO데이가 있는 주에 판매량이 폭발합니다. 에듀테크 즉 온라인 교육 시장은 기말고사 기간이 포함된 주가 계절성을 띕니다. 


물론, 해당 서비스가 속한 산업과 주 이용자의 분포에 따라 특수한 시기나 그 시기가 매출액에 미치는 영향도는 달라집니다. 이를 위해 '전월 대비' 말고 '전년 동월 대비' 기준으로 꺾은선 그래프를 함께 놓는 경우도 있습니다. 올해의 12월은 전월 11월보다, 작년 12월 대비 판매량이 얼마나 증감했고 (반품량은 얼마나 증감했는지) 파악하는 것이 더 유의미할 수 있으니까요.


무엇보다도 주의해야할 것은 유례없던 코로나19로 인한 영향입니다. 코로나 전, 코로나, 위드 코로나 그 이후 국내외 경제에 미치는 파급효과는 아직도 현재진행형이니까요.   


B.C. 는 Before Covid19 (코로나19 이전)
A.D. 는 After Disease (질병 그 이후)



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari