brunch

You can make anything
by writing

C.S.Lewis

by 신사동 마케터 Apr 09. 2023

[시선]데이터 퀄리티 컨트롤 노하우_1편

feat. 이것만 알아도 데이터 오류 90% 해결

안녕하세요?

신사동 마케터입니다.


이번 글에서는 본격적으로 데이터 검증하는 노하우에 대해 이야기해보려고 합니다.

데이터 검증 노하우는 크게 4가지가 존재합니다.


데이터 퀄리티 컨트롤 노하우 4가지  

     평균치 암기하기

     평균치를 크게 벗어나는 변동이 있었다면 데이터가 틀렸거나 무슨 일이 있거나

     변동이 없는 것도 문제

     데이터 쪼개기 오류    


이번 글에서는 데이터 쪼개기 오류를 제외한 3가지 노하우에 대해 다뤄보도록 하겠습니다.


1. 평균치 암기하기

숫자뿐 아니라 전혀 모르는 새로운 분야에 빨리 적응하고 싶다면 그 분야의 평균치가 어디에 있는지 파악해야 합니다. 평균치를 알게 되면 지금 내가 어디에 있는지도 알 수 있고 평균을 넘기 위해 무엇에 집중해야 하고 힘을 빼야 하는지 알 수 있으니까요. 평균치를 안다는 건 주로 모니터링하는 숫자의 일 평균, 주 평균, 월평균 데이터를 암기하고 있다는 의미입니다. 평균치를 암기하는 것이 데이터 오류를 점검하는 데 어떻게 도움이 되는지는 이어서 #2에서 설명하도록 하겠습니다.  


2. 평균치를 크게 벗어나는 변동이 있었다면 데이터가 틀렸거나 무슨 일이 있었거나   

우리가 어떤 숫자를 매일 모니터링하고 있다면 그건 분명히 중요한 성과이거나 성과에 영향력을 행사하는 핵심 지표일 텐데요. 매일 모니터링을 하는 이유는 급격한 변화가 발생했을 때 적절한 대응을 하기 위함입니다. 그런데 평균치를 모른다면 지금 이 숫자가 어떤 시그널을 보내는지 알 턱이 없겠죠? 똑같은 매출 1000만 원도 평균 매출액이 1억인 경우와 900만 원인 경우에 의미하는 바는 다를 테니까요.


급격한 변동이 발생했을 때 우리가 떠올릴 수 있는 액션은 크게 두 가지입니다. 숫자가 틀렸는지 의심하거나 액션의 임팩트(영향)를 분석하거나.


첫 번째, 측정방법과 데이터 정의를 확인한다.

만약 비즈니스 또는 마케팅 레벨에서 뚜렷한 변화(인풋)가 없었다면 제일 먼저 확인해봐야 할 것은 데이터 정의나 측정하는 방법이 바뀐 것이 없는지 점검하는 일입니다. (단순 엑셀 수식 오류는 논외)


데이터 정의 변경이란 아래와 같은 것들입니다.   

     측정 시점

     액션의 정의

     데이터 포함 범위 확대됐거나

     축소됐거나     


‘앱 오픈’이라는 액션을 가지고 예를 들어 설명해 볼게요.

우리 회사에서 앱 오픈이란 ‘앱을 오픈하자마자(측정시점)’로 측정하기로 했다고 가정해 봅시다.  곰곰이 생각해 보니 앱을 오픈하자마자 측정해 버리면 앱을 잠깐 열었다 닫거나 실수로 열었던 수치들까지 모두 앱 오픈으로 측정될 것 같습니다. 즉 ‘의도’를 가진 앱 오픈이 아닌 허수들이 포함되어 있을 것 같다는 생각이 들었습니다. 그래서 앱을 오픈하고 3초 뒤에도 앱을 오픈한 상태를 유지한 액션만 앱 오픈으로 간주한다면 데이터 측정 방법이 변경되어 과거 수치 대비 앱 오픈 횟수가 감소한 것처럼 보일 것입니다. 측정 방법이 변경됐다는 사실을 알고 있다면 데이터 오류가 아님도 알 수 있겠죠.


두 번째, 내&외부 변화가 있었는지 확인한다.

데이터 정의나 측정 방법에 변화가 없었다면 지표에 영향을 미칠만한 내&외부 변화가 있었는지 확인하면 됩니다. 내부와 외부 변화로 나누는 기준은 변화가 컨트롤 가능 영역이야 아니냐입니다. 예를 들어 경쟁자 출현이라던가 부정적인 뉴스 등은 예상도 어렵고 대응만 할 수 있는 정도죠. 반면 내부 변화는 적극적으로 오너십을 가지고 컨트롤할 수 있는 영역입니다. 프로모션을 했다던가 마케팅 전략을 바꿨다던가 신규 광고 채널을 추가하는 등의 액션들이요. 그런 액션의 변화로 지표가 변화했다면 그 영향을 측정하고 그에 맞춰 후속 액션을 수립하면 됩니다.


3. 어제 숫자와 오늘 숫자는 같을 수 없다

변동이 큰 것만큼 변동이 없는 것도 흔한 오류 중 하나입니다. 어제의 노출수와 오늘의 노출수가 정확하게 같을 수 있을까요? 확률적으로 일어날 수 없는 일인 것은 아니지만 제가 10년 넘게 숫자를 보면서 그랬던 적은 한 번도 없었습니다. 99.99% 확률로 어제 숫자를 잘못 끌고 온 경우입니다.


또 특정 지표에 변동이 있었다면 그와 연결된 지표도 함께 변동돼야 합니다.

예를 들어 이번달 매체 효율을 예측할 때 지난달과 이번달 매체 효율이 비슷할 것 같다고 가정했습니다. 다만, 어떤 이유가 있어서 가입 단가를 20% 증가시켰다고 하면 어떤 숫자들이 변화해야 할까요? 퍼널 구조를 생각해 보면 어떻게 계산해야 할지 알 수 있습니다.


이번 글에서는 데이터 qc 하는 방법 세 가지에 대해 알아봤습니다.

다음 글에서는 가장 중요한 ‘데이터 쪼개기’와 관련된 노하우에 대해 공유하도록 하겠습니다.

매거진의 이전글 [시선]데이터 퀄리티 컨트롤 노하우_프롤로그편
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari