데이터 분석가의 데이터 리터러시 이야기
요즈음은 꼭 데이터 분석 직군이 아니더라도 데이터를 잘 활용할 수 있는 능력을 갖춘 직원을 원하는 기업이 많은 것 같습니다. 데이터 리터러시(Data Literacy), 데이터-드리븐(Data-driven)이라는 표현들도 채용 공고에서 심심치 않게 찾아볼 수 있고요. 대부분의 기업에서 데이터의 중요성을 깨닫고 자사의 제품이나 서비스에서 나오는 데이터를 쌓아두기 시작하면서 일어난 변화인 듯합니다. 많은 돈을 들여 소중한 데이터를 쌓고 있으니, 꼭 데이터 분석 직군이 아니더라도 모든 직원들이 데이터를 참고해 효율적인 의사 결정을 하길 바라는 것이겠죠.
그래서 오늘은 제가 생각하기에 데이터 리터러시 향상에 도움이 되는 사고방식을 세 가지 소개해보려고 합니다. 간단해 보이는 내용들이지만 은근히 간과하시는 분들도 많은 것 같아서, 참고해 주시면 데이터 활용 역량을 인정받는 데에 조금이나마 도움이 되지 않을까 싶어요:)
(*참고로 아래에서 제가 예시로 드는 수치들은 모두 가상의 값입니다.)
'기저 효과(基底效果)'는 기준 시점에 따라 지표가 실제보다 위축되거나 부풀려 보이는 현상을 의미합니다. 예를 들어, 회사에서 늘 전주 대비 매출 증감률을 트래킹하고 있다고 해볼게요. 그리고 이번주에 출근해서 지표를 보니 아래와 같은 상황입니다. 거의 24%나 하락했다니! 이 수치만 보고 놀라서 굉장한 위기 상황이라고 생각할 수도 있을 텐데요. 하지만 만약 공교롭게도 전주가 대규모 세일 주간이었다면, 이번주의 매출이 큰 폭으로 하락한 것처럼 보이지만 사실은 아무런 문제가 없는 상황일 수도 있습니다.
자, 그러면 이번에는 앞선 주간들의 수치까지 함께 살펴보겠습니다. 이렇게 보니 어떠신가요? 4월 2주차가 세일 주간이었기 때문에 이번주의 수치가 기저 효과로 크게 하락해 보이는 것뿐이라는 걸 알 수 있습니다. 그리고 오히려 평주간인 3월 4주차나 4월 1주차와 비교하면 매출이 꽤 많이 증가한 상황이죠. 처음에 전주 대비 증감률만 보고 단편적으로 생각했던 것과 달리 위기 상황이 아니며 오히려 상황은 긍정적으로 보입니다.
이렇게 회사에서는 보통 '전일 대비', '전주 대비', '전월 대비', '전년 대비' 등 특정 기간과 비교해서 현시점의 성과를 평가하는 경우가 많은데요, 기준 시점이 언제이냐에 따라 기저 효과에 따라 지표가 실제보다 크게 위축되거나 부풀려 보일 수 있으니 늘 장기간의 추세를 함께 보는 습관을 기르면 도움이 됩니다. 만약 실제로는 좋은 상황인데 괜히 증감률만 보고 위기라고 생각해 그 이유를 찾느라 업무 시간을 허비하게 된다면 아쉬울 테니까요.
두 번째로, 비교 대상이 없는 수치는 보통 아무런 의미가 없다는 점을 말씀드리고 싶습니다. 예를 들어, 현재 우리 회사 앱의 DAU가 30만이라는 수치를 얻었다고 해볼게요. 이 수치를 어떻게 받아들여야 할지, 그리고 이를 바탕으로 어떤 의사 결정을 해야 할지가 떠오르시나요?
그럼 이번에는 '우리 회사 앱의 DAU가 30만인데, 동일한 서비스를 제공하는 경쟁사는 DAU가 60만이다'라는 정보까지 덧붙여 보겠습니다. 이렇게 비교 대상이 있는 수치를 보게 되면 우리는 그제서야 수치의 의미를 파악할 수 있게 됩니다. "DAU가 2배나 차이가 나다니, 경쟁사 대비 무엇이 부족한지 확인해 봐야겠군" 이런 생각이 들지 않으신가요?
혹은, 비교 대상이 꼭 외부에 있을 필요는 없습니다. '우리 회사 앱의 DAU가 현재 30만인데, 지난달에는 보통 10만~15만 정도였다'는 정보가 있다면 이를 바탕으로도 의미를 도출할 수 있습니다. "지난달 대비 성장세가 높은데, 어떤 부분 때문이었을까?" 이런 생각을 해볼 수 있죠. 앞서 언급한 것처럼 대부분의 회사에서 전일 대비, 전주 대비 등으로 기간과 기간을 비교해 성과를 평가하는 경우가 많다는 점도 같은 맥락입니다. 수치 하나만 보고는 해석이 어려우니 다른 기간과 비교해 의미를 찾게 되는 것이죠. (물론 이때 1번에서 언급한 '기저 효과'에 대한 부분도 함께 고려해야 한다는 점, 잊지 말아 주세요.)
이렇게 비교 대상이 없는 수치는 그 자체만으로 의미를 갖기가 어렵기 때문에, 회사에서 어떤 수치를 가지고 이야기를 할 때에는 비교 대상을 함께 준비해 주시면 좋습니다. 예를 들어, "이번에 A화면을 개편하면서 A화면에서의 상품클릭수가 20% 증가했습니다"라고 보고하는 직원과 "이번에 A화면을 개편하면서 A화면에서의 상품클릭수가 20% 증가했는데, 이는 앱의 전체적인 상품클릭수 증가율인 5%와 비교할 때 매우 큰 수준입니다"라고 보고하는 직원이 있다면 누구나 후자를 선호할 것입니다.
물론 실제 회사에서는 그냥 수치 하나만 들고 가서 이야기해도 말이 통하는 경우가 종종 있을 텐데요, 그건 논의에 참여하는 분들이 이미 다년간의 회사 생활을 통해 비교 대상이 되는 수치들을 머릿속에 넣고 있기 때문에 가능한 것입니다. 단순히 "DAU가 30만이네요"라고만 해도 모두가 과거의 DAU 수준을 이미 알고 있기에 논의가 진행될 수 있는 것이죠. 하지만 모든 경우가 이렇지는 않기 때문에, 저는 논의에 참여할 대상자들이 모두 비교할 만한 수치를 다 알고 있다고 가정하는 대신 미리 비교할 만한 수치를 함께 준비해서 가져가는 편을 추천드리고 싶습니다.
보통 우리가 회사에서 당면하게 되는 데이터는 한눈에 다 담을 수 없을 만큼 크기 때문에, 적절하게 집계해서 사용하는 것이 일반적입니다. 예를 들어, A그룹과 B그룹을 비교한다고 하면 보통 두 집단에 속한 유저들의 수치를 하나하나 들여다보는 대신 { A그룹 평균 vs B그룹 평균 } 이런 식으로 대표적인 값을 집계해 비교하게 되죠.
그런데 우리는 일반적으로 평균이라는 통계량을 매우 자주 사용하다 보니, 평균값을 마치 하나의 고정된 값처럼 인식하는 경우가 생깁니다. 사실은 해당 그룹에 속한 여러 유저들의 값들 하나하나가 모두 평균값에 영향을 미치고 있는 것인데도요.
예를 들어, 우리 서비스의 유저들을 A그룹과 B그룹으로 나눠 A/B 테스트를 하고, 그 결과를 살펴보는 상황이라고 가정하겠습니다. 그리고 결과가 아래와 같이 집계되었다고 해볼게요. (*물론 실전에서 이렇게 적은 수의 유저를 대상으로 테스트를 진행할 리는 없지만, 수치 해석이 쉽도록 단순화해 보았습니다.)
위와 같은 결과를 볼 때 생각보다 많은 분들이 평균값에만 주목하고 결론을 내려하십니다. "A그룹은 53,750원이고 B그룹은 51,250원이니까, A그룹 성과가 더 좋았네!" 이런 식으로요. 이게 바로 데이터를 점으로 보는 사고방식으로, 그래프 상에 53,750원 그리고 51,250원이라는 두 개의 점만 찍고 이 둘만 비교하려 하는 것이죠. 하지만 유저의 전체적인 수치를 살펴보면 사실 1번 유저를 제외하면 A그룹의 성과가 B그룹에 비해 전반적으로 낮다는 걸 눈치챌 수 있습니다. 이런 상황에서 "A그룹이 성과가 더 좋으니, A 쪽으로 가자"라고 의사 결정을 한다면 실제로는 B로 결정할 때보다 성과가 악화될 수도 있겠죠.
그렇기 때문에 데이터를 볼 때에는 눈앞에 있는 수치 두 가지의 대소 비교에만 집중하기보다, 그 이면에 숨어 있는 값의 분포를 함께 고려해야 합니다. 그리고 물론 실전에서는 위의 예시처럼 유저 수가 적을 리는 없으니, 모든 유저의 값을 하나하나 뜯어볼 수는 없겠죠. 그러니 몇몇 유저를 추출해 그룹 간 비교를 진행하는 경우라면 평균값만 비교하는 대신 신뢰 구간을 함께 살펴보고 결정을 내리는 편을 추천드립니다. 위의 예시만 봐도 95% 신뢰구간으로 비교하면 A > B라고 해석할 리가 없으니까요.
(A그룹: -9,430~116,930 vs B그룹: 42,882~59,618)
이상으로 데이터 해석에 도움이 되는 사고방식 3가지를 주관적으로 골라 소개해보았습니다. 쉬워 보이지만 생각보다 주변에서 간과하시는 경우가 많은 내용으로 뽑아보았는데, 이미 이러한 원칙을 잘 지켜서 데이터를 보고 계신 분이라면 당연하게 느껴질 수도 있을 것 같아요. 하지만 어느 분야에서나 당연한 부분을 잘 지켜가며 일하는 게 생각만큼 쉽지는 않으니까, 이미 알고 계셨던 분들이라도 한 번 더 짚고 넘어가면 분명 업무에 도움이 되실 거라고 생각합니다.
그럼, 흥미로운 내용이셨길 바라며 다음에도 좋은 글로 찾아뵙겠습니다:)