16 아내의 스토어에 데이터 훈수를 두다니

그건 어떤 데이터를 보고 알 수 있는 사실인가요?

by 정경문
입만 분석가,
뭔가 도움이 되는 걸 좀 내놔봐?!


온라인 스토어를 운영하고 있는 아내는 데이터 분석가 남편에게 실망이 이만저만이 아닙니다. 매일 회사에서만 데이터 분석을 하고, 정작 아내의 사업에 대해 분석을 해주지 않기 때문입니다.

그래서 오늘만은 아내에게 능력 있는 남편이 되기로 마음먹습니다!!


가정의 달 이벤트로 고객들이 더 많이 구매하도록 '쿠폰 자동 발송' 기능을 만들려고 합니다. 하지만 그에 앞서 기존에 제공한 쿠폰이 효과적인지 아닌지 먼저 확인하고자 합니다. 왜냐하면 쿠폰이 가격만 할인해주고 판매량은 늘지 않으면 손해니까요.


그래서 지난 한 달 동안, 성별과 쿠폰 발송 여부별로 평균 구매 횟수 데이터를 수집합니다. 그리고 그래프로 나타내 보면 다음과 같습니다.


쿠폰 제공 여부를 왼쪽과 오른쪽으로 구분하였고, 파란색은 남자 고객, 그리고 주황색은 여자 고객이고, 막대의 높이는 구입 횟수를 나타냅니다.


이 그래프를 보고 뭐라고 말씀하시겠어요? 아마도 보통은 아래와 같이 이야기를 하실 겁니다.

* 쿠폰 제공 여부를 통해 비교할 경우, 쿠폰을 제공한 사람의 구입 횟수 총합이 더 큽니다.
* 여성 고객의 경우, 쿠폰을 받은 사람이 그렇지 않은 사람보다 구입 횟수 평균이 높습니다.
* 남성 고객의 경우, 쿠폰 제공 여부와 관계없이 구입 횟수 평균이 차이가 작습니다.


위 3가지 답변에 대해 어떻게 생각하세요? ‘틀린’ 답은 없습니다. 그래프를 보고 바르게 ‘결과를 설명하고 있다’고 할 수 있습니다. 여러분이 아내라면 이 결과를 듣고 나서 어떤 판단과 행동을 하겠습니까? 아니, 우선 남편에게 뭐라고 말하실 것 같으세요?


이런 내용의 보고에 대해 “그러니까 결론이 뭐야?”, “무슨 말이 하고 싶은데? 그래서 뭐 어쩌라고?” 라며 데이터 분석가 남편에게 짜증만 나지 않을까요?


왜냐하면 위 답변은 모두 그래프를 통해 읽을 수 있는 사실에 대한 설명에 지나지 않기 때문입니다. 즉, ‘결과’에 대한 설명에 그치고 있습니다. 다시 처음으로 돌아가 볼까요?


아내는 본질적으로 무엇을 원했고, 무엇을 알고 싶었나요?


위 세 가지 답변에는 아내가 원하는 대답이 있나요?? 미안하지만 위 답변에는 어느 하나 이에 대한 답이 나와 있지 않습니다.



# 01. 데이터 분석에서 ‘결과’와 ‘결론’은 달라요.

데이터만 30년 동안 '활용'해 오신 활용 달인을 모시겠습니다.


데이터 활용의 최종 목적은 무엇일까요? 바로 "행동"입니다.

이 부분의 구체적인 실천방법은 앞으로 "Chapter 4. 데이터도 잘 씁니다"에서 더 배우겠습니다. 그전에 먼저 데이터를 '활용한다'는 의미부터 알아보겠습니다. '데이터를 활용한다'의 의미는 분석을 통해 얻어낸 결과를 판단과 행동으로 이끄는 것을 말합니다. 그렇다면 아내 온라인 스토어 사례에 대해 다음과 같은 답은 ‘결론’으로 어떨까요?


쿠폰 발송은 구입 횟수 증가에 효과적입니다.
쿠폰 발송은 여성고객에게 효과적이지만, 남성 고객에게는 그렇지 않습니다.


중요한 점은 위의 2가지 답변이 데이터를 통해 쿠폰 발송의 효과를 확인한다는 ‘목적’과 관련된 내용을 설명하고 있다는 것입니다. 그리고 결론에는 직접적인 계산 결과와 통계 전문용어는 포함되어 있지 않습니다. 그것이 포함되면 결과를 설명하는 것이 되기 때문입니다.


데이터 → 결과 → 결론


지난 시간에는 "데이터 = 결론"에 대해 알아봤습니다. 우리가 사용하는 데이터가 말하고자 하는 결론과 일치해야 논리적 설득력을 갖춥니다. 데이터와 결론의 중간에 들어가는 과정이 바로 '결과'예요

결과는 데이터에서 결론을 이어주는 과정이자 데이터를 설명하고 과학적으로 결론까지 이어주는 징검다리 역할을 하는 것입니다. 데이터를 설명하는 결과가 나오고, 결과를 기반으로 결론을 맺게 됩니다.


그냥 데이터로 결론을 말하면 안 되냐고 반문하실 수도 있을 것 같아요. 하지만 결론을 도출할 때 중간 과정 없이 훌쩍 뛰어넘는다면 듣는 사람이 불편하거나 이해하기 어려워지겠죠? 중간에 들어온 결과라는 작은 차이가 듣는 사람에게 있어서 설득력이나 전달력에 큰 영향을 끼치게 됩니다. 이 차이를 알아내고 부드럽게 이어주는 것이 데이터 활용의 중요한 능력이라고 할 수 있습니다.


데이터 리터러시(문해력)는 ‘결과적으로 데이터를 분석해 획득한 정보를 목적에 맞게 활용하는 능력’이 필수적입니다. 어느 정도의 센스나 발상 능력이 필요합니다. 하지만 무엇보다 필요한 것은 원래 설정한 목적, 무엇을 말하고 싶은지, 말해야 하는지, 상대방이 알고 싶어 하는 것은 무엇인지 등을 명확히 하는 것이 중요합니다. 앞서 ‘목적과 문제의 정의’를 강조한 것도 이와 연결됩니다.



# 02. 데이터 분석은 정답이 아니라 '나의 목적'을 찾는 것


정답을 찾는데 익숙한 우리들


저는 데이터 분석 강의와 멘토링에서 될 수 있으면 학생들이 분석한 결과를 직접 발표하는 시간을 할애합니다. 그리고 ‘결과가 아니라 결론을’, ‘그로부터 알 수 있는 것은?’, ‘그래프를 읽지 말고(설명하지 말고)’라는 말을 많이 합니다. 하지만 결국은 여전히 결과 설명에만 그치는 학생이 많습니다. 상대방에게 자신의 의사를 전달하는 것이 프레젠테이션인데, 결과를 설명하고 있다는 것은 자신이 데이터를 활용하는 목적을 모른 채 작업했다는 뜻입니다. 구체적으로 지적하기 시작하면 곧바로 알아듣곤 합니다.


계산이나 분석을 통해 눈에 보이는 값이나 결과물을 도출하는 것이 목적이 되어버리면, 그러한 함정에 쉽게 빠지게 됩니다. 유감스럽지만 여기서도 정답 위주 교육의 현실이 부각됩니다. 정확히 계산하고 그 값을 도출하기만 하면 만점을 주는 공립 교육에서는 결국 계산 결과를 틀리지 않는 것만을 목적으로 하게 됩니다. 그래서 결과만 나오면 목적 달성이라고 생각하고 안심하여 더 이상 진행하지 않습니다. 하지만 계산 결과는 과정일 뿐, 그 앞에 훨씬 중요한 것이 있는 데 이를 인식하지 못하고 있다니 너무나 아쉽습니다.


제가 대학생이 발표하는 것을 보고 나서 ‘그렇지만 그것은 결과일 뿐입니다’라고 말하면, 그들은 ‘아, 그건 그렇죠’라는 식으로 반응합니다. 아마도 그들도 내심으로는 ‘아직 과정일 뿐’이라고 알고 있지만, 결론을 내기 위한 실천적인 훈련을 경험하지 못했기 때문입니다.



# 03. 그건 어떤 데이터를 보고 알 수 있는 사실인가요?


결과로부터 결론을 도출할 때는 자신의 정보 집약 능력에 더해 어느 정도 상상력도 필요합니다. 하지만 여기서 주의해야 할 점은, 필요 이상으로 자신의 해석을 덧붙이지 않아야 한다는 것입니다. 원칙적으로, 어디까지나 데이터를 통해 알 수 있는 사실의 범위 내에서 생각해야 합니다.


다음은 데이터 분석 강의에서 학생들에게 실습으로 주어지는 3단계 과제입니다.

우리나라의 주택매매 가격지수 데이터 사례를 통해 알아보도록 하겠습니다. 우리나라의 주택매매 가격지수는 데이터는 2004년부터 수집되었습니다. 2021년 6월의 가격을 100으로 기준을 삼고 다른 시기의 가격을 환산하여 계산한 값입니다.


전국 주택매매 가격지수(2004~2022)
데이터 출처 : 국가통계포털(KOSIS), 기준시점 : 2021.6=100


다음 데이터를 통해 알 수 있는 것은 무엇입니까?

학생들에게 이 그래프를 설명해보라고 하면 생각보다 난감해합니다. 무슨 말을 어떻게 할지 모르는 게 더 맞는 표현일 것 같습니다.


그러다가 결국 학생들은 이렇게 대답합니다.

① "2006년에서 2008년까지 가격이 크게 오르고, 2008년 서브프라임 모기지 때문에 상승이 정체되었습니다."
② "2008년부터 2017년까지 가격이 안정되었는데 이는 이명박, 박근혜 정부 때 주택공급을 많이 했기 때문입니다"
③ "2020년에는 코로나 팬데믹의 영향으로 통화량이 증가해서 집값이 상승했습니다"
④ "앞으로도 주택 가격은 꾸준히 상승할 것입니다"


위 답변들에서 공통점이 무엇일까요?

네, 바로 "데이터에서 알 수 없는 사실들을 섞어서 말했다"는 점입니다.


① 가격이 크게 오른 것은 사실이지만, 2008년 서브프라임 모기지를 위 데이터를 보고는 알 수 없고, 또 그 때문에 가격이 정체되었는지는 더욱 알 수 없습니다.
② 특정 정부 때 주택공급을 많이 해서 가격이 안정되었는지 또한 데이터에는 나타나 있지 않습니다.
③ 통화량이 증가했는지 여부, 그로 인해 집값이 상승했다는 정보 또한 이 그래프를 보고 알 수 없습니다.
④ 끝으로 주택 가격은 꾸준히 상승할 것이다라는 것은 객관이 아니라 주장입니다.


전국 주택매매 가격지수(2004~2022)
데이터 출처 : 국가통계포털(KOSIS), 기준시점 : 2021.6=100

이번에 보여드린 위 그래프를 보고서야 비로소 정부별 부동산 정책기조와 주택매매 가격지수의 변동을 말할 수 있습니다.


전국 주택매매 가격지수(2004~2022)
데이터 출처 : 국가통계포털(KOSIS), 기준시점 : 2021.6=100


또 이번 그래프를 보고서야 정책이 전세와 매매 가격에 어떠한 영향을 주었는지, 반대로 어떠한 전세와 매매 가격의 흐름일 때 어떠한 정책이 시행되었는지를 설명할 수 있습니다.


데이터라는 사실 + 갑툭튀 주장
= 정체불명 결론


앞서 학생들은 왜 사실과 주장을 섞어서 답변한 것일까요? 그것은 아마도 본인들이 어디까지가 데이터를 통한 사실이고 어디까지가 자신의 상상인지 판단하는 훈련이 덜 되어있기 때문일 겁니다. 결과적으로, 데이터라는 객관적인 것을 활용했음에도 불구하고, 마지막 결론에서 스스로 그 품질을 떨어뜨린 셈이 됐습니다.


학생들의 경우 특히 이런 실수를 자주 범합니다. ‘데이터의 계산 결과를 단순히 읽는 것이 아니라 무슨 의미가 있는지 자신의 말로 설명하시오’라고 결론을 낼 것을 지시하면, 자신도 모르는 사이에 자신의 해석과 상상을 섞어버리곤 합니다.


내가 설명하고 있는 말들이 사실인지 주장인지를 알고 싶다면 이렇게 물어보세요

"방금 말씀하신 그것은 어떤 데이터를 보면 알 수 있는 것인가요?"

그때서야 비로소 자신의 실수를 깨닫습니다. 데이터를 분석하고 활용할 때 자신이 ‘그것은 어떤 데이터를 통해 알 수 있는지’를 의식하면서 자가점검을 하지 않는다면, 데이터로 설명 가능한 범위에서 벗어나기 쉽다는 점을 명심했으면 합니다.




# 04. 결론을 서술한다는 의미


이번 시간에는 결과와 결론의 의미에 대해 알아보았습니다. 데이터를 모으고, 분석한 후에 우리는 결론을 도출합니다. 다시 정리하자면 '결과와 결론은 다르다'라는 것입니다. 데이터 분석을 통해 나온 설명들은 어디까지나 ‘결과’이고, 그 결과가 애당초 목적에 어떤 의미를 부여하는 것이 ‘결론’입니다.


다시 처음 이야기인 아내의 스토어로 돌아가서 마무리하겠습니다.

아내가 '데이터 활용’을 통해 궁극적으로 원하는 것은 무엇이었을까요? 통계용어가 가득 찬 결과였을까요? 아니면 사업 판단과 행동에 필요한 간결한 결론이었을까요? 당연히 ‘결론’이었을 겁니다.


결국 데이터 분석가 남편은 쿠폰 발송이 여성 고객에게 효과가 있다는 결론을 제출합니다. 변해가는 세상에서 계속해서 또 다른 결과와 결론에 도달합니다. 사업의 성공에 한 발짝 한 발짝 다가가며 아내와 손을 꼭 잡고 걸어갑니다.


※ 본 편은 "데이터 문해력"(카시와기 요시키 지음. 강모희 옮김. 프리렉 출판사)을 인용하여 작성하였습니다.

keyword
이전 16화15 내 월급이 와친남보다 적은 이유