brunch

You can make anything
by writing

C.S.Lewis

by ASH Dec 22. 2021

데이터 분석을 잘하는 사람과 못하는 사람의 결정적 차이

데이터 문해력에서 뽑은 163개의 핵심 파트 (1)

다들 데이터가 중요하다 말하지만, 데이터를 정말 잘 활용하는 사람은 극소수다. 또 데이터에 관심 있고, 데이터를 자유자재로 다루고 싶어 하는 사람들도 정말 많다. 그래서 각종 온라인 교육 사이트에서 데이터 교육 코스, 부트캠프 등을 내놓고 있다. 시중에 SQL, R, 파이썬, 엑셀 등등 정말 많은 데이터 분석 툴 강의가 있다.


데이터 분석을 잘하고 싶어 하는 사람들도, 데이터 분석을 가르쳐 준다는 교육 코스들도 전부 툴 사용에만 집중한다. 정작 데이터를 어떤 관점에서 바라봐야 하는지, 데이터를 분석할 때 어떤 마인드셋을 가져야 하는지는 상대적으로 소홀히 한다.


툴이 중요한 것은 맞는데, 툴 사용 이전에 데이터 분석을 위해 필요한 논리적 사고방식, 마인드셋이 갖춰져야 한다. 이런 논리적 사고방식, 마인드셋 없이 툴만 다룰 줄 아는 건 의미가 없다. 데이터 분석 결과를 해석하지 못하거나 실행까지 이어질 수 있는 인사이트를 도출하지 못한다면, 아무리 고난도의 쿼리와 명령문을 잘 짜도 의미가 없다.


이 책은 데이터 분석에 대한 기본적인 마인드셋을 잘 알려준다. 그런 면에서 데이터 분석에 관심이 있다면 읽어보는 걸 추천한다. * 일본 책이라 일본어를 한국어로 번역했을 때의 특유의 번역체가 많이 보이지만 엄청 거슬릴 정도는 아니다.


* 직접 구매해서 읽고 쓰는 내돈내산 후기입니다. :)




기계가 할 일과 사람이 할 일


1. 전문 직종 종사자가 아니라 자신의 목적이나 문제를 데이터로 풀어보고 싶어 하는 사람이라면, 정말로 꼭 필요한 것이 무엇인지 잘 생각해보고 공부해야 할 것입니다. 즉, ‘기계에 맡길 수 있는 일', ‘맡기는 편이 더 은 일’과 ‘기계가 할 수 없는 것’, ‘사람이 해야 하는 것’을 구별하고, 후자를 갈고닦아 자신에게 필요한 형태로 효과적으로 활용해서 최대한의 결과물을 창출하는 것을 목표로 삼는 것입니다.


2. ‘점점 편리해지는 기계와 도구들이 많아져 사용법과 조작법만 익히면 전부 알아서 해주고 원하는 것까지 손에 넣을 수 있는가'라고 묻는다면, 그 대답은 아쉽지만 NO입니다. 데이터를 최대한 활용하고 가치 있는 결과물을 도출하려면, 기계와 도구 조작법을 깊게 이해하는 것과 별개로, 우리가 직접 익혀야 하는 고도로 가치 있는 기술이 필요하기 때문입니다.

 

(1) 생각하고 - 분석 전에 문제 및 목적을 정의하고 가설을 구축
(2) 작업하고 - 분석을 위한 기술과 지식
(3) 생각한다 - 분석 결과에 대한 해석 및 스토리 구축

3. 통계 지식이나 분석 방법 등, 기계와 도구가 더 잘하는 부분이 바로 가운데 있는 (2) 번 상자입니다. 이 상자는 왼쪽에 있는 ‘(1) 분석 전에 문제 및 목적을 정의하고 가설을 구축'이라는 ‘입력(input)’을 통해 비로소 효력이 생깁니다.


4. 또한, (2)를 통해 도출된 결과물은 어디까지나 계산과 분석의 ‘결과'에 지나지 않습니다. ‘결과'는 (1)에서 정의한 목적과 문제에 대한 직접적인 해답이 되기 어려우며, 이 때문에 다른 사람에게 전달했을 때 이해를 받고 동의를 얻기 힘들어집니다.


5. 그래서, 그 ‘결과’에 목적과 문제에 따른 해석을 추가해 ‘스토리', 즉 결론을 내리게 됩니다. 이것이 (3)에서 이루어지는 작업입니다. 필자는 이러한 일련의 과정이야말로 ‘데이터를 활용하기' 위해 반드시 필요한 것이라고 말합니다.


6. (1)과 (3)에서 나타내듯, 통계와 분석 방법을 활용하기 위한 ‘사고방식'이 필요한 것입니다. 그리고 이들은 매뉴얼이나 교과서에 쓰여 있는 대로 흉내 내거나, 기계의 시작 버튼을 누른다고 해서 답이 나오는 것이 아닙니다. 쉽게 답이 나오지 않기 때문에, (1)과 (3)이 높은 가치를 가진 기술이라고 하는 것입니다. 필자는 이것이 살아남기 위한 기술이라고 확신합니다.



데이터를 먼저 보지 마라 - 데이터 안에 답은 없다


“이 그래프를 통해 무엇을 말할 수 있을까요?"
“이 그래프를 작성한 사람은 (그래프 작성 전에) 무엇을 말하고 싶었을까요?”

7. 전자는 ‘데이터와 그래프 중심의 사고'를 전제로 한 질문으로, 누군가가 만든 데이터와 그래프를 읽어내는 것만 추구하는 것입니다. 이 경우 자신이 알고 싶은 것(목적)이나 그 목적에 부합한 데이터의 선택, 데이터를 보는 관점을 전부 고려하지 않게 됩니다. 한편 후자는 ‘목적 사고력'이라 할 수 있습니다. 데이터 작업 전에, 애당초 무슨 말을 하고 싶은지(무엇이 알고 싶은지)를 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식입니다. 필자가 목표로 하는 데이터 문해력이란 바로 후자에 해당합니다.


8. 데이터 분석을 실무에서 활용하지 못하는 사람들은 대체로, “이 데이터를 적당히 건드리다 보면 뭔가 유용한 정보가 나오겠지. 아무것도 안 나온다면 분석 방법이나 지식이 부족하기 때문일 거야.”라고 생각해서 즉, 데이터와 분석 작업을 선행한다는 것입니다.


9. 데이터가 여러분에게 직접적인 답을 주는 경우는 없습니다. 설령 아무리 고난도의 통계와 분석 방법을 구사하더라도 말입니다. 대신, ‘당신이 무엇을 알고 싶은지, 이를 알게 되면 무엇을 하고 싶은지, 이를 위해서는 어떤 데이터(지표)가 필요한지' 이를 구체적으로 생각하는 것이 무엇보다도 중요합니다.


10. 자주 겪는 문제점

(1) 데이터를 적절하게 분석하면 문제와 목적, 결론이 나올 것으로 생각한다(이것은 본래 분석자 스스로가 생각해야 하는 것).
(2) 눈앞의 데이터를 적절히 가공하면 뭔가 유용한 정보를 얻을 수 있을 것으로 생각한다. 아무것도 안 나오게 되면, 분석 방법에 문제가 있다고 생각한다.


11. 데이터와 데이터 분석은 목적을 달성하기 위한 도구에 지나지 않습니다. 어디까지나 하고 싶은 말과 해결하고 싶은 것이 있기 때문에 이러한 목적에 대한 인프라나 도구로서 데이터를 활용하는 것입니다. 인프라와 도구가 단독으로 일을 성사시킬 수는 없습니다.



데이터 활용 레벨


12. 레벨 1: 그래프 중심. 주제에 부합할 법한 그래프를 일단 모은 다음, 거기서 읽어낼 수 있는 것을 결론으로 하는 것입니다. 스스로 문제의식과 구체적인 주제를 생각하는 것이 서투른 고등학생들이 빠지기 쉬운 패턴이라고 할 수 있습니다. 그래프에서 정보를 얻는 것 자체가 이미 분석이라고 하기 어렵고, 복수의 그래프를 억지로 연결해서 내린 결론은 논리가 결여되어 있기 마련입니다.


13. 레벨 2: 데이터 중심. 레벨 1과의 차이는 수집한 데이터를 직접 그래프 등으로 가공하는 단계가 들어간다는 점입니다. 자신이 직접 작업하기 때문에 ‘분석하고 있다'는 느낌은 들지만, 그로부터 얻을 수 있는 결론은 레벨 1과 별반 차이가 없습니다.


14. 레벨 3: 목적 중심. ‘기존 그래프와 데이터를 통해 알 수 있는 것이 무엇인지'가 아니라, 나 자신이 알고 싶은 것(목적)에 따라 데이터를 수집하고 분석해서 그 결과를 검증하고 결론으로 연결하는 것입니다.


 

데이터 활용에 실패하는 두 가지 이유

주요 원인 1: 풀고자 하는 문제가 명확하지 않다.
주요 원인 2: 정의한 문제와 사용하는 데이터가 일치하지 않는다.



풀고자 하는 문제가 명확하지 않다


15. 절대적인 정답이 존재하지 않을 때, 여러분은 자신의 생각을 무엇으로 논리적이고 객관적으로 상대방에게 전달하고 이해시킬 수 있을까요? 자신의 결론을 이끌어 내는 이야기를 만들어내는 능력이 앞으로 더욱 중요해진다는 것은 더 말할 필요도 없습니다.


16. 데이터 활용에서 먼저 해야 하는 작업은 ‘목적과 문제를 정의하는’ 것입니다. ‘나는 무엇을 알고 싶은가’, ‘나는 무엇을 해결하고자 하는가’ 이 두 가지를 명확히 하는 것에서부터 활용 프로세스는 시작합니다. 이들은 ‘이미 아는 것'인 경우가 많으며 그러므로 의식적으로 ‘다시 확인한다' 정도의 인식을 하고 있으면 충분합니다. 왜냐하면, 대부분은 겉으로 드러난 상황이나 문제 그 자체가 여러분이 풀고자 하는 문제를 직접적으로 드러내고 있다고 단정할 수 없기 때문입니다.


17. 데이터를 활용하고자 진행하면서 자신이 어떤 문제를 풀어야 할지, 어떤 것을 알아야 할지 등을 명확히 정의하지 않은 채 시작한다면 결과는 엉망이 되기 십상입니다.


18. 자신이 알고 있거나 보고 들은 적이 있고 경험한 적 있는 직접적인 대상은 어디까지나 겉으로 드러난 현상과 사실이기 때문에, 앞으로 다루게 될 ‘문제와 목적'이라고 하기엔 충분하지 않다는 것을 항상 염두에 두기 바랍니다.


19. 포인트 1: 사용된 언어가 구체적이고 명확한가? 여러분이 알고 싶은 것과 말하고 싶은 것이 무엇인지 명확히 할 필요가 있습니다. 무엇이 문제이며 구체적으로는 어디 사는 누가 어떤 식으로 곤란에 처해 ‘문제’가 발생한 것인지, 이 점을 명확하게 해야 합니다. 이러한 생각 없이 우연히 눈에 띈 데이터를 모아 그래프로 그려 봤자, 의미 있는 결론이 나오길 기대할 수 없습니다. 거기서 알게 되는 사항은 어쩌다 나온 사소한 발견일 뿐입니다. 그 안에는 어떠한 논리성도 객관성도 없다는 것을 이전에도 설명한 바 있습니다.


20. 반복해서 말하지만, 정답은 없습니다. 그러나 자신이 무슨 말을 하고 싶은지 구체적으로 정의하는 것은 데이터를 활용할 때의 필수 조건입니다. 왜냐하면 문제를 정의하는 방법에 따라서 활용하게 될 데이터가 달라지기 때문입니다. 자신이 말하고 싶은 것이 구체적으로 정해지지 않은 상태에서 작업을 진행하게 되면, 어떤 데이터를 사용했는지에 따라 각각의 문제에 영향을 줄 뿐만 아니라, 결과물에서도 가장 중요한 전체적인 스토리 구조가 모호해지게 됩니다. 이렇게 되면 아무리 좋은 데이터나 훌륭한 분석 방법을 사용한다고 하더라도 상대방을 이해시키기가 어려워질 것입니다.


21. 포인트 2: ‘문제’, ‘원인', ‘해결 방안'을 구분하고 있는가? ‘문제'가 무엇인가 / 그 문제를 일으키는 ‘원인'은 무엇인가 / 그 원인에 대한 ‘해결 방안'은 무엇인가 앞의 세 가지를 구분해 인식하는 것이 중요합니다.


22. 애당초 ‘해결 방안'이란 것은 겉으로 드러난 문제를 비근원적으로 대처하는 것이 아니라, 문제를 일으키는 ‘원인’을 규명해서 이에 대한 ‘방안'을 적절하게 마련하는 것입니다. 작업을 시작하기 전에, 해결하고자 하는 ‘문제'와 그 ‘목적'에 대해 명확히 할 필요가 있습니다. 여러분이 설정한 ‘목적'에 대한 ‘문제', ‘원인', ‘해결 방안'이 구분되어 있는지, 결론적으로 말하고 싶은 것과 해결하고자 하는 것(목적, 문제)이 명확한지도 확인해야 합니다.


23. 데이터라는 객관적인 정보를 이용해서 ‘문제'의 ‘원인'을 규명하고 그 해결 방안을 수립하고자 하는데, 시작도 하기 전에 주관적인 자신의 추측을 가지고 원인을 단정 짓는 것은 바람직하지 않습니다. 그렇게 되면 ‘데이터를 활용한다'라는 기반을 스스로 허무는 것과 마찬가지입니다.


24. 우리 눈에 보이는 현상으로 인해 어떤 곤란한 점이 있는지, 무엇이 ‘문제'인지 명확히 하지 않는다면 상대방을 제대로 이해시킬 수 없습니다.


25. 어떤 것이 옳고 그른 것인가 따지지 말고, 일단 머릿속으로 이러한 삼자 관계를 정리하고 이해할 필요가 있습니다. 그리고 무엇을 ‘문제'로 삼고, 어떤 데이터를 활용할지 결정해가는 것이 중요합니다.


26. 방안을 제시하는 것 자체가 문제라는 말이 아니라, 목적과 문제를 정의하는 시점에서 이미 결론을 내버리는 것이 위험 부담이라는 뜻입니다.


27. 문제를 정의하는 시점에서 구체적인 ‘원인'을 규명하고 ‘방안'을 수립하는 것은 불가능하며, 이는 데이터를 활용해서 나중에 할 일입니다. 물론 가설이나 가정을 세우는 것 자체는 좋지만, 자신의 편견이 들어가게 되면 상황을 정리하기가 어렵기 때문에 가급적 피하기 바랍니다.


28. ‘구체적인 데이터를 이용해서 상대방에게 자신의 생각을 전달한다'라는 목표에서 알 수 있듯이, 말과 표현의 구체성은 매우 중요합니다.


29. ‘데이터를 활용했지만, 정보가 효과적으로 도출되지 않는다', ‘데이터 분석을 능숙하게 할 수가 없다'라는 고민도 그 원인은 분석 방법이나 통계에 있는 것이 아니라 대체로 앞선 예와 같이 불충분하고 부적절하게 문제를 정의했기 때문에 발생합니다.


30. 이는 비단 데이터 활용이나 분석에 국한된 이야기가 아닙니다. 일반적인 문제 해결이나 논리적 사고와 같이 데이터가 사용되지 않을 때에도 본질적으로 같습니다. 문제를 설정할 때, 다음과 같은 질문을 항상 자신에게 되물었으면 합니다. 나는 문제를 명확하게 정의해 풀고 있는가?



정의한 문제와 사용하는 데이터가 일치하지 않는다


31. ‘데이터 분석'이라고 하면, ‘어딘가에서 그래프와 표를 수집해서 그로부터 결론을 내린다'는 접근법을 취하는 경우가 많습니다. 데이터 활용을 공부한 적이 없으면 그런 발상을 떠올리기에 십상입니다. 원래는 먼저 ‘목적'과 ‘문제'를 명확히 한 후 이에 맞는 데이터를 준비해야 합니다.


32. ‘데이터 중심’이 되면 단순히 ‘데이터를 통해 무엇을 말할 수 있는가'를 열거하게 될 뿐입니다. ‘데이터를 보고 그로부터 문제를 찾아낸다'는 접근 방식도 있지만, 무엇을 문제로 설정하고 결과적으로 어떻게 하고 싶은지 숙고하지 않은 상태에서 무작정 데이터를 만지작거리고 어쩌다 찾아낸 것을 ‘문제'로 정의한다면 과연 객관성과 논리성이 있을까요?


33. 개별 데이터가 정확하고 객관적이라고 하더라도, 전체 이야기의 연결부를 주관적인 상상으로 만들어버리면 데이터의 객관성과 설득력을 살리지 못하게 됩니다.


34. 짐작이나 추측이 아니라, 논리적인 설명을 통해 이용할 지표를 결정해야 합니다. 지표를 무조건 하나만 정해야 하는 것은 아닙니다.


35. 익숙해서 무심코 사용하는 단어나 표현은 특히 주의해야 합니다. 예컨대, ‘생산성'이 그 전형적인 사례입니다. 생산성에 대해 그 의미를 잘 알고 있다고 생각하지만 실은 잘 모른 상태에서 사용하는 경우가 많습니다.


36. 어떤 지표를 사용할지 검토를 더 많이 할수록, 가장 적합하고 수집하기 쉬운 지표를 선택할 수 있게 됩니다.


37. 시작 전부터 스토리를 만들고 단정한 상태로 진행한다면, 자신이 상상한 시나리오에 맞는 정보만 취사선택하여 예정된 결론을 제시하는 데 그칠 것입니다. 또한, 수집한 데이터에서 자신이 상상한 시나리오에 맞는 정보가 보이지 않을 경우, 원하는 정보가 없어서 고민에 빠질 것이 뻔합니다. 둘 다 ‘데이터 활용'을 제대로 못 하는 전형적인 사례입니다.


38. 세분화나 분해를 하기 전에 ‘현재 상황을 어떻게 데이터로 나타낼 것인가'라는 질문에 대해 답변할 수 있는 지표를 먼저 생각해야 합니다. 일단 현재 직면한 ‘문제'를 어떻게 나타낼지에 대한 관점으로 지표를 고려하시기 바랍니다.


39. 실제로 스스로 진행할 때, 목적이나 문제로서 ‘내가 말하고자 하는 바는 무엇인가?’가 명확하다는 것을 전제로 다음과 같이 자문자답하길 바랍니다. 나는 올바른 데이터(지표)를 활용하고 있는가? 조금 더 구체적으로 말하면 다음과 같습니다. 예를 들어, 오늘 처음 만난 외부인이나 제3자에게 데이터를 보여주면서, 제 고민은 이것입니다', ‘이것이 문제입니다', ‘이것을 이해해주시면 좋겠습니다'라고 말할 때, 어떤 데이터를 활용하겠습니까? 이에 대해서만 생각하면 됩니다.



결과와 평가는 다르다


40. 목적과 문제를 정의하고 어떤 지표를 활용할 것인지 결정하면 현재 상황을 파악할 수 있습니다. 다만, ‘현황 파악'을 위해서는 다음 두 가지 차이를 확실히 인식할 필요가 있습니다.  

- 성과 및 사실, 결과를 확인할 것
- 그 결과에 대해 평가를 진행할 것


41. 실무에서 ‘가치 있다'고 생각하는 정보는 다음 중 한 가지와 연결되어야 합니다.

- 구체적인 행동을 특정할 수 있다(누가 언제 무엇을 했는지).
- 구체적인 판단을 내릴 재료가 된다.


42. 대부분 조직은 매달 매출 실적 데이터를 업데이트하고 그것을 그래프로 만들어 제안과 연결하려 합니다. 하지만 이는 ‘실적을 공지'하는 것뿐이며, 사람들이 원하는 ‘시사점'을 전하지는 못합니다.


43. ‘데이터를 다루고 있다', ‘통계 데이터를 살펴본다'라고 하면, 여러 지표를 통해 실적 추이나 결과를 그래프 등으로 알기 쉽게 보여주는 모습을 상상하는 사람이 많습니다. 일단 그 단계를 넘어서서, 다음 단계로 진행해야 ‘데이터를 활용한다'라는 사실을 실감할 수 있습니다.


44. 평가와 우선순위의 관계. ‘우선순위'를 정하려면 선택지를 어떤 척도와 기준으로 ‘평가'할지가 관건입니다. 데이터를 활용하겠다고 실적치와 그래프만 보고 있으면, 납득할 만한 결론이 나올 리 없습니다. 우선순위를 정하고 중요한 문제를 해결하기 위해 ‘본래 필요하면서 가치 있는 정보'를 얻고자 한다면, ‘평가'가 필요한 것입니다.


45. 사실 및 결과 표시 <> 평가. 데이터를 제대로 활용해서 가치 있는 정보를 획득하려면 먼저 다음 둘을 명확히 구별해야 합니다. 사실과 결과의 데이터를 그래프나 표, 지표 등으로 표시하는 것과 내용을 평가해서 구체적인 행동과 판단으로 연결하는 것. 이 둘을 구분한 후, 후자에 필요한 평가를 준비하는 것이 바로 데이터 활용의 중요한 단계입니다.


비교할 때는 관점이 중요하다


46. ‘평가'를 하기 위해 필요한 것은 바로 ‘비교’입니다. 데이터란 숫자의 크고 작음을 나타내는 것이지 그 값에 대한 평가를 단독으로 내릴 수는 없습니다. 비교 대상이 있어야 비로소 값에 대한 평가가 가능해집니다.


47. 숫자만 보고 크고 작다는 ‘인상(이미지)’을 갖게 되더라도, 숫자 자체로는 평가할 수 없습니다. 반면에 사람들은 작거나 큰 값의 ‘인상'에 크게 흔들리는 경향이 있습니다. 하지만 어디까지나 인상은 인상일 뿐, 주관적인 세계에 불과합니다. 결론으로 둘을 연결하면 안 됩니다. 평가를 객관적으로 만드는 것은 바로 ‘다른 것과의 비교'입니다.


48. 결론이 데이터와 일치하는가? 데이터를 활용해서 결과물을 만들 때, 자기 생각과 주관을 전하면 안 됩니다. 더욱 엄밀하고 객관적으로, 논리적인 주장을 전달해서 상대방이 이해할 수 있도록 해야 합니다.


49. 목적 중심의 사고를 생략(생각을 멈춤)한 채 데이터를 그대로 사용한 결과, 결론과 데이터 사이에 논리적인 괴리가 생기는 경우가 많습니다. 결론을 심정적으로 정해놓고 데이터를 평가하려다 보면, 그 결론과 다른 결과가 나올 경우 결론 자체를 바꿔야 할 수도 있습니다. 만일 데이터를 결론에 억지로 짜 맞추게 되면 본말전도이기 때문에 더더욱 주의가 필요합니다.


50. 비교 대상을 어떻게 정할지, 그 숙고 여부에 따라 결론의 질이 크게 좌우됩니다. 이 경우 주요 포인트는 다음과 같습니다.

(1) 결론으로 이어지는 결과가 나올 것인가(반드시 결론으로 부합하는 결과가 나온다는 보증은 없습니다)?
(2) 비교를 통해 ‘차이'를 찾을 수 있는가?


51. Point 1: 결론으로 이어지는 결과를 얻을 수 있을까? ‘데이터가 있고 그 데이터로부터 어떤 결론을 내릴 수 있는가'가 아니라 정반대의 과정, 즉 ‘무슨 말을 하고 싶은지, 어떤 것을 확인하고자 하는지, 이에 따라 XX라는 데이터를 XX라는 데이터와 비교했다'라는 과정이 데이터 활용에 있어서 필수입니다.


52. 이러한 사고 과정이 잘 이루어졌는지, 이에 다른 결과물이 나왔는지를 직접 확인할 방법을 소개하도록 하겠습니다. 그것은 바로 최종적으로 ‘결과’가 아니라 ‘결론’이 서술되어 있는지에 대한 여부입니다. 데이터 중심으로 접근하는 사람의 결과물은 대체로 ‘결과’로 끝납니다. 하지만 그렇지 않고 ‘목적 중심'으로 접근하는 사람은 ‘결론'까지 말합니다. ‘데이터를 활용한다'란, 결과가 아니라 결론을 도출하는 것입니다.

- 결과: XXX와 YYY는 차이가 있습니다.
- 결론: XXX와 YYY의 차이가 존재한다는 것은, ZZZZZ라는 의미입니다.


53. ‘결과'란 그래프를 보고 이를 단어로 바꿔 표현한 것뿐입니다. 물론 그 표현 자체가 틀린 것은 아닙니다. 한편, ‘결론'은 그 차이가 결국 어떤 내용인지를 설명하고 있습니다. 이를 설명하려면 전제로서 ‘내가 무엇을 말하고 싶은지, 어떤 것을 문제로 인식하고 있는지’가 명확해야 합니다.


54. 그래프나 숫자를 통해 결과만을 해석하는 학생들은 대체로 데이터 중심 사고로 작업을 진행하는 경우가 많아서, 그러한 사고 패턴을 바꾸는 것부터 시작해야 하기 때문입니다. 이를 피할 수 있는 방법 중 하나는 그래프나 표를 만들 때 각각의 결과물에 대한 구체적인 결론을 먼저 문장으로 써보는 것입니다. 만약 거기서 머뭇거리게 된다면, 자신이 어떤 목적으로 작업하고 있는지 모른다는 것입니다.


55. Point 2: 비교를 통해 ‘차이'를 찾을 수 있는가? 비교했지만, 그 결과가 별 차이가 없다면 평가할 수 없습니다. 그렇다고 그것이 틀렸다거나 문제가 있다는 의미는 아닙니다. 데이터나 결과가 아니라, ‘차이가 있을 것이다'라는 초기 가설이 틀렸다고 생각하는 것이 타당합니다. 혹은 ‘차이가 없었다'라는 것을 결론으로 삼을 수도 있습니다. 어쨌든 ‘양쪽에 차이가 있다'라는 결과를 근거로 평가하려면 ‘차이를 발견한다'라는 것이 하나의 포인트가 됩니다.


56. 이 과정에서도 절대적인 정답은 없으며 비교 대상을 반드시 하나로 정해야 할 필요도 없습니다. 실제로는 여러 비교 대상 후보를 정하고 각각 비교를 진행해서 결과와 결론의 일관성을 확인하고, 경우에 따라 다시 한번 비교 대상을 늘리거나 조정해서 ‘가설' -> ‘검증'을 반복하는 것이 현실적입니다.


비교의 기술

57. 도수 분포도도 시각적으로 나타내는 것이 일반적입니다. 도수 분포도에서는 가로축이 데이터 값에 해당하는 범위(구간)이며, 세로축이 각 범위에 해당하는 데이터의 빈도(도수)를 나타내며, 데이터 전체의 분포와 편차를 한눈에 볼 수 있습니다.


58. 데이터의 수가 매우 많거나 복잡한 변동을 보이는 경우에는 선형 그래프나 도수분포도나 산포도의 시각적 정보만으로는 정량적인 추이 형태를 전부 파악하기 어려울 수 있습니다. 그럴 때에는 편차를 나타내는 표준편차라는 지표를 함께 활용합니다.


59. 편차 폭이란, 전체 범위를 통해 봤을 때 데이터의 간격(폭)이 어떠한가를 나타냅니다. ‘편차'를 볼 때는 표준편차에만 의존하지 말고 이와 더불어 그래프 등을 통해 그 변동 양상을 함께 관찰하는 것이 좋습니다.


60. 데이터 활용 초기 단계부터 ‘무슨 말을 하고 싶고, 이에 대한 지표를 어떻게 평가할지'에 대해 충분히 숙고해야 잘 정리된 결론이 나올 수 있습니다.


61. 편차는 어떻게 변하고 있는지에 대한 것이 아니라, 개별 데이터 값의 크기가 어떻게 분포되어 있는지를 의미합니다.


62. 표준편차의 크기는 데이터의 최솟값에서 최댓값의 차이가 아니라 데이터 대다수가 존재하는 범위의 폭을 의미한다는 점을 이해해주시기 바랍니다. 최솟값과 최댓값 같은 극단적인 값에 전체 편차는 영향받지 않으며 대다수의 데이터가 분포된 범위를 나타낸다는 장점이 있습니다.


63. 서로 크기와 규모가 크게 다른 두 개의 편차를 표준편찻값의 차이를 통해 비교할 때는 주의해야 합니다. 예를 들어, 매출 1,000만 원 규모에서의 50만 원 편차와 매출 100만 원 규모에서의 50만 원의 편차는 그 의미가 전혀 다릅니다. 이처럼 전제가 되는 규모나 크기가 전혀 다른 경우 편차를 비교할 때는 표준편차를 평균으로 나누어서 기준을 비슷하게 맞추고서 비교해야 합니다.


64. 데이터를 ‘비율'로 변환해서 하나의 기준으로 삼을 수도 있습니다. 비율이 들어간 4가지 평가 기준을 소개합니다.

데이터 평가 기준 - 대표적인 지표

값의 크기 - 평균값, 합계

추이 - 선형 그래프, 막대그래프, 변화율

등락 폭 - 표준편차, 도수 분포도

비율 - 분수, 퍼센트


65. 같은 데이터라도 어떤 기준으로 평가하는가에 따라서 그 결론이 달라질 수 있습니다. 여기서도 ‘뭐가 정답일까?’라는 발상은 버리도록 하세요. 또한, 어느 한 기준으로만 좁혀야 하는 것도 아닙니다. 복수의 기준을 사용해서 이들을 조합하고 결론을 낼 수도 있으며, 이 경우 더욱더 입체적이고 깊이 있는 결론에 도달할 가능성도 큽니다.


66. ‘이 사례에서는 어떤 평가가 중요할까? 어떤 설명이나 결론이 가능할까'라는 관점에서 생각하고, 필요한 기준을 선정해 활용해주길 바랍니다. 이 또한 데이터 활용에서 중요한 점 중 하나입니다.


(1) 평가를 하려면 비교 대상을 어떻게 정해야 하는가?
(2) 어떤 평가 기준을 활용해서 비교할 것인가?

67. 인간은 누구나 ‘좋다/나쁘다', ‘높다/낮다', ‘크다/작다' 등 2가지 이상으로 ‘편 가르기’를 하고 그 차이를 구분하려 합니다. 그리고 그 차이를 클로즈업하면 알기 쉬운 결론으로 이어지기 때문에 이 방법을 자주 사용하게 됩니다. 하지만 이는 어디까지나 작업자나 분석자 자신이 그어놓은 선으로 그룹을 구분했기에 나온 차이이며, 그 그룹의 특징을 단적으로 나타낸 평균 등의 지표가 꼭 그룹 전체를 대표한다고는 볼 수 없습니다. 그 지표에서 나타나지 않은 다른 부분들 또한 무시할 수 없는 것입니다.


68. 맨 처음 생각해야 할 점은 ‘무엇을 문제라고 생각할 것인가, 어떻게 평가하는 것이 이 문제에 있어서 중요할까'라는 것입니다. 그것은 데이터가 무조건 제시해주는 것이 아닙니다.


- 비교를 하는 목적(관점): 비교를 통해 평가한다.
- 비교의 기술: 목적에 따라 ‘값의 크기', ‘추이', ‘편차', ‘비율' 등 4가지 평가 기준을 이용해 데이터의 특징을 포착한다.


69. 어려운 분석이나 통계까지는 필요하지 않습니다. 그보다, 자신의 목적에 대해 생각해보고 이에 따라 가설을 세우는 것이 훨씬 중요하다는 것을 아셨을 겁니다.


70. 만일 여러분이 직접 지금까지 배운 내용을 실행에 옮기려고 할 때 어렵다 느껴지고 막혔다면, 다음과 같이 ‘단순하게' 생각해보는 것이 어떨까요? “당신이 현재 직면하고 있는 문제나 그 배경에 대해 전혀 모르는 제3자가 바로 앞에 있다고 상상하세요. 그 사람에게 당신이 다루는 문제를 데이터로 설명하려면 무슨 데이터를 어떻게 보여주면 좋을까요?” 상대방이 그 데이터를 보고 나서, “그렇군요! 확실히 문제가 있네요!”라고 말한다면 성공한 것입니다.


71. 해야 할 일은 단순합니다. 모든 것은 현재 상황과 문제를 객관적으로 보여주고 이해시키는 것부터 시작합니다. 이처럼 단순하게 생각하고 나름의 답을 구해보세요.



최종 목표는 ‘행동과 판단'


72. 조직에서 데이터를 잘 활용하고 있다는 것은, 그 정보를 통해 문제 해결 방안을 수립하거나 구체적인 행동 계획을 세우거나 관계자들이 납득할 만한 합의 또는 판단을 내릴 수 있다는 이야기입니다. 즉, 결론으로 유도하지 못하는 정보는 별로 가치가 없으며, 목적에 이르지 못한 어중간한 상태입니다.


73. 단순히 현황 파악에 그치고 있다면, 그것은 데이터 분석이 아니라 ‘데이터 정리'라고 볼 수밖에 없습니다. 다음으로 필요한 것이 ‘왜 그 결과에 이르렀는지’와 ‘왜 그 문제가 일어나고 있는지'를 파악하는 단계로, 달리 말하면 결과에 대한 원인 파악입니다.


74. 최종적으로 취할 행동, 즉 해결 방안은 문제가 아니라 그 문제를 일으키는 원인에 취해야 합니다.


75. 한정된 자원과 시간 속에서 ‘아무것도 안 하는 것보다 낫다'는 수준으로 대책을 세운다면, 사실 안 하는 것이 더 낫습니다. 효과적일 것이라 예상되는 방법을 객관적으로 검토해보고, 이에 집중해서 비용 대비 효과를 극대화하는 것이 가장 중요합니다.

매거진의 이전글 리더의 성과는 팀에서 가장 부족한 직원의 성과다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari