데이터 문해력에서 뽑은 163개의 핵심 파트 (2)
데이터 분석을 하다 보면 세운 가설이 틀리는 경우도 많고, 두 지표 사이에 아무런 연관성도 없는 경우가 많다. 아무 결과도 못 내서 답이 틀린 것처럼 보이지만, 이것 역시도 하나의 결과를 낸 것이다. 또 다른 가설을 세우고, 또 다른 지표들의 연관성을 찾기 위해 노력하면 되니까.
데이터 분석은 시험 문제랑 달라서 한 번 틀렸다고 끝나지 않는다. 아니 틀리는 게 기본이다. 그래서 우리 조직과 비즈니스에 맞는 해법이 나올 때까지 계속 시도해야 한다. 책에서도 말하는 내용이지만 데이터 속에는 완벽한 답이 없다. 데이터 분석을 토대로 가장 적합한 답을 만들어 나갈 뿐이다.
* 직접 구매해서 읽고 쓰는 내돈내산 후기입니다. :)
1. 원인과 그 결과 사이에는 반드시 연관 관계가 있습니다. 그 관련성을 데이터로 확인할 수 있다면, 데이터에서 원인을 분석했다 할 수 있습니다.
2. 원인 후보를 이끌어 내는 방법과 지표를 특정하는 방식: 원인 후보를 열거한다 -> 지표를 결정한다 -> 관련성을 확인한다
3. 원인 후보를 열거하는 단계는 객관적인 데이터를 통해 확인하기 전이기 때문에 ‘이게 정말일까?’나 ‘당연히 이거지'라고 주관적으로 원인 후보를 판단하지 않도록 합니다. 다음으로, 그 원인이 어떤 내용인지 나타낼 수 있는 데이터와 지표에 대해 생각해봐야 합니다.
4. 내용에 따라서는 지표를 조금 다르게 바꾸는 것만으로도 결과의 정확도가 크게 달라지기 때문에 입수하기 편하다는 이유로 무작정 데이터를 활용하는 것은 피해야 합니다.
5. 문제에 대한 원인을 몇 가지 추측했지만, 이들을 직접적으로 나타낼 수 있는 데이터가 없거나 수집하기 어려운 경우가 많습니다. 그럴 때는 다음과 같은 순서를 적용해보길 바랍니다.
1) 유사한 데이터에는 어떤 것이 있을지 생각해본다(정확도는 약간 떨어지더라도, 데이터가 없는 것보다는 낫습니다).
2) 지금 바로 수집을 시작한다(시간적인 여유가 있는 상태이고, 본질적인 데이터가 필요하다면).
3) 정량적이 아닌, 정성적인 정보로 대응한다(설문조사 응답 및 청취 자료 등).
4) 포기한다 (해당 부분은 본인의 가정을 통해 보완).
6. 데이터를 제시하는 것이 가장 이상적이긴 하지만, 항상 데이터가 있는 것은 아닙니다. 중요한 것은 ‘원인'에 대해 생각해보는 단계를 거쳤는지 여부입니다.
문제와 원인, 그 관련성 유무를 확인하는 방법.
7. 1단계: 시각적으로 관련성을 확인한다. ‘두 가지 지표' 사이의 관련성을 시각화합니다. 두 가지 지표란 문제와 결과를 나타내는 데이터와 원인을 나타내는 데이터를 말합니다. 물론 문제와 결과를 나타낼 지표가 정해져 있고 데이터 또한 수집 완료된 상태를 말합니다.
8. ‘문제와 결과를 나타내는 지표'가 세로축, 가설로 수립한 ‘원인 후보 지표'를 가로축으로 하여 ‘산포도'를 작성합니다. 그러면, 세로축과 가로축의 관련성을 시각적으로 포착할 수 있습니다. 산포도로 표현된 내용 중 어떤 부분에 초점을 두어야 할지는 목적과 배경에 따라 천차만별입니다.
1) 전체적인 경향을 파악한다: 가로축이 증가하면 세로축도 증가하는 관계.
2) 그룹화를 한다: 몇 개의 데이터 그룹을 도출해서 분석할 수 있는 사례. 각 그룹에 대한 특징과 다른 그룹과의 차이를 발견해서 결과와 문제에 대한 원인을 알아낼 수 있습니다.
3) 벗어나 있는 값에 주목한다: 만약 벗어난 값이 나타난 이유를 찾아낼 수 있다면, 결과의 차이를 만들어낸 원인을 규명할 수 있을 것입니다.
4) 변화점을 찾는다: 그래프를 반드시 전체적으로 봐야 한다는 규칙은 딱히 없습니다. 중간에 경향이 바뀌는 분기점이 있는 것을 알아차리고 ‘이 분기점 전후에 어떤 차이가 있는지'에 초점을 맞춘다면, 문제 및 결과, 그리고 문제에 대한 원인을 파악할 수 있는 실마리가 될 수도 있습니다.
9. 실제로는 모든 사례의 관련성을 명확히 밝혀낼 수는 없습니다. 오히려 실무에서는 명확한 관련성이 잘 안 보이는 경우가 압도적으로 많습니다. 다만, 어떠한 관련성도 찾을 수 없다는 것 또한 하나의 결론이 될 수 있다는 점을 기억해두시기 바랍니다. 관련성이 없다는 것은, 바꾸어 말하자면 데이터 분석을 통해 여러분이 추측한 것이 문제와 결과의 원인이 아니라는 것을 밝혀냈다는 이야기입니다.
10. 2단계: 통계 지표를 확인한다 ~ 상관계수 ~. 가로축 세로축이 선형 관계를 보일 경우, 그 관련 정도를 나타내는 통계 방식이 있는데, 이를 ‘상관분석'이라고 합니다. 또한, 가로축과 세로축의 관련도(얼마나 직선에 가까운 형태인지)를 나타내는 상관계수를 이용합니다.
11. 가로축과 세로축에 의한 지표 데이터 조합이 많을 때, 그 모든 조합으로 산포도를 만들게 되면 비효율적입니다. 지표 데이터 조합이 많을 때는 일단 상관계수를 활용하여 분석을 수행하고 관련성이 있는 것처럼 조합을 먼저 들여다보는 것이 좋습니다.
12. 다만, 데이터의 관련성을 모두 상관분석을 통해 파악 가능한 것은 아닙니다. 더 자세하게 관련성을 알아보고 싶을 때는 산포도를 통해 시각화하는 편이 무난합니다.
13. 상관 계수는 -1부터 +1 사이의 값을 가지며, 그 값에 따라 두 지표의 관련성을 파악합니다. 그 값을 해석하는 방식은 특별히 복잡한 규칙이 있는 것은 아니며, 경험적으로 아래와 같은 해석이 일반적입니다.
-1 ~ -0.7: 강한 부적 상관관계
-0.7 ~ -0.5: 부적 상관관계
-0.5 ~ +0.5: 약한 상관관계 / 상관관계가 없음
0.5 ~ + 0.7: 정적 상관관계
0.7 ~ +1: 강한 정적 상관관계
14. ‘부적 상관관계'란 한쪽의 값이 증가하면 다른 값이 감소하는 것을 뜻하며, ‘정적 상관관계'는 두 값이 증가하고 감소하는 경향이 같은 경우를 말합니다.
15. 실무 관점으로 봤을 때, 굳이 앞선 5단계의 수치 해석을 엄격하게 적용하지 않고 ‘상관관계 있음/없음' 정도로 설명해도 충분한 경우가 많습니다. 또한, 활용하는 데이터 수와 조건에 따라 상관계수의 정확도는 큰 차이가 있습니다. 5단계 수치 해석의 경우도, 어디까지나 대략적인 기준이라는 점을 염두에 두시기 바랍니다.
16. 상관분석과 상관계수는 널리 알려진 용어지만 상대방도 잘 알고 있다고 단정할 수는 없습니다. 그럴 때 ‘상관분석 결과, ~~ 했습니다'나 ‘상관계수는 XX입니다'라고 하면 매우 불친절한 설명이 될 것입니다. 상관관계에 대한 설명은 물론, 산포도를 통해 시각적으로 보여주는 것이 한층 더 상대방의 이해를 높이는 방법입니다.
17. 정말로 중요한 것은 산포도나 상관분석 계산 결과를 도출하는 것이 아닙니다. 데이터를 다룰 때는 반드시 다음과 같은 질문을 자신에게 던지기 바랍니다. 그러고 나서, 얼마만큼 되어 있는지(하고 있는지), 다음에 필요한 것은 무엇인지 등을 잘 생각해봐야 합니다 이러한 사고 과정이 데이터 활용에서는 방법론이나 통계 이론보다 훨씬 중요합니다.
18. 상관관계의 유무는 어디까지나 중간 과정이며 수단에 불과합니다. 수단에 너무 사로잡히지 말고, 의미 있는 결론으로 이어질 때까지 끈기 있게 가로축과 세로축의 관련성을 찾아야 할 것입니다.
19. 핵심은 OO과 OO의 관계성을 통해 (또는 파악해서) 어떤 결론을 내릴 수 있을까? 이에 대해 지속적으로 생각하는 것입니다.
20. 즉, 앞선 내용을 목적이나 가설로서 명확히 하고, 넓은 시야로 여러 각도에서 가능성을 찾아내는 것이 바로 원인을 분석하는 데이터 문해력입니다. 이를 위해(데이터 중심이 아닌, 목적 중심 사고를 통해) 시행착오를 반복하며 경험을 쌓아 점차적으로 기량을 향상시켜야 합니다.
21. 직접적인 관계인지, 간접적인 관계인지? 데이터상 관련성이 있는 것처럼 보여도 실제로는 두 데이터 사이에 직접적인 관련성이 없는 경우가 은근히 많습니다.
22. ‘데이터를 뒤져보면 그 안에 반드시 답이 있을 것이다. 그것을 찾아내자'라는 식의 발상은 일단 리셋하고, 데이터를 보기 전에 가능성이 있는지를 먼저 생각해봐야 합니다. 물론 그렇게 해도 모든 사실을 알 수 있는 것은 아니지만, ‘데이터 중심 사고'에 비하면 그 차이는 매우 큽니다.
23. 원인은 한 가지가 아니라, 여럿이거나 복잡할 수도 있다. 현상 중 대부분은 결론과 원인의 1대 1 관련성만으로 설명할 수 없습니다.
24. 우연히 명확한 상관관계가 도출되었다면, ‘앗! 이게 원인이구나!’라고 생각해서 더는 분석하지 않게 됩니다. 하지만 어지간히 단순한 관련성을 가지지 않는 한, 한 가지 원인만으로 모든 것을 설명하기에는 상당한 위험이 있다고 생각하는 것이 무난합니다. 위험을 회피하기 위해서는 모든 가능성을 염두에 두고 사고를 확장해 원인을 고려하는 것이 데이터 문해력의 기본입니다.
25. 선형이 아닌 관계성도 존재한다. 상관관계의 정의를 떠올려 주시기 바랍니다. 상관관계가 있다(높다)는 것은 두 데이터 사이의 관계가 ‘선형'이라는 말과 같습니다. 이러한 사고방식은 단순하고 알기 쉽다는 장점도 있지만 모든 관계성이 전부 선형관계인 것은 아닙니다.
26. 상관관계가 복잡해 보일 때는 전체를 부분으로 나누고 그 범위에서 상관관계 유무를 확인하는 형태로 분석을 진행하는 방법도 있습니다.
27. 어떻게든 결과를 값으로 나타내려고 지나치게 신경 쓰다 보면 수단과 목적이 뒤바뀌어 버릴 수 있습니다. 그렇게 되면 보고하는 상대방에게 자신이 무엇을 했는지, 하고 싶은 것은 무엇인지가 제대로 전달되지 않고 이해에 어려움을 겪을 수가 있습니다.
28. 알기 쉽게 전달하는 것을 중시할지, 아니면 계산상 정확도가 더 높은 결과를 원하는지, 미리 생각해두는 것 또한 데이터 문해력에 필요한 기술 중 하나입니다.
29. 상관관계는 인과관계를 나타내는 것이 아니다. 상관분석 결과는 ‘인과관계'를 나타내는 것이 아닙니다. 선형 관계성 여부만 파악하는 것은 주의해야 합니다. ‘상관관계가 있다'라는 결과가 분석을 통해 도출되지만, 양자 간 ‘인과관계'가 있는지 어떤지, 그리고 어느 쪽이 결과이고 어느 쪽이 원인인지는 분석자의 ‘해석'이라는 것을 염두에 두어야 합니다.
30. 바꾸어 말하면, 그 해석을 잘못하게 되면 본래의 인과관계와는 정반대의 결론을 내게 될 수도 있습니다. 실무에서는 인과관계를 잘 설명해야 결론이 성립되는 경우가 많기 때문에 이 점을 주의해서 진행해야 할 것입니다.
31. 데이터를 활용하려면 본질적으로 논리적인 사고가 반드시 기반이 되어야 한다는 것을 이해했으리라 생각합니다. 여기서 말하는 논리적 사고란, 개별 데이터와 분석에 대한 것이 아니라, 전체적인 스토리를 탄탄히 구성하고 결론의 설득력을 높이기 위한 사고력과 구성력을 말합니다. 이를 제대로 갖추지 않으면 아무리 고품질의 데이터를 대량으로 수집하고 완벽한 방법론으로 분석했다 해도, 상대방을 설득하기는 어려울 것입니다. 설득이 어려운 이유는 전체적으로 흐름과 논리성에 맞지 않기 때문입니다.
32. 문제 해결 프로세스에서 누구나 하는 실수. 곧바로 ‘해결 방안'에 무턱대고 달려드는 것.
33. 데이터를 통해 확인한 내용이 정말로 직접적으로 제안 내용과 관계가 있습니까? 만약, 맞든 안 맞든 상관없으니 참신한 아이디어만 내면 된다는 생각이라면, 애당초 데이터는 필요 없습니다.
34. 그럼 ‘해결 방안'으로 바로 뛰어들기 전에 취해야 할 행동은 무엇이 있을까요? 그것은 바로 ‘원인'을 분석하는 것입니다. 하지만 지금까지 계속 강조한 것처럼, 그 전제로서 ‘문제'가 적절히 정의되어야 합니다.
35. ‘해결 방안'은 ‘문제'에 직접적으로 적용하는 것이 아니라, ‘문제'를 일으키고 있는 ‘원인'에 적용하는 것입니다.
36. ‘원인'을 깊게 분석하고 폭넓게 고찰하여 여러 가능성을 생각하는 것과 원인 분석을 건너뛰거나 소홀히 하는 것, 그 결과 도출한 ‘해결 방안'에는 엄청난 차이가 있습니다.
37. 아쉬운 결과가 나오는 것은 데이터 활용이나 분석 내용에 문제가 있어서가 아니라, 적절한 사고 과정을 밟지 않았기 때문입니다.
38. 만약 현재 시행 중인 ‘해결 방안'이 좀처럼 성과를 내지 못한다고 느껴질 때는, 그 방안에 이르기까지의 과정에서 ‘원인'을 간과한 결과가 아닌지 의심해봐야 할 것입니다.
어째서 (다른 수단이 아니라) 그것이 필요한지?
그로 인해 어떤 것을 실현 또는 해결 가능한가? 그리고 효과적인 결과가 나올 것이라는 근거는 어디에 있는가?
39. 앞선 두 질문에 대해 바로 답을 할 수 없는 경우, 또는 답을 했더라도 그 속에 자신의 상상이나 주관이 들어가 논리적 비약을 일으키고 있다면, 여러분도 ‘방법맨'이 되어 있을 가능성이 큽니다.
40. ‘머리를 써서 생각한다'는 말에는 두 가지 상반된 요소가 있다고 생각합니다. 하나는 풍부한 창의성으로 혁신적인 아이디어를 생각해낸다는 의미이고 또 하나는 논리적으로 꾸준히 사물이다 현상의 원리를 추구한다는 의미에서의 ‘생각하다'입니다. 둘 중 어느 쪽이 좋거나 나쁘다는 이야기가 아니고, ‘생각의 종류가 다르다'는 것이 핵심입니다.
41. ‘참신한 아이디어'를 ‘생각한다'는 것이 결코 틀렸다거나 나쁘다는 것이 아닙니다. 그런데, 두 가지 ‘생각한다'는 개념의 차이를 명확히 하지 않고, 전체 논리성을 ‘생각'하는 것이 얼마나 중요한지 인식하지 못하는 경우가 많습니다.
42. ‘좋은 아이디어', ‘참신한 아이디어'가 좋다고 더 좋은 결과로 이어지지는 않습니다. 원래 둘 사이에는 직접적인 연관 관계가 없습니다. 지금 여러분의 ‘생각한다'라는 의미는 어느 쪽인가요?
43. ‘방법맨’이 되는 것을 피하려면 일단 ‘문제', ‘원인', ‘해결 방안'이라는 가장 단순한 프로세스를 항상 염두에 두고, 자신이 생각하고 있는(실행하고 있는) 것이 세 가지 중 어느 쪽에 해당하는지 파악해야 합니다.
44. ‘문제'를 어떻게 정의하는가에 따라, ‘문제'라고 생각했던 것이 더 상위 ‘문제’의 ‘원인'이 되기도 합니다. 정답이 하나만 있는 것은 아니라는 의미에서도, 자기 생각을 논리정연하게 전달할 수 있는 능력이 필요합니다. 기본적으로 지금 자신이 생각하고 있는 것이, ‘문제'인지? ‘원인'인지? ‘해결방안’인지? 어느 쪽에 해당하는지 파악해야 합니다.
45. ‘원인'의 구조는 단순하게만 볼 수 없다. 원인 후보를 추출했다고 서둘러 다음 단계로 넘어가면 안 됩니다. 원인은 항상 단순한 구조가 아닙니다. 가급적 ‘어째서', ‘왜'를 반복해서 더욱 ‘본질적'인 원인까지 파고들어야 정확하고 밀도 있는 해결 방안을 도출할 수 있습니다.
46. 원인이 명확히 규명된 후 수립하는 대책과 그런 과정 없이 즉흥적으로 만든 대책은 그 효과와 정확성에 엄청난 차이가 있습니다. 논리적인 흐름과 구조에 대해 생각하는 것에 비하면 구체적인 방법을 고민하는 것이 즐겁고 편하므로 이를 우선하기 쉽습니다. 하지만 ‘해결 방안'을 고민하는 것은 마지막 단계라는 것을 언제나 염두에 두시기 바랍니다.
47. 데이터를 수집하고 이를 처리, 분석한 ‘다음'에 하는 데이터 문해력 중 하나가 바로 ‘결론을 서술한다'입니다. 먼저 여기서 주의해야 할 것은, 결과와 결론은 다르다라는 것입니다. 계산과 분석을 해서 나온 결과물은 어디까지나 ‘결과'이며 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것이 ‘결론'입니다.
48. ‘데이터 활용'을 할 때 마지막으로 필요한 것은 어느 쪽일까요? 당연히 ‘결론'일 것입니다. 그런데 모두가 입을 모아 ‘결론이 중요'하다고 하면서도, 대부분은 ‘결과'만 말합니다.
49. 결론이란 결과에 기반해 도출해야 한다. 거듭 말씀드리지만, ‘데이터를 활용한다'는 것은 판단과 행동으로 이어지는 결과물이 제시된 상태를 의미합니다.
50. 결론에는 직접적인 계산 결과와 통계 용어는 포함되어 있지 않습니다. 그것이 포함되면 결과를 설명하는 것이 되기 때문입니다.
51. 결과와 결론에 이르는 과정은 본질적으로 같습니다. 결론이란 결과를 기반으로 도출하는 것이기 때문입니다. 하지만 표현 방식은 다릅니다. 그리고 그 작은 차이가 상대방에게 전달되는 방식이나 이해도에 큰 영향을 미칩니다. 이 차이를 이해하는 것 또한 데이터 문해력에 있어서 중요한 요소입니다.
52. 데이터 문해력에서는 ‘결과적으로 데이터를 분석해 획득한 정보를 목적에 맞게 활용하는 능력'이 필수적입니다. 어느 정도의 센스나 발상 능력이 필요합니다. 하지만 무엇보다 필요한 것은 원래 설정한 목적, 무엇을 말하고 싶은지, 말해야 하는지, 상대방이 알고 싶어 하는 것은 무엇인지 등을 명확히 하는 것이 중요합니다.
53. 상대방에게 자신의 의사를 전달하는 것이 프레젠테이션인데, 결과를 설명하고 있다는 것은 자신이 데이터를 활용하는 목적을 모른 채 작업했다는 뜻입니다. 계산이나 분석을 통해 눈에 보이는 값이나 결과물을 도출하는 것이 목적이 되어버리면, 그러한 함정에 쉽게 빠지게 됩니다.
54. 그래프를 보여주는 방식을 조금만 바꾸어도, 단순히 계산 결과만 보여주는 것이 아니라는 것을 상대방에게 전할 수 있습니다. 결론을 상대방에게 말할 때, 이와 같은 방식을 취하는가 그렇지 않은가에 따라 효과가 크게 달라집니다.
55. 자신의 목적을 구체적으로 정의하고 이에 직결되는 결론을 낼 수 있을지, ‘말하자면'으로 시작해서 그다음 말을 이어나갈 수 있을지가 관건입니다. 마지막 결과물을 다시 한번 확인하는 습관이 몸에 배어 있는 사람일수록 상대방이 ‘그렇군요!’라고 이해할 확률이 높습니다.
56. 결과로부터 결론을 도출할 때는 자신의 정보 집약 능력에 더해 어느 정도 상상력도 필요합니다. 하지만 여기서 주의해야 할 점은, 필요 이상으로 자신의 해석을 덧붙이지 않아야 한다는 것입니다. 원칙적으로 어디까지나 데이터를 통해 알 수 있는 사실의 범위 내에서 생각해야 합니다.
57. 인지 편향(선입견). 인간은 누구나 100% 객관적이고 합리적인 판단이 불가능하며, 여러 가지 편향적인 경향이 존재한다고 합니다. 이러한 것들이 ‘데이터로 설명 가능한 범위인가?’에서 소개한 실수의 근본적인 원인이라 할 수 있습니다.
58. 의도와는 관계없이, 자신에게 더 유리한 정보에 치우쳐 분석하거나, 더 유리하게 해석하여 결론을 내리는 경우가 많이 있습니다. 그리고 몇 가지 사례와 데이터를 본 것만으로 이를 과도하게 일반화하여 다른 경우에도 적용 가능한 것처럼 해석하는 편향도 자주 일어납니다.
59. 데이터는 직접 자신이 보거나 경험한 것 이외의 세상을 간접적으로 보여주는 편리한 도구지만, 데이터가 나타내는 것이 세상의 전부라 할 수는 없습니다.
60. 정답은 역시 한 가지가 아니다. 이 문제를 어렵게 만드는 요인은 바로 정답이 하나만 있는 것은 아니라는 것, 그리고 그 정답이란 것은 아마도 영원히 알 수 없다는 점에 있습니다. 즉, 지금 자신에게 선입견이 작용하고 있다는 것을 인식하기란 매우 어렵고, 작용하고 있다고 인식하더라도 정답을 확인하는 것 자체가 어려운 경우가 많습니다.
61. ‘스스로 정답을 만들어내고 이를 논한다'라는 자세를 흔들림 없이 유지하는 것 또한 데이터 문해력의 중요한 요소입니다.
62. 단순히 데이터를 보는 방식이나 분석 방법론, 통계 지식만 갖고서는 객관적인 문제 해결에 전혀 도움이 되지 않는다는 것을 이해하셨으리라 생각합니다. 이와 동시에 꼭 필요한 것은 눈앞에 있는 데이터에 의존하지 않고 스스로 목적과 문제를 정의해 필요한 데이터나 분석 범위를 얼마나 넓은 시야로 디자인할 수 있는가임을 소개해 왔습니다. ‘이것이 당신이 알고 싶어 하는 것인가요'라면서 데이터가 자동으로 제시해주는 것이 아닙니다.
63. 여기서 말하는 ‘디자인'이란, ‘목적과 문제를 정의하는 것’, ‘이를 위해 필요한 데이터와 지표를 설정하는 것', 그리고 ‘그 데이터를 어떻게 분석해야 문제의 정보를 효과적으로 얻을 수 있을지 분석하는 것'에 대해 고려한 다음 데이터를 활용해 수행할 작업의 설계도를 그리는 것을 말합니다.
64. 분석 범위와 이용해야 할 데이터를 적절히 논리적으로 검토한 프로세스. 눈앞에 있는 데이터에 제한되지 않는 적절한 프로세스란 무엇일까요? 그것은 각 과제의 데이터를 다루지 전에, 넓은 안목으로 전체를 가정하는 것입니다. 이 ‘가정'은 일반적으로 ‘가설'이라 하며, 목적과 문제에 대하여 데이터를 다음 사항에 유의하여 생각하는 것을 가리킵니다.
어떤 범위, 어느 시점의 정보(데이터)가 필요한가?
어떻게 처리, 가공해야 할 것인가?
65. 말한 것과 같이, 이 시점에서는 눈앞의 데이터에 구애받지 않아야 합니다. 즉 다음 프로세스가 가설 수립에 필요합니다. ‘데이터 -> 가설(데이터에 기반한 가설 수립)’이 아니라, ‘가설 -> 데이터'. 데이터 분석은 자신이 수립한 가설을 객관적, 논리적으로 검증하기 위한 것이라 할 수 있습니다.
66. 처음부터 범위(데이터)를 넓게 설정하면 분석 범위 자체도 넓어지므로, 수집해야 할 정보나 결과를 놓칠 위험이 줄어듭니다. 물론 설정 범위가 넓으면 데이터 확인 시 작업량이 늘어날 수는 있으나, 가장 적합한 해답에 이르기 위해서는 어쩔 수 없는 부분이라고 생각합니다.
67. 실제로는 분석하면서 중간중간 결과를 확인하며 가설을 수정하거나 새로운 데이터를 추가해야 하는 경우도 발생합니다. 중요한 것은 분석에 활용할 데이터와 그 범위를 얼마나 넓게 설정할 것인가입니다.
1) 이 문제는 어느 정도 범위의 데이터가 필요한가?
2) 이 데이터는 어떤 관점으로 바라봐야 하는가?
68. 앞선 두 사항에 대해 논리적이고 폭넓은 시야로 고찰해야 합니다.
69. 논리 사고로 문제를 구조화한다. 구조화해서 정리하게 되면, 즉흥적으로는 생각할 수 없는 것을 알게 될 가능성이 커집니다. 그리고 ‘왜 이 데이터를 사용해서 분석했는가'라는 질문에 대해서도 논리적인 설명이 가능해집니다. ‘항상 쓰던 데이터라서'라는 대답에 비한다면 하늘과 땅만큼의 차이입니다.
70. 짝짓기. 구조화하는 것 자체를 목적으로 하면 안 됩니다. 문제의 구조화 작업만 해도 상당히 어렵다고 느껴져서 힘이 다하기 일쑤기 때문입니다. 데이터 분석도 시작하기 전에 작업이 중단되면 본말전도입니다.
71. 먼저 자신이 생각한 아이디어와 수집된 데이터를 통해 알 수 있는 것들을 늘어놓고, 이에 ‘대응'하거나 ‘반대'되는 아이디어에는 무엇이 있을까? 에 대해 생각해보는 것입니다. 그리고 이를 통해 시야를 확대하는 식의 접근법을 취해보는 것입니다.
72. 자기부정. 자신이 떠올린 아이디어를 일부러 부정하는 것입니다. ‘만약 XXX가 아니라면?’이라고 자신에게 되묻습니다. 처음 떠오른 아이디어를 고집하지 말고, 이를 부정하는 행동을 통해 다른 아이디어를 강제로 도출하는 방식입니다.
73. 편향이 강한 사람일수록 ‘내 생각이 틀림없다'라는 편견으로 인해 자기부정을 실천하기 어렵습니다. 일단 자기 생각을 중립 위치에 놓고, 원점에서 합리적으로 사고해야 시야가 넓어집니다.
74. ‘정답 찾기'를 하지 말아야 합니다. 데이터 분석에 정답은 없습니다. 그렇지만, 어느 쪽이 더 흐름과 논리성에 맞고, 알기 쉬운지와 같은 상대적인 좋고 나쁨은 복수의 결과물을 비교해보면 알 수 있습니다.
75. 스스로 정답에 대해 고민하고, 이를 합리적으로 논할 수 있다. 바로 이것이 기계가 할 수 없는, 인간만 가능한 가치 생성 기술입니다. 데이터 문해력이란 ‘데이터에서 무언가를 읽어내는 능력'이 아니라 ‘스스로 정답에 대해 고민하고 데이터를 무기 삼아 합리적으로 논할 수 있는 능력'이라고 생각합니다.
76. 그런 의미에서 ‘데이터'는 어디까지나 도구에 불과합니다. 그 도구는 논리적 사고라는 기반이 있어야 비로소 활용할 수 있는 것입니다. ‘데이터'와 ‘분석'이 각각 단독으로 존재하면 아무 일도 일어나지 않습니다.
77. 아무리 ‘필요한 프로세스'와 ‘이론'을 숙지하고 있더라도, 이를 실현하려면 시간이 필요합니다. 지금까지 소개한 내용은 전부 ‘이 버튼을 누르면', ‘이러한 프로세스대로 따라 하면' 곧바로 답이 나오는 것이 아닙니다.
78. 나름의 결론을 도출하려면 작업 전에는 아이디어 발상과 이에 대한 검증, 작업 후에는 총정리하는 과정이 필수불가결합니다. 하지만 이를 알면서도 잘하지 못하는 주된 이유는, 시간을 확보할 수 없는 환경에 있습니다.
79. 공통점 1: 선생님과 팀장, 파트장 등의 리더십, 책무로 확립되다. ‘나머지는 여러분이 열심히 해서 좋은 결과물을 만드세요'라고 방임하는 분위기가 아니라, 스스로 리더십을 갖고 구체적인 성과를 추구하는 경향이 있습니다. 이와는 반대로, 방법론만 배우면 지금보다 더 좋은 결과물이 나올 것이라는 기대만 하고 있다면 목표에 도달하기 어렵습니다.
80. ‘해야 한다'와 ‘안 해도 특별히 문제는 없다'라는 인식 간에는 압도적인 차이가 있습니다. 사람은 나약한 존재이기 때문에, 지금 바로 ‘하지 않아도 특별히 문제가 없는 것'에 대한 우선순위는 필연적으로 낮아집니다.
81. ‘데이터 활용은 중요하다'라고 말하면서, 실제로는 ‘안 해도 특별히 문제없는’ 상황인 경우가 많을 것입니다. 하지만 제도나 평가에 ‘데이터 활용'을 도입하고 업무 시스템으로 ‘반드시 해야 할 일'로 명시하고 있는 조직 또한 실제 존재합니다. 그런 조직은 ‘앞으로 나아가고’ 있습니다.
82. 공통점 2: 목적이 명확하다. 데이터를 사용하는 목적은 무엇인가? 데이터를 분석해서 실현하고 싶은 것이 무엇인가, 어떤 행동으로 이어지게 하고 싶은가? 앞으로 나아가는 조직은 그런 명확하고 구체적인 목표와 목적을 제시하고 현장에서 공유하고 있습니다.
83. 공통점 3: ‘생각'과 ‘작업'의 차이와 가치를 이해한다. ‘뭔가 활동하는 것'이나 ‘뭔가 작업하는 것'만이 일이라는 인식밖에 없는 환경에서는 충분한 생각 없이 그래프를 그리는 작업부터 시작하기 십상입니다. 이를 바람직하다고 여기기 때문입니다. ‘생각'의 중요성과 이를 위해 필요한 환경을 이해한다면, 충분한 시간과 환경의 필요성을 검토하고 준비할 수 있을 것입니다.
84. 공통점 4: 결과물을 적절하게 평가할 수 있는 사람이 있다. ‘우리는 열심히 했는데, 선생님과 직장 상사가 이를 이해하지 못한다', 혹은 ‘관심이 없다'라고 한다면, 더 나은 결과물을 목표로 힘내고자 하는 동기 부여가 생기지 않습니다. 상급자(선생님, 직장 상사)는 결과물에 대해 어느 정도 평가를 하고 피드백을 줄 수 있는 능력을 갖추어야 합니다.
85. 데이터 문해력에 뛰어난 사람이 되려면. 앞에서 열거한 공통적인 환경을 갖추었다면, 개개인이 ‘데이터를 다루기 위한 시간과 동기 부여'를 확보할 수 있는 조건이 준비된 것입니다. 다만, 모든 조건이 완벽하게 갖춰지는 것을 기다릴 필요는 없습니다. 가급적 빨리 이러한 환경에 가까워질 수 있도록 노력한다면, 개인과 조직의 역량 향상 속도가 빨라지고 실현 가능성도 높아질 것입니다.
86. 외부 환경을 설명했지만, 결국 자신의 각오와 의지가 모든 것의 전제가 된다는 것은 변함없습니다. 아무리 환경이 갖추어졌다고 하더라도 이를 활용하는 자신에게 의지가 없다면 무의미합니다. 그리고 자신의 의지에 따라 조직의 환경을 만들어가거나 다듬는 것 또한 가능할 것입니다.
87. ‘데이터를 활용한다'란, ‘잔재주’로 가능한 것이 아닙니다. ‘올바른 목적을 설정하고 그 목적에 따라 데이터를 활용해서, 적절히 제시한 결과를 결론으로까지 끌어낸다'는 본질적인 흐름을 중시하고, 과정 하나하나 신중히 밟아가야 합니다.
88. 막혔을 때 꼭 떠올렸으면 하는 필자의 조언
1) 데이터 분석을 통해 얻을 수 있는 결과가 목적을 잘 반영하고 있는지는 데이터의 양과 분석 방법에 좌우되지 않는다.
2) 데이터 분석이란 눈앞의 데이터로부터 어떤 패턴을 추출하는 것이 아니다.
3) ‘데이터를 통해 판독'한 정보는 아무리 훌륭한 데이터 사이언스를 구사하더라도 시사점(인사이트)이라고 할 수 없다.
4) ‘데이터 분석 방법'과 ‘데이터 분석을 활용하는 방법'은 전혀 다른 개념이다.
5) 목적이 애매하면 그것이 잘 풀릴지는 운에 의지하게 된다. 애당초 잘 풀리고 있는지 어떤지조차 평가할 수 없겠지만.
6) ‘분석'도 ‘데이터'도 어디까지나 수단이고 도구일 뿐, 답을 제시해주지 않는다.
7) ‘데이터 분석을 통해 성과를 낸다'는 것은 ‘나무로 가구를 만든다’에 비유된다. 좋은 목재(데이터)가 있고 못을 박는 실력(분석 방법과 통계 지식)이 뛰어나더라도, 어떤 가구를 어떻게 만들지 자신이 모른다면 가구를 완성할 수 없다.