‘빅데이터 시대, 성과를 이끌어 내는 데이터 문해력’ 독서 기록
데이터를 보고 분석하는 것에 관심이 많았고 이전 직장 동료분의 추천으로 ‘빅데이터 시대, 성과를 이끌어 내는 데이터 문해력’이라는 책을 읽게 됐다. 앞으로 데이터를 분석해 볼 생각이라면 여러 번 읽어보는 것을 강력히 추천한다. 데이터 관련된 책이어서 읽기 어려울 것 같았는데 예시가 많이 나와있어서 이해하기가 수월했고 빠르게 완독 할 수 있었다. 이 책은 데이터를 어떤 식으로 봐야 하는지에 대해서 나와있는 책이 아니고 어떤 태도와 기조로 데이터를 활용해야 하는지가 나와있다고 보는 게 더 적합하다. 책에서 말하고자 하는 핵심적인 내용이 매우 공감이 되었고 이 내용을 충분히 염두에 두기 위해 책의 전체적인 내용을 핵심만 정리해서 적어보려 한다.
https://product.kyobobook.co.kr/detail/S000001019698
"데이터를 활용해 성과를 내고 싶다고 생각해서, 인터넷이나 주변에서 손에 잡히는 데이터를 긁어모아 그래프나 표 등으로 가공한 다음, '이걸로 대체 뭐 설명할 수 있을까'를 고민하기 마련이다. 그리고 한참 있다 정신차려 보면 몇 개의 곡선 그래프나 막대 그래프, 평균치 표 등만 나열되어 있다. "
"도대체 이것으로 무슨 말을 해야 할까?"
"더 좋은 방법이 없을까?..."
데이터를 최대한 활용하고 가치 있는 결과물을 도출하려면, 기계와 도구 조작법을 깊게 이해하는 것과 별개로, 우리가 직접 익혀야 하는 고도로 가치 있는 기술이 필요하기 때문이다.
'작업한다'라는 부분은 바로 기계가 사람보다 압돚거으로 빠르고 정확하게 처리 가능한 내용이다. 사람이 가치를 창출할 수 있는 것은 '생각'의 부분, 즉 (1)과 (3)에 해당된다.
이 책에서는 (1)과 (3)을 고부가가치 기술을 가진 '데이터 문해력(literacy)'이라고 정의하고, 이를 깊이 있게 파고들고자 한다.
데이터가 여러분에게 직접적인 답을 주는 경우는 없다. 설령 아무리 고난이도의 통계와 분석 방법을 구사하더라고 말이다. 대신, '당신이 무엇을 알고 싶은지, 이를 알게 되면 무엇을 하고 싶은지, 이를 위해서는 어떤 데이터(지표)가 필요한지' 이를 구체적으로 생각하는 것이 무엇보다도 중요하다.
<목적 사고력 : 목적에 맞게 문제와 데이터를 연결하기>
데이터 활용에 실패하는 이유에는 두 가지가 있다.
주요 원인 1 : 풀고자 하는 문제가 명확하지 않다.
주요 원인 2 : 정의한 문제와 사용하는 데이터가 일치하지 않는다.
데이터 활용에 실패하는 사람은 주로 ‘무엇을 어떻게 해야 할지 전혀 모르는 사람’과 ‘데이터 분석에만 시간을 할애하는 사람’이다. 이런 사람은 데이터를 가공한 후 데이터에서 무엇을 알 수 있을지를 생각한다.
반대로 데이터 활용에 성공하는 사람은 주로 ‘데이터에서 필요한 정보를 획득할 수 있는 사람’이며, ‘데이터 분석을 효율적으로 하는 사람’이다. 그래서 데이터에서 무엇을 알 수 있을지를 먼저 생각한 후 데이터를 가공한다.
무엇이 문제이며 구체적으로는 어디 사는 누가 어떤 식으로 곤란에 처해 ‘문제’가 발생한 것인지, 이점을 명확하게 해야 한다. 데이터를 통해 알게 되는 사항은 어쩌다 나온 사소한 발견일 뿐이다. 그 안에는 어떠한 논리성도 객관성도 없다는 것을 알아야 한다.
또한 문제 정의에 있어서 주의할 사항은 ‘문제’가 무엇인가와 그 문제를 일으키는 ‘원인’은 무엇인가, 그 원인에 대한 ‘해결 방안’은 무엇인가로 항상 유념해야 한다.
<현상 파악 및 평가력 : 문제를 표현하는 힘>
여기서도 ‘뭐가 정답일까?’라는 발상은 버리도록 하자. 또한, 어느 한 기준으로만 좁혀야 하는 것도 아니다. ‘이 사례에서는 어떤 평가가 중요할까? 어떤 설명이나 결론이 가능할까?’라는 관점에서 생각하고, 필요한 기준을 선정해 활용해 주길 바란다.
어려운 분석이나 통계까지는 필요하지 않다. 그보다, 자신의 목적에 대해 생각해 보고 이에 따라 가설을 세우는 것이 훨씬 중요하다는 것을 알았을 것이다. 필자가 진행하는 워크숍에서도 ‘목적과 문제를 설정한다’, ‘비교 대상과 비교 방법을 고안한다’에 가장 많은 시간을 할애하고 있다. 처음부터 완벽을 기하려고 하면 잘되지 않는 법이다. 독자분이 개인이든 조직에 속하든, 다른 사람들에게 설명하고 피드백을 받으면서 좋고 나쁜 점을 배우고 취사선택하는 과정에서 데이터 문해력이 조금씩 향상되는 것이다.
만일 여러분이 직접 지금까지 배운 내용을 실행에 옮기려고 할 때 어렵다 느껴지고 막혔다면, 다음과 같이 ‘단순하게’ 생각해 보는 것이 어떨까? “당신이 현재 직면하고 있는 문제나 그 배경에 대해 전혀 모르는 제 3자가 바로 앞에 있다고 상상하세요. 그 사람에게 당신이 다루는 문제를 데이터로 설명하려면 무슨 데이터를 어떻게 보여주면 좋을까요?” 상대방이 그 데이터를 보고 나서, “그렇군요! 확실히 문제가 있네요!”라고 말한다면 성공한 것이다.
<원인 파악력 : 행동으로 이어지는 힘>
여기서 필자는 문제나 결과에 대한 ‘원인’이라고 표현하고 있지만, 만약 이를 자신이 하고 싶은 말, 즉 ‘목적(결론)’에 대해 말한다면 원인은 그 ‘근거’라고도 할 수 있다. 결론만 말하는 것도, 문제나 결과만 제시하는 것도 충분하지 않다.
하지만 원인을 데이터로 분석하기 위해서 볼 수 있는 지표가 마련되어 있다면 좋겠지만 만약 볼 수 있는 지표가 없는 경우엔 어떻게 해야 할까.
유사한 데이터에는 어떤 것이 있을지 생각해 본다.(정확도는 약간 떨어지도라도, 데이터가 없는 것보다는 낫다)
지금 바로 수집을 시작한다.(시간적인 여유가 있는 상태이고, 본질적인 데이터가 필요하다면)
정량적이 아닌, 정성적인 정보로 대응한다.(설문조사 응답 및 청취 자료 등)
포기한다.(해당 부분은 본인의 가정을 통해 보완)
그렇다면 문제와 원인, 그 관련성 유무를 확인하는 방법은 무엇이 있을까.
1단계 : 시각적으로 관련성을 확인한다.
‘문제와 결과를 나타내는 지표’가 세로축, 가설로 수립한 ‘원인 후보 지표’를 가로축으로 하여 ‘산포도를 작성한다. 그러면, 세로축과 가로축의 관련성을 시각적으로 포착할 수 있다. 실무에서는 명확한 관련성이 잘 안 보이는 경우가 압도적으로 많은데, 이럴 경우엔 어떠한 관련성도 찾을 수 없다는 것 자체가 또 하나의 결론이 될 수도 있다. 관련성이 없다는 것은, 바꾸어 말하자면 데이터 분석을 통해 여러분이 추측한 것이 문제와 결과의 원인이 아니라는 것을 밝혀냈다는 이야기이다.
2단계 : 통계 지표를 확인한다(상관계수).
가로축, 세로축이 선형 관계를 보일 경우, 그 관련 정도를 나타내는 통계 방식이 있는데, 이를 ‘상관분석’이라고 한다. 또한, 가로축과 세로축의 관련도(얼마나 직선에 가까운 형태인지)를 나타내는 상관계수를 이용한다. 상관계수는 -1부터 +1 사이의 값을 가지며, 그 값에 따라 두 지표의 관련성을 파악한다.
그런데 정말로 중요한 것은 산포도나 상관분석 계산 결과를 도출하는 것이 아니다. 데이터를 다룰 때는 반드시 다음과 같은 질문을 자신에게 던지기 바란다. 그러고 나서, 얼마만큼 되어 있는지(하고 있는지), 다음에 필요한 것은 무엇인지 등을 잘 생각해봐야 한다. 이러한 사고 과정이 데이터 활용에서는 방법론이나 통계이론보다 훨씬 중요하다.
실적과 결과 표시만 하고 끝낸 것은 아닌지
이 결과를 통해 구체적인 판단이나 행동으로 연결될 것인지
문제와 결과에 대한 원인을 충분히 고려했는지
상관분석 결과는 ‘인과관계’를 나타내는 것이 아니다. 선형 관계성 여부만 파악하는 것은 주의해야 한다. ‘상관관계가 있다’라는 결과가 분석을 통해 도출되지만, 양자 간 ‘인과관계’가 있는지 어떤지, 그리고 어느 쪽이 결과이고 어느 쪽이 원인인지는 분석자의 ‘해석’이라는 것을 염두에 두어야 한다.
‘데이터를 뒤져보면 그 안에 반드시 답이 있을 것이다. 그것을 찾아내자’라는 식의 발상은 일단 리셋하고, 데이터를 보기 전에 가능성이 있는지를 먼저 생각해봐야 한다.
<전체 구성력 : 스토리(논리)를 만드는 힘>
데이터를 활용하려면 본질적으로 논리적인 사고가 반드시 기반이 되어야 한다. 여기서 말하는 논리적 사고란, 개별 데이터와 분석에 대한 것이 아니라, 전체적인 스토리를 탄탄히 구성하고 결론의 설득력을 높이기 위한 사고력과 구성력을 말한다.
맞든 안 맞든 상관없으니 참신한 아이디어만 내면 된다는 생각이라면, 애당초 데이터는 필요 없다. 필자는 이런 상황의 작업자를 ‘방법맨’이라고 부르고 있다. 그럼 ‘해결 방안’으로 바로 뛰어들기 전에 취해야 할 행동은 무엇이 있을까?
그것은 바로 ‘원인’을 분석하는 것이다. 하지만 지금까지 계속 강조한 것처럼, 그 전제로서 ‘문제’가 적절히 정의되어야 한다. 1장에서도 다루었지만, ‘해결 방안’은 ‘문제’에 직접적으로 적용하는 것이 아니라, ‘문제’를 일으키고 있는 ‘원인’에 적용하는 것이다. ‘방법맨이 되는 것을 피하려면 일단 ‘문제’, ‘원인’, ‘해결 방안’이라는 가장 단순한 프로세스를 항상 염두에 두고, 자신이 생각하고 있는(실행하고 있는) 것이 세 가지 중 어느 쪽에 해당하는지 파악해야 한다.
<정보 집약력 : 정보를 수집하고 결론을 이끌어내는 힘>
데이터를 수집하고 이를 처리, 분석한 ‘다음’에 하는 데이터 문해력 중 하나가 바로 ‘결론을 서술한다’이다. 먼저, 여기서 주의해야 할 것은, ‘결과와 결론은 다르다’라는 것이다. 계산과 분석을 해서 나온 결과물은 어디까지나 ‘결과’이며, 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것이 ‘결론’이다.
결과와 결론에 이르는 과정은 본질적으로 같다. 결론이란 결과를 기반으로 도출하는 것이기 때문이다. 하지만 표현 방식은 다르다. 그리고 그 작은 차이가 상대방에게 전달되는 방식이나 이해도에 큰 영향을 미친다. 이 차이를 이해하는 것 또한 데이터 문해력에 있어서 중요한 요소이다. 데이터 문해력에서는 ‘결과적으로 데이터를 분석해 획득한 정보를 목적에 맞게 활용하는 능력’이 필수적이다.
<시야 확대력 : 데이터로 시야를 넓히는 힘>
지금까지의 이야기를 통해, 단순히 데이터를 보는 방식이나 분석 방법론, 통계 지식만 갖고서는 객관적인 문제 해결에 전혀 도움이 되지 않는다는 것을 이해했으리라 생각한다. 이와 동시에 꼭 필요한 것은 눈앞에 있는 데이터에 의존하지 않고 스스로 목적과 문제를 정의해 필요한 데이터나 분석 범위를 얼마나 넓은 시야로 디자인할 수 있는가임을 소개해 왔다. 여기서 말하는 ‘디자인’이란, ‘목적과 문제를 정의하는 것’, ‘이를 위해 필요한 데이터와 지표를 설정하는 것’, 그리고 ‘그 데이터를 어떻게 분석해야 문제의 정보를 효과적으로 얻을 수 있는지 분석하는 것’에 대해 고려한 다음 데이터를 활용해 수행할 작업의 설계도를 그리는 것을 말한다.
그럼 눈앞에 있는 데이터에 제한되지 않는 적절한 프로세스란 무엇일까? 그것은 각 과제의 데이터를 다루기 전에, 넓은 안목으로 전체를 가정하는 것이다. 이 ‘가정’은 일반적으로 ‘가설’이라 하며, 목적과 문제에 대하여 데이터를 다음 사항에 유의하여 생각하는 것을 가리킨다.
어떤 범위, 어느 시점의 정보(데이터)가 필요한가?
어떻게 처리, 가공해야 할 것인가?
말한 것과 같이, 이 시점에서는 눈앞의 데이터에 구애받지 않아야 한다. 즉, 다음 프로세스가 가설 수립에 필요하다.
‘데이터 → 가설(데이터에 기반한 가설 수립)’이 아니라, ‘가설 → 데이터’
처음부터 범위(데이터)를 넓게 설정하면 분석 범위 자체도 넓어지므로, 수집해야 할 정보나 결과를 놓칠 위험이 줄어든다. 중요한 것은 분석에 활용할 데이터와 그 범위를 얼마나 넓게 설정할 것인가이다. 아래 두 사항에 대해 논리적이고 폭넓은 시야로 고찰해야 한다.
이 문제는 어느 정도 범위의 데이터가 필요한가?
이 데이터는 어떤 관점으로 바라봐야 하는가?
<실행력 : 문해력을 실현하는 힘>
잘 나가는 개인과 조직은 무엇이 다른가
공통점 1 : 선생님과 팀장, 파트장 등의 리더십, 책무로 확립되다.
제도나 평가에 ‘데이터 활용’을 도입하고 업무 시스템으로 ‘반드시 해야 할 일’로 명시하고 있는 조직 또한 실제 존재한다. 그런 조직은 ‘앞으로 나아가고’ 있다.
공통점 2 : 목적이 명확하다.
데이터를 사용하는 목적은 무엇인가? 데이터를 분석해서 실현하고 싶은 것이 무엇인가, 어떤 행동으로 이어지게 하고 싶은가? 앞으로 나아가는 조직은 그런 명확하고 구체적인 목표와 목적을 제시하고 현장에서 공유하고 있다.
공통점 3 : ‘생각’과 ‘작업’의 차이와 가치를 이해한다.
‘생각’의 중요성과 이를 위해 필요한 환경을 이해한다면, 충분한 시간과 환경의 필요성을 검토하고 준비할 수 있을 것이다.
공통점 4 : 결과물을 적절하게 평가할 수 있는 사람이 있다.
상급자(선생님, 직장 상사)는 결과물에 대해 어느 정도 평가를 하고 피드백을 줄 수 있는 능력을 갖추어야 한다.
‘데이터를 활용한다’란, ‘잔재주’로 가능한 것이 아니다. ‘올바른 목적을 설정하고 그 목적에 따라 데이터를 활용해서, 적절히 제시한 결과를 결론으로까지 끌어낸다’는 본질적인 흐름을 중시하고, 과정 하나하나 신중히 밟아가야 한다. 그것이 바로 가치 있는 성과를 창출하기 위한 필수 조건이란 점을 이 책을 통해 느꼈다면 더 바랄 나위 없겠다.
막혔을 때 꼭 떠올렸으면 하는 필자의 조언
데이터 분석을 통해 얻을 수 있는 결과가 목적을 잘 반영하고 있는지는 데이터의 양과 분석 방법에 좌우되지 않는다.
데이터 분석이란 눈앞의 데이터로부터 어떤 패턴을 추출하는 것이 아니다.
‘데이터를 통해 판독’한 정보는 아무리 훌륭한 데이터 사이언스를 구사하더라도 시사점(인사이트)이라고 할 수 없다.
‘데이터 분석 방법’과 ‘데이터 분석을 활용하는 방법’은 전혀 다른 개념이다.
목적이 애매하면 그것이 잘 풀릴지는 운에 의지하게 된다. 애당초 잘 풀리고 있는지 어떤지조차 평가할 수 없겠지만
‘분석’도 ‘데이터’도 어디까지나 수단이고 도구일 뿐, 답을 제시해주지 않는다.
‘데이터 분석을 통해 성과를 낸다’는 것은 ‘나무로 가구를 만든다’에 비유된다. 좋은 목재(데이터)가 있고 못을 박는 실력(분석 방법과 통계 지식)이 뛰어나더라도, 어떤 가구글 어떻게 만들지 자신이 모른다면 가구를 완성할 수 없다.