눈 앞에 주어진 데이터 분석에 혈안이 되어 있는 당신
2018년부터 고용노동부에서 취업 멘토링 봉사를 하고 있습니다. 학창시절 저도 한 재단에서 장학금을 받고, 교사 활동도 했던 경험이 있습니다. 그래서인지 취업과 진로가 막연한 20대를 겪은 제게, 같은 입장의 학생들을 돕는 이 일이 제게 참 보람됩니다. 그 멘토링 강연에서 데이터 분석가로서 진로를 희망하는 학생들에게 공통적으로 하는질문이 있습니다.
다음 데이터를 어떻게 활용할 수 있을까요?
제 강의에 참가했던 분들은 ‘경기도가 인구가 가장 많다’ 거나, ‘서울의 인구가 부산의 인구보다도 3배나 많다’라는 등의 의견을 제시합니다. 그렇다면, 이러한 접근 방식이 정말로 데이터를 잘 활용하는 것일까요? 이렇게 도출된 결론이 과연 유용한 정보라는 생각이 들까요? 이는 ‘데이터를 통해 할 수 있는 말’ 일뿐이며 비즈니스 현장에서는 쓸모없을 것입니다.
이 데이터를 통해 무엇을 말하고 싶은가요?
실제 강의에서 멘티들에게 생각해보라고 한 것은,
“이 그래프를 통해 무엇을 말할 수 있을까요?”가 아니라,
“이 그래프를 작성한 사람은 (그래프 작성 전에) 무엇을 말하고 싶었을까요?”
입니다. 여러분은 이 두 가지 질문의 의도를 눈치채셨나요?
전자는 ‘데이터와 그래프 중심의 사고’를 전제로 한 질문으로, 누군가가 만든 데이터와 그래프를 읽어내는 것만 추구하는 것입니다. 이 경우, 자신이 알고 싶은 것(목적)이나 그 목적에 부합한 데이터의 선택, 데이터를 보는 관점을 전부 고려하지 않게 됩니다.
한편 후자는 ‘목적 사고력’이라 할 수 있습니다. 데이터 작업 전에, 애당초 무슨 말을 하고 싶은지(무엇이 알고 싶은지)를 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식입니다. 우리가 목표로 하는 데이터 문해력이란 바로 후자에 해당합니다.
눈앞에 보이는 데이터,
그리고 분석 Skill에 집중하지 마세요
앞서 말씀드린 컴퓨터 사고력의 필요성을 아직 느끼지 못하신 분도 있을 수 있을 수 있습니다. 또는 컴퓨터 사고력을 통해 작은 문제 해결의 성공을 맛보지 못하신 분들도 있을 거고요. 이 분들에게는 공통점이 있으실 건데요. 그중 하나는 ‘눈앞에 보이는 데이터를 분석하는 것부터 시작한다’는 것입니다.
회사 시스템이나 인터넷에서 수집한 데이터를 보면 일단 엑셀이나 파이썬부터 켭니다. 그리고 인터넷 강의에서 배운 데로 일단 그래프를 그려보고, 평균과 합계를 내보는 등의 행동을 취합니다. 그러면서 어느새 데이터 분석이 아닌 "프로그래밍"을 하고 있는 자신을 발견하게 됩니다. 어떠신가요? 경험한 적 있으신가요? 사실은 이러한 행위가 여러분을 ‘데이터 활용이 어렵게 느껴지는’ 사람으로 만들어버리는 것입니다.
데이터 분석을 실무에서 활용을 어려워 사람들은 대부분,
“이 데이터를 적당히 건드리다 보면 뭔가 유용한 정보가 나오겠지. 아무것도 안 나온다면 분석 방법이나 지식이 부족하기 때문일 거야.”라고 생각해서 즉, 데이터 분석 작업을 선행한다 는 것입니다.
그러면 여기서, 정말 중요한 일이 뭔지를 전하고자 합니다. 데이터 가 여러분에게 직접적인 답을 주는 경우는 없습니다. 설령 아무리 고난도의 통계와 분석 방법을 구사하더라도 말입니다.
대신, ‘당신이 무엇을 알고 싶은지, 이를 알게 되면 무엇을 하고 싶은지, 이를 위해서는 어떤 데이터(지표)가 필요한지’ 이를 구체적으로 생각하는 것이 무엇보다도 중요합니다.
위 인구통계에서 해야 하는 일이 바로 이것입니다. 이 부분은 생각하지 않은 채, 데이터를 아무리 쳐다보고 있어 봤자, 쓸모없는 그래프만 양산될 뿐입니다.
이 문제의 본질은 아래 그림과 같이 설명할 수 있습니다. 가령 ‘알고 싶은 것, 말하고 싶은 것(목적)’과 ‘해결하고 싶은 것(문제)’이 명확하다고 하고, 이를 위해 필요한 데이터의 범위를 큰 동그라미로 표시하겠습니다.
이것에 해당하는 목적, 문제와 관련 있을 법한 데이터가 눈앞에 나열된 상황에서, 사고가 정지된 채 이 데이터를 이용하게 된다면 어떤 일이 일어날까요?
이 데이터는 가운데 아래에 있는 동그라미의 정보 "1" 만을 취합하게 될지도 모릅니다. 그래도 억지로 데이터 분석법과 통계지식을 적용하여 어떻게 해서든 결과를 내는 것은 가능할 것입니다. 하지만, 그러한 계산 결과를 통해 얻을 수 있는 것은 아주 작은 양의 정보에 불과합니다.
이 상황이 어떤 것인지 잠시 생각해보도록 하겠습니다. ‘관련 데이터에서 정보를 얻었다’라고 말할 수도 있습니다. 하지만 ‘본질적으로 필요한 정보를 총망라해서 취득했다’고는 할 수 없습니다. 그리고 분석을 수행한 당사자인 여러분 또한 자신의 잘못이 뭔지를 이해하고 있을 것입니다.
(10 당신의 데이터가 가져야 할 3요소_데이터의 충분성에서 깊게 알아보겠습니다.)
이를 더욱 극적으로 표현하기 위해 ‘데이터 안에는 해답 따위가 존재하지 않는다' 고 표현합니다. 만약 있다 생각하면, 데이터를 만지작거리다가 끝나버립니다. 그래서 다음과 같은 솔루션을 제안드립니다.
데이터 활용이 어려운 분들을 위한 솔루션
① 데이터를 분석하면 문제와 목적, 결론이 나올 것이라는 생각
> 데이터가 자체가 아닌, 내가 왜 이 데이터 분석을 하려고 하는지 "진짜 목적"을 생각해봅니다.
② 눈앞의 데이터를 적절히 가공하면 뭔가 유용한 정보를 얻을 수 있을 것이라는 생각
> 데이터 분석에 앞서 내가 풀고자 하는 문제가 무엇인지 정의해보고
원하는 최종 결과물의 형태를 상상해봅니다.
# 둘. 데이터 분석은 그 자체가 목적이 아니라 "방법" 이예요
이것은 현업에서 절실히 느끼는 부분입니다. 데이터와 데이터 분석은 목적을 달성하기 위한 도구에 지나지 않습니다. 어디까지나 하고 싶은 말과 해결하고 싶은 것이 있기 때문에 이러한 목적에 대한 도구(Tool)로서 데이터를 활용하는 것입니다. 도구(Tool)가 단독으로 일을 성사시킬 수는 없습니다.
여러분에게 ‘기존의 데이터 독해법, 분석법(데이터 중심 접근)’에 대한 기술이나 고난도의 방법론이 아니라, 자신의 목적과 문제를 올바른 데이터로 적절히 활용해서 가치 있는 결과물을 낼 수 있도록 하는 사고방식과 기술을 소개하고자 합니다.
여기까지의 내용을 바탕으로 모쪼록 여러분의 ‘데이터 분석 및 활용’에 대한 현재 수준을 확인해주길 바랍니다. 실무 경험이 없으신 분은 지금까지 ‘데이터 분석 및 활용’에 대해 갖고 있는 이미지 등을 떠올리면 됩니다.
① 시각화 중심
인터넷을 검색해서 주제에 부합할 법한 시각화 자료를 일단 모은 다음, 거기서 읽어낼 수 있는 것을 결론으로 하는 것입니다. 스스로 문제의식과 구체적인 주제를 생각하는 것이 서투른 학생들이 빠지기 쉬운 패턴이라고 할 수 있습니다. 그래프에서 정보를 얻는 것 자체가 이미 분석이라고 하기 어렵고, 복수의 그래프를 억지로 연결해서 내린 결론은 논리가 결여되어 있기 마련입니다.
* 결론의 형태 : 그래프를 통해 알 수 있는 사실은 XXXXXX입니다.
② 데이터 중심
① 시각화 중심 수준과의 차이는 수집한 데이터를 파이썬, 엑셀 등으로 직접 분석하는 단계가 들어간다는 점입니다. 자신이 직접 작업하기 때문에 ‘분석하고 있다’는 느낌은 들지만, 그로부터 얻을 수 있는 결론은 앞선 ① 단계 수준과 큰 차이가 없습니다.
* 결론의 형태 : 데이터 분석을 통해 알 수 있는 사실은 XXXXXX입니다.
③ 목적 중심
‘기존 그래프와 데이터를 통해 알 수 있는 것이 무엇인지’가 아니라, 나 자신이 알고 싶은 것(목적)에 따라 데이터를 수집하고 분석해서 그 결과를 검증하고 결론으로 연결하는 것입니다.
데이터 자체에 빠지다 보면 본래 우리가 하고자 했던 일, 현실의 문제가 왜곡되는 경우가 많습니다. 그렇기 때문에 과거 IT 버블 시기에도 다양한 시스템이 도입되었지만 실망으로 연결되었던 기억이 있습니다. 중요한 것은 문제를 정의하고 그 후에 문제 해결에 필요한 데이터는 무엇인지? 컴퓨터로 해결 가능한 문제인지? 를 생각해보는 목적 중심의 데이터 활용 프로세스가 중요합니다.
여기서 주의해야 할 점은, ‘① 시각화 중심 → ② 데이터 중심→ ③ 목적 중심’과 같은 식으로 능력을 끌어올리는 것이 아닙니다. 바로 ③ 목적 중심으로 문제 해결을 진행해야 합니다.
이번 시간에는 우리에게 정말 필요한 능력은 데이터 중심이 아닌 '목적 중심'으로 사고하는 방법이라는 것을 알아보았습니다. 다음 글에서는 문제를 정의하고, 원인을 분석, 결론을 도출하는 구체적인 방법에 대해 알아보겠습니다. 감사합니다.
※ 본 편은 "데이터 문해력"(카시와기 요시키 지음. 강모희 옮김. 프리렉 출판사)을 인용하여 작성하였습니다.