10 올바른 데이터로 문제를 풀어요

데이터 활용에 실패하는 두 가지 이유

by 정경문

# 첫째, 데이터 활용에 실패하는 두 가지 이유


겨우 이거 알아내려고 데이터 분석을 했어?


실무에서 많은 시간을 투입해서 데이터 분석을 해서 결론을 도출해서 보고 했을 때 현업 전문가들은 이렇게 반문합니다. "겨우 이거 알아 내려고 그 고생을 하셨어요? 그냥 아는 건데" 데이터 분석 경험이 없는 경우, 이러한 부정적 피드백에 지치기도 합니다.


'데이터의 활용이 중요하다'는 공감대는 이제 서로 간에 인식이 되었습니다. 그렇다면 데이터의 활용은 왜 제대로 되지 못하는 것일까요?


"데이터에서 유의미한 결과를 뽑지 못하겠어", “데이터는 분석했는데 이게 맞는지 모르겠어”라고 진퇴양난에 빠져버립니다. 이렇듯 ‘데이터를 제대로 활용하지 못하는’ 기초적인 문제부터 실제로는 그렇지 않은 사실에 대해 '데이터에서 올바른 결론을 도출했다’라고 잘못 판단하는 치명적인 문제까지도 발생합니다.


이런 많은 경우, 데이터 과제를 해결하면서 제가 경험한 결과, 문제의 대부분이 ‘분석 역량이 부족하다' 거나 '방법이 틀렸다’라며 ‘방법론’을 원인으로 지목합니다. 하지만, 실제 데이터 활용에 실패하는 주요 원인은 다음 두 가지입니다.


⦁ 원인 1 : 풀고자 하는 문제가 명확하지 않다.

⦁ 원인 2 : 정의한 문제와 사용하는 데이터가 일치하지 않는다.


이러한 두 가지 원인의 근간에는 앞선 수업에서도 설명한 것처럼 ‘눈앞의 데이터를 적당히 가공하면 뭔가 유용한 정보를 얻을 수 있을지 모른다’라는 생각이 존재합니다. 이 원인을 해결하고, 데이터 활용을 잘하기 위해서는 아래 그림으로 설명이 필요합니다.


데이터 분석 '작업'과 데이터에서 무엇을 얻고자 하는 '생각' 무엇이 먼저일까요?

무엇을 어떻게 해야 할지 전혀 모르는 사람은 일단 데이터부터 만지고 봅니다. 데이터 분석 툴을 이용해서 데이터를 전 처리하고 시각화하고 그래프를 읽어 내려고 합니다.


반대로, 문제가 무엇인지 명확히 인식하고 접근하는 사람은 "내가 무엇을 하고 있는가?"에 대한 질문에 정확히 대답할 수 있습니다. 그리고 내가 하고자 하는 목적에 맞는 데이터를 찾습니다. 그리고 그 데이터에서 무엇을 얻을 수 있을까? 에 대한 가설을 세우고 데이터를 분석합니다.


우리는 데이터 분석 툴(파이썬)을 켠 다음 생각합니다. ' 이 데이터를 어떻게 분석해야 하나?'

이것은 '단순히 문제를 풀기 위해 데이터를 활용한다'는 하나의 방법일 뿐입니다. 하지만, 실제로는 이렇게 생각하는 사람이 매우 많은데, 그들은 거기서 포기해버립니다. 그리고 이러한 사고가 ‘데이터 활용’이라는 목적에 가장 치명적인 원인이 된다는 것을 모르고 있습니다. 그럼, 이 두 가지 주요 원인을 각각 파헤쳐 보도록 하겠습니다.




# 둘째, 풀고자 하는 문제가 명확하지 않다.


Do You Know
What You Want Know?


“당신이 알고 싶은 것이 무엇인지 알고 있나요?”

데이터 분석 중인 사람에게 옆에서 이런 질문을 갑자기 던지면, 대 부분은 어리둥절한 표정을 짓습니다. 분명 ‘그야 당연히 알고 있지!’라 고 대답하는 사람이 대다수일 것입니다. 그런데 정말로 그럴까요?


예를 들어, ‘우리나라 인구 문제를 데이터로 분석해보자’라는 주제를 생각해보겠습니다. 여러분은 이러한 주제로 데이터를 활용해서 분석한다고 할 경우, 일단 무엇부터 시작할까요?



멸종위기 한국인



간단히 생각해서 1명의 어른이 1명의 아이를 낳고 죽는다면, 이론적으로는 인구가 동일하게 유지될 것입니다.그런데 지금 대한민국의 인구의 증가와 감소를 나타내는 그 지표 "합계출산율"이 0.81을 기록했습니다. , 인구가 감소하고 있다는 이야기입니다.


발표 당시 자연감소율을 포함한(사망은 늘고, 출생은 줄어듬) 합계출산율이 1.19로 유지되었을 때 한국인의 멸종 시기는 2750년으로 발표되었습니다만, 현재 이 합계출산율이 놀라운 속도로 줄어들고 있습니다.


합계출산율이란(Total fertility rate, TFR) 가임 여성(15~49세) 1명이 평생 동안 낳을 것으로 예상되는 평균 출생아 수를 나타낸 지표로, 연령별 출산율(ASFR)의 총합이며, 출산력 수준을 나타내는 대표적 지표로 사용된다. - 위키백과 -


영국 옥스퍼드 대학교 인구문제연구소 콜먼 교수는 "한국은 지구 상에서 제일 먼저 소멸되는 나라가 될 것"라고 말했습니다. 그만 큰 우리나라의 인구감소와 출산율은 심각한 문제입니다.

2022 대한민국 인구통계 (출처 : 통계청)


이러한 인구 감소의 문제를 해결하거나 완화하는 것이 문제라고 가정하겠습니다.(진짜 큰 문제입니다) 그렇다면 어디서부터 어떻게 해결해야 할까요?


이 질문에 가장 먼저 나오는 의견은 아마도 "인구 데이터를 수집해서 현재 상태를 파악한다" 일 겁니다. 그런데 대체 구체적으로 인구 문제의 '어떤 부분'의 데이터를 뽑아야 할까요?

어떤 종류의 인구 문제를 해결하고자 하나요? 문제를 정의하는 구체적인 방법으로, 예를 들어 다음과 같은 것을 생각할 수 있습니다.


① "출산과 육아의 비용이 너무 많이 들기 때문에 국가가 일정 부분 지원을 해야 한다."

② ”청년이 불안감을 해소하고 지역균형발전을 이뤄서 양질의 일자리가 많아져야 한다."

③ "주거 환경이 열악하고, 자산격차를 줄이고, 신노동법으로 소득격차를 줄여야 한다."


위 생각들은 실제 대한민국 대통령 후보 토론회에서 후보자들이 한 발언입니다. 대통령 후보들 간에도 이 문제를 해결하기 위한 해답은 저마다 달랐습니다.


주의하실 분들이 있습니다. 바로 ‘이 중에서 누가 옳은 정책인가? 어떤 게 정답일까’라고 생각하신 분들입니다. 왜냐하면, ‘어딘가에는 절대적인 정답과 진리가 있고 그것을 어떻게 찾아낼 수 있을까’라는 생각에 빠져 있기 때문입니다.


지금까지의 우리의 교육제도는, '어딘가에 있을 정답을 구하는데’에 초점이 맞추어져 있었습니다. 즉, 정답은 어딘가에 있으며 그것을 어떻게 정확하고 빠르게 찾아내는가 하는 접근 방법에 중점을 두고 있었습니다.


하지만 이런 사고방식만으로는 현재와 미래에 통하지 않습니다. 자신이 알고 있거나 생각해낸 아이디어뿐만 아니라, 광범위하고 객관적인 주장을 합리적으로 전달할 수 있는 효과적인 도구(무기)가 바로 데이터입니다.


절대적인 정답이 존재하지 않을 때, 여러분은 자신의 생각을 무엇으로 논리적이고 객관적으로 상대방에게 전달하고 이해시킬 수 있을까요? 데이터는 우리의 논리적 사고에서 필요한 확인이자 증거입니다. 자신이 원하는 결론으로 이끌어 내는 스토리 텔링 능력, 논리적 사고는 앞으로 더욱 중요해질 것입니다.





# 셋째, 정의한 문제와 사용하는 데이터가 일치하지 않는다.

가장 먼저 해야 하는 작업은 ‘목적과 문제에 대한 정의’


한국인의 멸종위기 문제로 되돌아가 볼까요?

만일 이 문제에 대해 목적을 정확히 설정하지 않고 분석을 시작하게 된다면 어떻게 될까요? 아마도 인구 문제와 관련이 있어 보이는 데이터를 모은 다음, 그것을 가공해서 그래프로 그리고, 거기서 ‘어쩌다’ 발견한 사항들을 열거해서, ‘데이터에서 이런 결론을 얻을 수 있었습니다’ 라며 분석을 끝낼 것입니다.


분명 그래프에서 뭔가를 읽어낼 수는 있을 것입니다. 그러나 ‘이런 결론을 얻을 수 있었습니다’라는 말을 들은 상대방은 아마도 이렇게 생각할 것입니다. “그래서 결론이 뭐지? 그래프에서 발견한 사실이 근본적인 문제야? 이것만 해결하면 인구가 줄어드는 문제가 없어져?


그럼, 데이터 활용을 위한 프로세스로 돌아가 보겠습니다. 앞서 마지막에 있었던 데이터 활용 프로세스를 다시 다음 그림으로 보시겠습니다.

목적을 설정하지 않은 채 진행한 것은 앞선 그림의 ‘B ’에서 출발한 것과 같습니다. 그렇게 되면, 중요한 절차인 "①문제정의"가 빠져버리게 됩니다. 데이터 활용에서 먼저 해야 하는 작업은 ‘목적과 문제를 정의하는’

것입니다.

나는 무엇을 알고 싶은가
나는 무엇을 해결하고자 하는가


이 두 가지를 명확히 하는 것에서부터 활용 프로세스는 시작합니다. 이들은 ‘이미 아는 것’인 경우가 많으며 그러므로 의식적으로 ‘다시 확 인한다’ 정도의 인식을 하고 있으면 충분합니다. 왜냐하면, 대부분은 겉으로 드러난 상황이나 문제 그 자체가 여러분이 풀고자 하는 문제를 직접적으로 드러내고 있다고 단정할 수 없기 때문입니다.


조금 전 예를 들었던 ‘우리나라 인구 문제’라는 것이 ‘인구가 감소하고 있다’라는 현상 그 자체만 가리킨다고 한다면 풀어야 할 문제가 무엇인지 말하기는 어렵습니다. 데이터를 활용하고자 진행하면서 자신이 어떤 문제를 풀어야 할지, 어떤 것을 알아야 할지 등을 명확히 정의하지 않은 채 시작한다면 결과는 엉망이 되기 십상입니다. 하지만 실제로는 이런 일이 현업에서 빈번하게 일어나고 있습니다.


자신이 알고 있거나 보고 들은 적이 있고 경험한 적 있는 직접적인 대상은 어디까지나 겉으로 드러난 현상과 사실이기 때문에, 앞으로 다루게 될 ‘문제와 목적’이라고 하기엔 충분하지 않다는 것을 항상 염두에 두기 바랍니다.


이번 시간에는 문제의 올바른 데이터로 올바른 문제를 푸는 방법에 대해 말씀드렸습니다. 내가 무엇을 알고 싶은가? 무엇을 해결하고 싶은가? 인 목적과 문제에서 출발해서 어떤 데이터를 필요로 하는지 아는 것이 분석의 시작입니다. 이제 무턱대고 파이썬(데이터 분석 툴)부터 켜고 시작하는 일은 없었으면 좋겠습니다.


다음 글에서는 우리가 논리적으로 말하기 위해 데이터가 필요한 3 요소를 알아보겠습니다. 감사합니다.


※ 본 편은 "데이터 문해력"(카시와기 요시키 지음. 강모희 옮김. 프리렉 출판사)을 인용하여 작성하였습니다

keyword
이전 10화09 데이터로 문제를 해결할 수 있다는 착각