brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Apr 26. 2022

11 데이터로 말하는 게 불편하세요?

당신의 데이터가 갖춰야 할 3가지 요소

아이들이 아니라 '우리' 걱정할 때


"너네 요즘 학교에서 컴퓨터 배우니?"

"응, 정보 시간 있어"


"그럼 아빠 교과서 좀 보여줄래?"

 "허걱, 이럴 수가?!"


얼마 전 아이 '정보 교과서'를 보다가 깜짝 놀랐습니다.

관련업에 종사하는 사람의 시각으로 볼 때, 교과서의 내용이 굉장히 짜임새 있게 구성되어 있었습니다. 반면에 제가 처음 입문할 때만 해도 자료가 부족해서 인터넷 그리고 원서, 수험서에서 지식을 얻을 수 있었습니다.

중학교 정보 교과서의 일부분 "그림의 디지털 표현"

놀란 이유 중에 첫 번째는 교과서 내용이 전문적이고 포괄적이어서 놀라웠고, 두 번째는 정보화 기술이 우리 정규 교과과정에 반영된 속도였습니다. '이렇게 빨리 기술이 교과서 녹아들었다니?'  아빠가 아니라 교과서에서 양질의 지식을 배울 수 있도록 노력해 주신 분들께 감사하다는 말씀드리고 싶습니다.


솔직히 현업에 있는 제가 교과서를 보고 지식체계를 재정립하면 좋겠다는 생각이 들 정도였습니다. 바로 이러한 부분이 제가 첫 시간에 데이터로 세대를 구분할 수 있다고 말씀드린 이유입니다.


태어날 때부터 데이터 속에서 살고, 양질의 정보기술 교육과정을 받은 세대와 갑자기 떨어진 기술들에서 서바이벌을 외치며 살고 있는 우리 세대. 이 둘은 받아들일 수 있는 정보의 양과 질이 다를 수밖에 없습니다. 그래서 우리에게는 데이터 리터러시(문해력) 교육이 필요합니다.


이터 리터러시 교육이 정말 시급한 사람은 정규 교육과정에서 데이터를 체계적으로 배우고 있는 아이들이 아니라, 당장 성과(Performance)를 내야 하는 바로 '우리'입니다.




듣기, 말하기, 읽기, 쓰기


다시 교과서 이야기로 되돌아 가보겠습니다.

지금은 그 교육과정이 개정되었지만(7차 교육과정 이후 수시로 개정) 국어 교과서는 7차 교육과정까지 듣기, 말하기, 읽기, 쓰기로 구성되어 있었습니다.(말하기보다 듣기가 순서가 바뀐 이유는 경청하는 자세가 중요하는 사회적 분위기가 반영되었습니다.)  그 이유는 듣기, 말하기, 읽기, 쓰기 4가지 능력이 가장 기본 되는 언어와 사고의 능력이기 때문입니다. 이것은 비단 우리말뿐만 아니라 영어에서도 마찬가지입니다.


특히 사회에 나와서 느낀 것은 이 4가지 능력이 모든 일을 하는데 기본이 되는 아주 중요한 역량이라는 점입니다. 직장생활을 할 때나 사업을 할 때, 고객/동료들의 피드백을 잘 들어야 합니다. 그리고 내 생각과 주장을 논리적으로 말하고 발표할 수 있는 능력은 필수입니다. 또 변해가는 세상에 대한 정보와 지식을 습득하는 읽기 능력이 필수입니다. 마지막으로 쓰기는 논리적으로 사고하고 표현하는 궁극적인 업무의 성과물이자 나아가 인류의 기록입니다.


앞서 말씀드린 대로, 우리 기성세대는 데이터에 대해 제대로 듣고, 말하고, 읽고, 쓰는 능력을 기른 적이 없습니다. 이번 시간부터는 우리가 당장 습득해야 하는 데이터 문해력 역량 중에서 듣기, 말하기, 읽기, 쓰기 이 4가지에 대해 차근차근 알아볼 정입니다.




# 둘, 다크 데이터(Dark Data)_by 가트너(Gartner)


가트너 사(Gartner, 정보기술분야에서 미국의 유명한 컨설팅 기업)다크 데이터(Dark Data)를 조직이 정기적인 비즈니스 활동 중에 수집, 처리 및 저장하지만 분석, 수익 창출 등 다른 목적으로 사용하지 않는 정보 자산으로 정의합니다.


물리학에서 다크(암흑) 물질과 유사하게, 다크 데이터는 조직의 정보 자산 세계의 대부분을 구성합니다. 따라서 조직은 규정을 준수하는 목적으로만 다크 데이터를 보유하는 경우가 많습니다. 데이터를 저장하고 보호하기 위해서만 그 정보가 지니는 가치보다 더 많은 비용 때로는 위험이 발생합니다.


실제로 사업에 쓰이는 핵심적인 데이터는 단 12%에 불과합니다.



현업에서 실제로 쓰이는 데이터는 가지고 있는 데이터의 12%에 불과합니다. 이는 반대로 얘기하면 나머지 88%는 쓰이지 않고 있다는 말과 같습니다. redundant 불필요하거나, obsolete 쓸모없고, trivial 하찮은 데이터가 23% 그리고 네트워크상에 개인 PC, 그리고 기계에 저장된 데이터가 65%입니다.


기업들이 다크 데이터가 잘 활용되지 못하는 이유는 다음 4가지와 같습니다.

기업들이 생각하는 다크 데이터가 잘 활용되지 못하는 이유

첫째 1. 다크 데이터에 적합한 분석 툴이 없다는 것입니다. 85%
둘째 2. 데이터 활용 전문가가 부족합니다. 39%
셋째 3. 구조화된 데이터만 접근이 가능합니다. 25%
넷째 4. 데이터가 소실되거나 불완전한 형태입니다. 66%
출처 : https://blog.capterra.com/dark-data-mining/



# 셋, 내 주장을 뒷받침하기 위해 데이터가 필요한 3가지


건강한 몸을 위한 3가지 요소가 있다고 합니다.

1. 근골격(근육과 뼈), 2. 장기(오장육부), 3. 혈액과 신경(피와 호르몬)


우리가 데이터를 통해 의사결정을 할 때도 필요한 데이터의 3가지 요소가 있습니다.

1. 데이터의 상관성 2. 데이터의 충분성 3. 데이터의 대표성 이 있습니다.


세 가지 요소에 대해 각각 알아보겠습니다.


① 상관성


니꺼 아닌 내꺼 아닌 너
뭔 말이야? 상관있어, 없어?


아무리 많은 데이터라고 해도, 내가 주장하는 바와 관련이 없다면 그 데이터는 무슨 소용일까요? 많이 드는 예로 "일본 경제의 잃어버린 20년"입니다. 일본은 1990년부터 경기가 후퇴하기 시작하면서 버블경제가 붕괴되기 시작했습니다. 그 후 2008년 글로벌 금융위기, 인구감소와 함께 오랜 세월 침체에 빠졌습니다.


우리나라 학자들도 일본 경제의 잃어버린 20년을 이야기합니다. 하지만 이에 앞서 우리나라와 일본의 경제상황이 관련이 있다. 상관관계가 높다.라는 가설을 증명하지 않고 자연스럽게 넘어갑니다. 같은 동북아시아의 이웃 나라이다. 또는 경제구조가 유사하다는 직관적 사실만으로 일본의 경기침체 역사를 우리나라의 경기예측에 고스란히 대입하는 실수를 범합니다. 일본 ≒ 한국, 일본 ≠ 한국


* 데이터 분석 관점 : 상관관계, Correlation, 피어슨 상관계수(연속), 스피어만 상관계수(순위)

* 데이터 질문 : 분석한 데이터가 이 주장과 '어떤' 관계가 '얼마나' 있나요?

우리가 알고자 하는 값과 이 데이터 간에 상관계수는 얼마인가요?



② 충분성


데이터를 한 소스에 담지 마라


주장은 다양한 관점에서 바라봐야 합니다. 이것은 샘플링과 같은 개념으로 볼 수 있습니다. 예를 들어, 나의 주장을 뒷받침하는 데이터가 한 가지 소스로부터 도출되었다고 하겠습니다. 그런데 그 데이터 수집이나 처리단계에서 심각한 오류가 발생했다면? 그 데이터에 대한 신뢰도를 기반으로 주장을 펼쳤는데, 그 한 가지 데이터의 신뢰도가 추락한다면, 자연히 나의 주장에 대한 신뢰도는 바닥이 됩니다.


'계란을 한 바구니에 담지 말라'는 격언처럼, 데이터도 한 가지에 의존하지 않아야 훌륭한 주장과 근거가 됩니다. 다양한 데이터에서 충분히 큰 수로 샘플링을 했을 때 그 주장의 근거가 깊게 뿌리내릴 수 있습니다.


예를 들어 연간 카네이션 판매량을 예측하기 위해서 7월~12월까지 하반기 데이터가 있다고 가정한다면 제아무리 정확한 데이터라고 해도 가정의 달 5월을 예측하는 데는 충분하지 않습니다.


* 데이터 분석 관점 : 데이터 소스, 데이터 볼륨, 통계 샘플링

* 데이터 질문 : 데이터의 출처는 어디인가요? 데이터의 양은 충분한가요?

일, 주, 월, 계절, 연 등 시간상 빠진 데이터는 없나요?



③ 대표성


이 데이터는 전체 문제의 몇 % 나 설명하는가?


매출에 영향을 주는 요인으로 광고와 홍보비 집행에 대해 데이터를 분석했다고 가정해보겠습니다. 첫 번째로'광고와 홍보비가 매출에 영향을 준다'는 사실로 분석될 수 있습니다. 하지만 광고와 홍보비가 매출액을 계산할 때 '얼마나' 영향을 주는지는 또 다른 이야기가 됩니다.


우리가 알고자 하는 값에 영향을 주는 인자들을 모두 파악한 데이터가 있다고 가정하지 않는 한, 데이터가 주는 한계는 분명히 존재합니다. 제 아무리 빅데이터라 할지라도 그 데이터가 담고 있는 정보의 범위는 정해져 있습니다. 따라서 문제를 해결하기 위해 얼마만큼의 설명이 가능한지를 파악해보아야 합니다.


* 데이터 분석 관점 : 설명력, R-square 값

* 데이터 질문 : 분석한 데이터가 이 주장을 '얼마나' 설명할 수 있습니까?

샘플링을 하였다면 어떤 방식으로 표본을 추출하였나요?

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari