brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Aug 03. 2022

건강한 데이터 말하기 3요소

상처 난데 침 꽂지 마세요

# 01. 건강한 데이터 말하기를 위해 갖춰야 할  3가지 요소


건강한 몸을 위한 3가지 요소가 있습니다.

1. 근골격(근육과 뼈), 2. 장기기관(오장육부), 3. 혈액과 신경(피와 호르몬)입니다.


나이 든 사람의 뼈 건강은 생명과 직접 관계가 깊을 정도로 매우 중요합니다. 이러한 뼈를 지탱해 주는 것은 바로 근육입니다. 그래서 나이가 들수록 뼈와 근육을 튼튼하게 하는 운동이 중요하죠. 


또한 건강은 오장육부에서 나온다는 말이 있습니다. 뼈와 근육은 튼튼하더라도 스트레스를 받고 식습관이 나쁘면 장기기관의 건강이 안 좋아져 암 등 질병으로 이어질 수 있습니다.


그리고 마지막으로 혈액은 온몸 구석구석에 영양소와 산소를 운반하고, 체온조절 기능, 수분량을 조절하는 등 다양한 역할을 하고 있습니다. 


마찬가지로, 데이터를 활용하여 말할 때에도 이와 같은 건강한 데이터 말하기 3가지 요소가 있습니다.

 1. 논리구조, 2. 데이터 기반 근거, 3. 데이터의 흐름이 그것입니다. 건강한 몸과 건강한 데이터 말하기를 다음 그림과 같이 비교해 볼 수 있습니다.



가장 먼저 데이터 말하기에서 해야 할 일은 "논리의 뼈대를 세우는 일"입니다. 이것은 마치 우리 몸의 근골격(뼈와 근육)과 같습니다. 말하고자 하는 목적지에 도달하기 위해 논리를 전개하는 지도를 그리는 것과 같은 역할을 합니다. 결론을 도출하기 위해서는 어떤 근거를 내세울 것인지, 또 그것들을 타당하게 만들어주는 세부 근거는 무엇인지 설정하는 과정입니다. 


그리고 두 번째는 우리 몸의 오장육부 즉, 장기의 건강을 챙기는 일처럼, 위에서 내세운 각각의 근거를 지지하는 데이터가 잘 연결되었는지를 확인하는 단계가 필요합니다. 데이터가 근거로서의 뒷받침 기능을 적절히 수행하고 있어야지만, 앞서 세운 논리구조가 살아서 힘(설득력)을 발휘할 수 있습니다.


마지막 세 번째는 데이터의 흐름입니다. 혈액이 우리 몸의 구석구석까지 산소와 영양분을 제공해줌으로써 생명을 유지시켜 줍니다. 마찬가지로 당신의 주장에서 우리 몸의 혈액 역할을 하는 것은 “데이터”입니다.

혈액이 각 장기에 원활히 공급이 되면 장기가 건강하게 기능을 하고, 또 몸의 구석구석까지 힘을 발휘할 수 있는 것처럼, 데이터는 각 근거를 충분히 뒷받침하도록 도와주며 모든 근거들이 건강하도록 지지해줍니다.


앞서 말한 건강한 데이터 말하기에 대해 요약하면, 다음 3가지 질문을 만들 수 있습니다.  

    데이터가 논리의 뼈대를 이루고 있는가?  

    각 데이터가 근거로서의 기능을 충실히 하고 있는가?  

    데이터의 흐름과 공급은 적절한가?  


이제는 위 3가지 질문에 대해 좀 더 데이터 관점에서 접근하는 연습을 해보도록 하겠습니다.


# 02. 튼튼한 논리구조 만들기

“당신의 뼈대는 튼튼한가요?” 
뼈대 = 논리구조


데이터 말하기에서 “뼈대” 란 결론을 도출하는 논리구조를 말합니다. 논리구조는 다양한 방식으로 나타낼 수 있지만, 로직 트리(Logic Tree)를 이용하면 아래 그림과 같습니다.

그림에서와 같이, 근거 A와 근거 B가 결론을 뒷받침하고 있습니다. 그리고 첫 번째 근거 A에 대해 상세한 근거 A.1, A.2, A.3 가 지지하고 있습니다. 두 번째 근거 B도 마찬가지 구조를 하고 있습니다.

앞서 배운 대로 “나는 무엇을 원하는가?(WANT)”라는 질문을 통해 목적중심으로 사고를 합니다. 그리고 그에 대한 근거를 제시합니다. 또한 무엇을 상세 근거로 할지 결정이 되었다면, 이제 논리구조가 완성이 되었습니다.


예를 들어, “내 집 마련에 대한 결정” 이 목적인 문제가 있습니다. 이때, 근거를 내부 상황(개인)과 외부 상황(경제)으로 구분하여 생각했다고 하겠습니다. 먼저 개인적 상황은 출퇴근 거리가 멀어서 힘든 상황 그리고 결혼을 앞둔 상황을 세부 근거로 설정하였습니다.


다음으로 외부 환경적 상황에 대해서는 통화량, 금리, 경기침체 등의 거시경제 전망, 내가 살고자 하는 지역의 주택의 수요와 공급에 따른 가격 변동 가능성, 또 최근 청년에 대한 정부의 부동산 지원정책 (예를 들면, 대출과 금리, 세금 혜택 등을 고려한다는) 등 세부 근거를 수립합니다. 이렇게 생각한 논리구조를 차트로 나타내면 아래와 같습니다.


이처럼 논리구조를 수립할 때는 결론을 뒷받침하는 둘 이상의 요소를 근거로 나누고, 또 각 근거를 지지하는 둘 이상의 근거로 설정합니다. 이때 하나 이상의 근거를 수립하여야 함에 주목했으면 좋겠습니다. 하나의 근거가 무너지면 와르르 쏟아지지 않도록 하기 위함입니다.


# 03. 건강한 데이터 기반 근거 챙기기

“장기들은 안녕하신가요?
 장기 = 데이터 기반 근거


데이터 말하기에서 “데이터”를 제외하면 뭐가 남을까요? 말 그대로 “말하기” 만 남습니다. 데이터 없이 말하기만 하는 것은 근거 없는 주장만 하는 것과 같습니다. 이것을 신랄하게 보여주는 사례가 여기 있습니다. 미국의 전 대통령 트럼프는 트윗을 통해  '우편투표가 미국 전역에서 문제와 불일치가 있다” 는 주장을 했습니다. 그리고 그는 어떠한 근거 데이터도 제시하지 않았습니다. 그 결과 트위터에서는 이 트윗에 경고 딱지를 붙였습니다. 


출처 : 비즈니스 인사이드

https://www.businessinsider.com/twitter-trump-tweet-mail-voting-warning-label-minsinformation-block-retweet-2020-10


트럼프 전 대통령은 당시 전 세계에서 가장 강한 나라 미국의 최고 권위자 대통령이었습니다. 

이처럼 아무리 권위와 명성을 가지고 있다고 해도, 데이터로 근거를 제시할 수 없다면, 그 말은 “Blah, Blah(블라블라; 허튼소리)”에 지나지 않습니다.


이처럼 어떤 주장의 근거는 매우 중요하며, 근거는 데이터로 뒷받침됩니다. 마치 우리 몸의 장기기관들이 기능을 할 수 있도록 혈액을 공급해주는 것처럼 말입니다. 이때 데이터가 근거로서의 기능을 할 수 있게 해주는 중요한 두 가지 특성이 있습니다.


데이터의 상관성, 대표성입니다.


첫째, 데이터의 상관성이란 “결론과 데이터가 (얼마나) 관련이 있는가?” 나타내는 특성입니다. 둘째, 대표성이란 “데이터가 나의 주장을 (얼마나) 뒷받침할 수 있는가?”를 말합니다. 


① 상관성

아무리 데이터가 많아도 내가 주장하는 바와 관련이 없다면, 그 데이터는 무슨 소용일까요? 

위의 내 집 마련 예시에서 거시경제 전망에 대한 근거 데이터로 일본 부동산 가격 데이터를 활용했다고 가정해보겠습니다.

한국도 일본과 같이 부동산 침체가 계속될 것이다.


일본은 1990년부터 경기가 후퇴하기 시작하면서 버블경제가 붕괴되기 시작했습니다. 그 후 2008년 글로벌 금융위기, 인구감소와 함께 오랜 세월 침체에 빠졌습니다. "일본 경제의 잃어버린 20년"입니다. 


우리나라 학자들도 일본 경제의 잃어버린 20년을 이야기합니다. 하지만 이에 앞서 “우리나라와 일본의 경제상황이 관련이 있다.” 또는 “상관관계(연관성을 나타내는 지표)가 높다.”라는 가설을 증명하지 않고 자연스럽게 넘어갑니다. “같은 동북아시아의 이웃 나라이다.” 또는 “경제구조가 유사하다.”는 직관적 사실만으로 일본의 부동산 경기 침체 역사를 우리나라의 부동산 경기 예측에 고스란히 대입하는 실수를 범합니다. 한국은 일본과 많은 방면에서 유사할지 모르지만 모든 방면에서 같지는 않습니다.


일본 ≒ 한국, 일본 ≠ 한국    


* 데이터 관점 질문

주장과 데이터는 관계가 있나요? 
둘 간에 어떤 관계를 가지고 있나요?


어떤 관계라고 하는 것은 하나의 값이 변함에 따라서 다른 하나의 값이 변하는 관계가 있습니다. 단순히 말해 A가 증가할 때 B도 증가한다거나, 또는 A가 증가할 때 B는 감소하는 관계를 말합니다.

이러한 관계를 우리는 “상관관계가 있다.” 고 말합니다. 


또 상관이 있으면서 원인과 결과를 나타내는 관계도 있습니다. “A(원인) 때문에 B(결과)가 발생했다.”처럼 원인과 결과를 말하는 것을 인과관계라고 합니다. 상관관계와 인과관계의 차이에 대해서는 앞으로 “데이터 읽기”에서 좀 더 깊이 알아보기로 하겠습니다.


② 대표성

이 데이터는 전체 문제의 “얼마나” 나 설명하는가?


위의 근거 중에 거시경제에 영향을 주는 요인으로 세계은행의 기준금리와 소비자 물가지수 데이터를 활용했다고 가정해보겠습니다. 먼저 '기준금리가 거시경제에 영향을 준다'는 자체만으로 볼 때, 이는 사실로 분석될 수 있습니다. 하지만 기준금리와 소비자물가지수 만으로는 거시경제를 전부 설명할 수 있을까요? 전부가 아니라면 '얼마나' 설명할 수 있을까요?


우리가 알고자 하는 값에 영향을 주는 인자들을 모두 파악한 데이터가 있다고 가정하지 않는 한, 데이터가 주는 한계는 분명히 존재합니다. 제 아무리 빅데이터라 할지라도 그 데이터가 담고 있는 정보의 범위는 정해져 있습니다. 따라서 문제를 해결하기 위해 얼마만큼의 설명이 가능한지를 파악해보아야 합니다.                     


* 데이터 관점 질문 

데이터가 주장을 '얼마나' 설명할 수 있습니까?
근거 데이터들 간에 중복은 없나요?


예를 들어 위의 거시경제 전체를 100이라고 했을 때 금리와 소비자물가지수는 각각 30, 40을 설명할 수 있다고 하겠습니다. 그럼 그 둘의 합인 70을 설명하고, 여전히 30을 설명하지 못할까요? 아닙니다. 금리와 소비자물가지수는 서로 간에 상관이 있는 데이터이기 때문에 중복되는 부분이 있게 됩니다. 따라서 설명할 수 있는 양은 30+40=70 이 아닌 70 이하가 될 것입니다. 이렇듯 데이터 간에 중복이 생기는지 확인해야 합니다. 



# 04. 데이터의 적절한 흐름과 양 구성하기 


“혈액의 흐름과 양은 적절한가요?” 
혈액 = 데이터


현업에서 데이터 분석을 하다 보면 안타까운 경우가 있습니다. 바로 논리구조가 완벽하고 필요한 데이터가 무엇인지 적절히 잘 설계되었는데, 데이터를 신뢰할 수 없는 경우입니다. 아무리 논리가 완벽하고 근거가 건강해도, 그것을 뒷받침하는 데이터를 신뢰할 수 없으면 공들인 분석 결과는 휴지통으로 들어가게 됩니다. 따라서 데이터의 잘 흐르는 정도인 품질과 양을 결정하는 일은 매우 중요하다고 할 수 있습니다.

데이터의 품질과 양에 대한 관점은 다시 다음의 세 가지로 구체화해 수 있습니다. ① 다양한 데이터 소스, ② 충분한 양의 샘플수, ③ 온전한 주기의 데이터가 그것입니다. 다음에서 하나씩 자세히 살펴보도록 하겠습니다.

 

① 다양한 데이터 소스

데이터를 한 소스에 담지 마라

주장의 타당성을 판단할 때는 다양한 관점에서 바라봐야 합니다. 예를 들어, 나의 주장을 뒷받침하는 데이터가 한 가지 소스로부터 도출되었다고 하겠습니다. 그런데 그 데이터 수집이나 처리단계에서 심각한 오류가 발생했다면? 그 데이터에 대한 신뢰도를 기반으로 주장을 펼쳤는데, 그 한 가지 데이터의 신뢰도가 추락한다면, 자연히 나의 주장에 대한 신뢰도는 바닥이 됩니다.

'계란을 한 바구니에 담지 말라'는 격언처럼, 데이터도 한 가지에 의존하지 않아야 훌륭한 주장과 근거가 됩니다. 


② 충분한 양의 샘플수

데이터가 얼마나 있어야 충분한가?

다양한 데이터에서 충분히 큰 수로 샘플링을 했을 때 그 주장의 근거가 깊게 뿌리내릴 수 있습니다. 

요즘 데이터 분석이라고 하면, ‘빅데이터, 빅데이터..’ 단어를 많이 언급합니다. 실제 데이터 분석을 기획하는 사람도 본인이 분석하고자 하는 데이터가 빅데이터라고 착각합니다. 예를 들어, 내가 가지고 있는 데이터가 1,000,000(백만)이라고 해보겠습니다. 굉장히 많아 보이죠? 근데 이 데이터는 몇 가지 분류 값을 가지고 있을 것이 분명합니다. 


첫 번째 분류 기준은 YES/NO 2가지로 분류된다고 해도 한쪽이 500,000(오십만)으로 작아집니다. 그리고 두 번째 분류 기준이 1~10까지 집단이 있다고 해보면 한 집단의 크기는 50,000으로 작아집니다. 우리가 정말로 원하는 특징을 포함한 데이터가 다시 10개 중 2개라고만 해보아도 1,000 이 됩니다. 빅데이터라더니 1,000이라면, 느낌이 어떠신가요? 1000개의 데이터를 가지고 과연 빅데이터라고 할 수 있을까요? 심지어 운이 없다면 만약 나의 분석 목적에 딱 맞는 데이터만 수가 적은 경우도 존재합니다.* (우리는 이러한 경우를 “데이터가 클래스에 따라 불균일하다” 고 이야기합니다.)


실제 우리가 가지고 있는 데이터는 빅데이터라고는 하지만 막상 분석하고자 하는 대상으로 좁혀 들어가면 내 손바닥 위에 남는 데이터는 얼마 없습니다. 마치 여러분들 월급날 대출이자 조금, 관리비 조금, 보험료 조금, 교통비 조금, 카드값 조금.. 나누고 나면 여러분들 지갑에 돈이 없는 것처럼 말이죠. 그 많던 연봉은 어디로 사라져 버린 걸까요?


충분한 데이터에 대해서는 좀 더 전달드릴 내용이 있습니다. 특히 어떤 집단을 나타내는 대푯값(예를 들면 평균과 같은)을 나타내기 위해서는 그 집단에서 뽑는 표본(샘플)의 수가 많을수록 그 정확도가 올라가게 됩니다. 다시 말해 데이터의 샘플수가 많아질수록 샘플들의 평균이 원래 나타내고자 하는 집단의 평균과 같아집니다. 우리는 이러한 현상을 “큰 수의 법칙”이라고 합니다. 


또한 유사한 개념으로 뽑는 표본(샘플) 수가 많아질수록 샘플 평균의 분포가 종 모양의 정규분포 형태를 띠는데 이것을 “중심 극한 정리”라고 합니다. 중심 극한 정리는 큰 수의 법칙의 확장이라고 볼 수 있는 것이죠.


예를 들어, 주사위를 굴려 나온 숫자의 평균이 3.5에 수렴하는 것은 큰 수의 법칙이라고 할 수 있습니다. 그리고 그 행위를 여러 번 해서 더한 평균값들을 가로축에, 빈도를 세로축에 나타냈을 때, 가운데가  볼록한 이 그래프를 정규분포라고 하고, 샘플수(n)가 커질수록 그림에서처럼 뽑은 데이터들의 평균 분포가 정규 분포(종 모양)를 띠게 되는데  이것은 중심 극한 정리의 영향입니다.


다시 데이터의 양으로 돌아가서, 얼마나 많은 데이터가 있어야 충분하다고 말할 수 있을까요?

결론적으로 “목적에 따라 다르다”입니다.  앞서 알아본 전체 집단을 대표하기 위한 최소 샘플 데이터 개수(n)는 30개입니다.


반면에 데이터를 기반으로 인공지능 모델을 만든다면 학습시키기 위한 최소 데이터의 개수는 문제마다 다릅니다. 예를 들어 머신러닝 알고리즘을 제공하는 한 선형 수치 모형(Y=aX+b의 형태)과 분류 모형(Y = A or B)의 경우 10만 개 이상의 데이터가 필요합니다.


Choosing the right estimator

https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html


③ 온전한 주기의 데이터

데이터는 수집되는 주기에 따라서 달라질 수 있음에 주의해야 합니다. 데이터는 실시간과 요일/일/월 단위의 특정 주기(배치 Batch)로 생성됩니다.  예를 들어, 연간 카네이션 판매량을 예측하기 위해서 7월~12월까지 하반기 데이터가 있다고 가정한다면 제아무리 정확한 데이터라고 해도 가정의 달 5월을 예측하는 데는 충분하지 않습니다.

일, 주, 월, 계절, 년 등 시간상 빠진 데이터는 없나요?


데이터의 수집 주기를 주의해야 하는 이유는 다음 그림으로 설명해보겠습니다. 

아래 그림은 원 위의 빨간 점을 관찰할 때 얼마나 자주 관찰하느냐에 따라서 방향이 달라 보이기도 하고, 운동의 성격(원운동/왕복운동 등)이 달라 보이기도 합니다.


원운동 데이터의 수집 주기에 따른 인식 차이

출처 : https://www.sciencedirect.com/science/article/pii/S0042698907001459


바퀴의 앨리어싱(Aliasing) 현상

가끔 자동차나 타이어 광고를 보시면 바퀴가 거꾸로 도는 듯 보이는 경우가 있습니다. 우리 눈은 일정한 속도로 빛을 감지하고 있기 때문에 바퀴가 특정 속도 이상으로 빨라지면 우리 눈의 데이터 수집 주기가 그것을 따라가지 못하기 때문에 바퀴가 반대 방향으로 도는 것처럼 보이게 됩니다.


이것을 다른 말로는 마차 바퀴 현상(Wagon-wheel effect)이라고 합니다. 바큇살이 달린 바퀴가 실제 회전과 다르게 도는 것처럼 보이는 착시현상이죠. 이때, 바퀴는 실제 회전보다 더 느리게 회전하는 것처럼 보일 수도 있고, 반대 방향으로 회전하는 것처럼 보일 수도 있습니다.


다른 예로 주식이 오를 때만 관심을 갖는 사람들은 주식이 항상 오른다고 착각을 합니다. 데이터 수집 주기가 볼 때마다 올랐기 때문에 항상 오르는 데이터만 모으게 되는 것이죠.  데이터 수집 주기에 따라 데이터가 달라 보이는 현상, 이제 이해하셨죠?  


# 05. 데이터 말하기 결국 무엇이 중요할까? 


사회에서 여러분들은 둘 중 한 경우에 맞닥뜨릴 것입니다. ‘데이터 직접 분석하거나’, 또는’ 데이터 분석을 요청하거나’입니다. 후자의 경우 어김없이 데이터 분석 전문회사가 있습니다.  이 데이터 분석 회사는 방법론(수단)만 가지고 있습니다. 그리고 문제, 데이터, 전문지식은 바로 여러분이 가지고 있습니다. 여러분들이 데이터 분석 업무를 하신다면 그 반대가 되겠죠. 


신입사원이나 경력이 얼마 되지 않는다면 소통이 잘 되는 부장님과 전문지식을 교류해야 합니다.

전문지식의 영역 안에서 문제가 있고, 데이터가 있기 때문입니다. 그리고 이러한 문제를 데이터와 연결하는 것이 바로 분석방법론입니다. 


앞서 건강한 몸에 비유를 했는데, 건강한 몸을 관리하면 좋지만 몸이 아파서 동양의학 침술로 치료한다고 가정해보겠습니다. 침술은 방법론이고, 침은 데이터, 문제는 아픈 곳입니다. 

그런데 침으로 나을 수 있는 병이 있고 그렇지 않은 병이 있습니다.

침으로 나을 수 없는 질병은 수술해야 되는 상황에 침을 들이대는 격이고, 또는 상처가 나서 약을 바르고 밴드를 붙이면 되는데 상처에 침을 꽂는 꼴입니다. 침(데이터)은 많이 놓으면, 놓을수록 무조건 좋을까요? 오히려 상황에 딱 맞는 종류의 침이 있어야 합니다. 


이제 침술(방법론) 이야기를 해보겠습니다. 가장 중요한 것은 선생님의 침술 실력이라고 얘기할 수 있습니다. 맞는 말입니다. 그런데 그 선생님이 모든 문제에 만능은 아닙니다. 허리를 잘 고치는 한의사가 있고, 거북목을 잘 보는 사람, 다이어트 침을 잘 놓는 사람처럼 저마다 전문 분야가 있기 마련입니다. 


그 사람 참 용하다. 


데이터 분석도 컴퓨터 비전, 자연어 처리, 수치해석 등 각 분야의 전문가들과  회사들이 있습니다.

데이터 분석도 어떤 사람은 분류(설명할 것), 어떤 사람은 회귀(설명), 어떤 사람은 엑스레이를 보고 판독하는 일, 또 어떤 사람은 약을 잘 쓸 수도 있습니다. 어떤 병에 어떤 약을 써야 할지 정확한 진단과 처방을 내리는 일이 중요합니다. 


데이터가 있다고 아무 방법론이나 들이대는 것은 올바른 해결방안이 아닙니다. 가장 중요한 것은 문제에 맞는 진단과 처방을 내리는 것. 어떤 병이 침술로 고칠 수 있고 없고를 판단하는 것이 핵심입니다. 아픈 곳이 없는데 우리 병원에 좋은 침이 들어왔으니 일단 맞아보자는 격입니다. 아픈 곳에 대한 정의와 원인을 내려야 합니다. 문제는 목 디스크이고, 원인은 휴대폰과 컴퓨터의 과도한 사용입니다. 아무리 좋은 침과 침술을 동원하더라도, 원인을 제거하지 않으면 소용이 없습니다.


그래서 결과에 대한 실행과 행동이 중요하다는 사실과 함께 데이터 말하기를 마무리하고, 다음장에서는 데이터 듣기를 만나보겠습니다.  



# 붙이는 글

안녕하세요. 브런치 동료 작가분들께 송구한 마음이 드네요. 퇴고 과정이 생각보다 이렇게 고될 줄은 몰랐습니다. 중간에 분량이 비는 부분, 전체와 부분, 소주제에 맞는 요소들로 편집을 하다 보니 매일 밤과 주말 12시를 넘기는 창작의 고통이 있네요. 이 또한 노하우로 나중에 묶어서 공유를 드리겠습니다. 한 달을 내리 퇴고 작업에만 매달리는 동안, 아무쪼록 글 벗님들께서 평안하셨기를 바랍니다. 
매거진의 이전글 [에필로그] MZ세대, 거인의 어깨 위에 올라서길
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari