brunch

You can make anything
by writing

C.S.Lewis

by 정경문 May 05. 2022

17 데이터 오류의 늪

데이터 사이언티스트 보다 더 멋진 데이터 질문의 기술

# 01 데이터 관점에서의 Half Full or Half Empty


컵 안에 물이 담겨 있습니다. 여러분은 이 컵에 물이 반쯤 차있다고 보시나요? 아니면 반쯤 비어있다고 보시나요? 반쯤 차 있다고 생각하면 긍정주의자, 반쯤 비어 있다고 생각하면 부정주의자라는 심리학을 말씀드리려는 것은 아니겠죠? 저는 오늘 이 문제를 데이터 관점에서 말씀을 드려보려고 해요.

답은 하나가 아니다


우리가 데이터로 하려는 것은 정답을 찾는 것이 아닙니다.(08 데이터 안에는 답이 없어요) 예전 정규 교육과정에서는 정답을 찾는 문제들이 대부분이었습니다. 요즘에도 나아졌다고는 하지만, 결국 시험문제에 있는 답을 고르는 큰 틀에서는 다르지 않다고 생각합니다. 그런데 우리 주변의 문제들은 어떤가요?


우리 주변의 문제와 삶이 어려운 이유는 바로 정답이 없기 때문입니다. 오히려 우리의 문제는 "더 나은 결정을 하는 것"이지요. 여기서 "더"라는 것은 그 문제를 인식할 때 비교 대상이 있다는 의미 합니다. 이 비교의 대상은 다른 말로 "대안", 대체할 수 있는 방안을 말해요. 즉 답을 고를 때 선택지도 스스로 만들 수 있다는 의미입니다.


같은 글을 보고 저마다 다른 생각을 하고 달아주신 작가님들의 사유, 댓글에서 영감을 얻어 왔습니다.


제가 여러분 물 컵 옆에 살포시 제 물컵을 놓습니다. 그것도 좀 더 많이 들어있는 물 컵으로 말이죠.

자, 어떠세요? 아직도 아까 생각했던 데로 컵에 물이 반쯤 차있다고 생각하시나요? 아니면 생각이 반쯤 비어있다는 쪽으로 기우실까요? 우리는 이것을 '비교'라고 말합니다.

그러면 아래는 어떠신가요?


데이터도 마찬가지입니다. 아까 여러분들의 물 컵과 같은 크기의 막대를 우리가 설명하고자 하는 문제의 현상이라고 해볼게요. [경우 1]에서는 비교의 대상을 더 큰 막대로 삼았습니다. [경우 2]에서는 비교 대상을 더 작은 막대로 바꿔보았어요. 그리고 [경우 3]에서는 더 작은 막대와 더 큰 막대를 그리고 평균을 넣었습니다.


지난 시간에 "15 내 월급이 와친남 월급보다 항상 적은 이유"가 큰 인기를 끌었습니다. (감사드립니다.) 비교에는 평균과 중앙값과 같이 객관적인 지표를 통해 통찰과 객관을 얻어 낼 수 있는 것임을 알게 되었습니다.


결론적으로 옆에 누가 있느냐에 따라서 달라 보입니다. 저는 여기서 [경우 3]이 맞고, [경우 1] 또는 [경우 2]가 틀렸다는 말씀을 드리려는 것이 아닙니다. 설명하고자 하는 목적에 따라 데이터가 달리 쓰일 수 있음을 이해하고 ② 데이터를 받아들일 때 주의를 기울여야 한다 것이 요점입니다.


주의를 기울여야 한다는 것은 그것이 사실인지 논리적 문제는 없는지 판단하는 비판적 사고를 말합니다. 비판적 사고를 위해 어떻게 해야 할까요? 우리는 굳이 데이터가 아니더라도 이미 비판적으로 생각하는 방식을 적절히 삶에 적용하고 있습니다. 바로 "질문하기"입니다. 그러면 데이터가 포함된 주장을 받아들일 때 해야 하는 질문에 대해 알아보겠습니다.



# 02 가로, 세로축이 제대로 설정되었나요?


첫 번째 가장 기본 적인 질문은 "가로와 세로축이 제대로 설정되었는가?"입니다.

우리가 데이터로 표현된 그래프를 확인할 때는 다음의 순서로 확인합니다.


1. 데이터 제목을 확인한다.

2. 데이터의 가로(X), 세로(Y) 축을 확인한다.

3. 가운데 안에 있는 값을 확인한다.


여기서 가장 중요한 부분은 바로 2번입니다. 특히 우리가 특별한 구분이 없이 사용하는 선 그래프와 막대그래프는 활용 의도에 따라 차이가 있습니다.


일반적으로 추세를 보여줄 때는 선 그래프로, 양을 비교하고 싶다면 막대그래프를 씁니다.

예를 들면 "연도별 대한민국 인구" 데이터를 "인구감소 추세"에 목적을 두고 그리면 선 그래프를 사용합니다. 반면에 "전년 대비 감소폭(양)"을 비교할 때는 막대그래프를 사용하는 것이 일반적입니다.


여기서 가장 많은 오류와 왜곡이 생기는 부분이 있어요.  막대그래프는 양을 비교하기 위해 만든 그래프인 만큼 세로축을 0에서 시작해야 합니다.  그런데 그래프의 세로(Y) 축의 시작과 끝을 조정하거나, 간격을 조정하면 그 "변화량"이 도드라져 보이게 됩니다. 실제 아래 사례를 보시면 의도적이든 실수이든 그래프가 매우 왜곡되어 나타납니다.


출처 : KBS NEWS [팩트체크] 청와대 그래프 또 삐뚤빼뚤?

위 그래프는 연도별 임시 일용직 근로자의 수를 나타낸 데이터입니다.

왼쪽 그래프의 세로축 시작은 600만 명이고, 오른쪽 그래프는 0입니다. 어떠신가요? 같은 데이터인데도 굉장히 차이가 심하게 나타납니다.


* 올바른 방법 : 추세를 보여줄 때는 선 그래프로, 양을 비교하고 싶다면 막대그래프

                    막대그래프는 양을 비교하기 위해 만든 그래프인 만큼 세로축을 0에서 시작해야 합니다.


다음의 일반적인 오류는 세로축의 간격이 일정하지 않은 그래프입니다.

출처 : KBS  NEWS '엉망진창 청와대 통계 그래프, 오류 3장 더 있었다'

가장 많이 발생할 수 있는 오류는 시각화의 오류입니다. 이는 데이터 분석 툴을 사용하지 않고 파워포인트나 포토샵과 같이 그림 그리기 도구를 사용하기 때문이기도 합니다. 위 통계 데이터에서 보면 2.9와 3.9 포인트 간의 1% 포인트 차이와 5.5~6.5 포인트 사이의 1% 포인트의 간격이 언뜻 보기에도 2배 이상 차이가 나는 것을 확인할 수 있습니다.


출처 : KBS  NEWS '엉망진창 청와대 통계 그래프, 오류 3장 더 있었다'

마찬가지로 2분기 경제성장률 GDP에 대해서도 그렇습니다. 0~0.4 % 포인트까지의 간격과 0.4~0.8 % 포인트까지의 간격은 0.4% 포인트로 동일함에도 불구하고, 역시 2배가량 차이가 나는 것으로 보입니다. 이는 최종 발표 시점의 경제성장률의 변동폭이 상대적 낮게 보이는 시각적 차이를 발생시킵니다.


데이터의 출처가 믿을 만한 정부기관, 공영방송이라 하더라도 얼마든지 의도 또는 실수에 따라 무심코 메시지를 전달할 수 있으니 '날카로운 질문'이 필요하겠죠?



# 03 편견이 포함되어 있지 않은가?


그 외에도 우리가 데이터에서 정보를 얻을 때 발생할 수 있는 위험이 있습니다. 바로 "편견"입니다.

사람은 이성적인 면과 감성적인 면을 동시에 가지고 있습니다. 그렇기에 기계처럼 온전히 객관적인 판단을 내리기란 불가능합니다. 따라서 개인과 집단의 입장과 이해관계에 따라 다양한 편향(Bias)이 존재할 수밖에 없습니다.

예를 들면 증권사들은 고객들이 주식투자시장에 머무르게 하기 위해서' 낙관적인 시장 전망'을 쏟아내는 경우가 많고, 정부는 정책 효과를 홍보하기 위해서 '집값이 안정화되었다'라고 속단하는 경우가 많습니다.

 이러한 것들이 ‘데이터를 설명할 때 편견이 포함되어 있지 않은가?'를 따져보아야 하는 이유입니다.


때로는 특별한 의도가 없더라도 본인의 입장이나 처지에 더 유리한 데이터만 수집해서 분석하거나, 더 유리하게 결과를 설명하고 결론을 내리게 됩니다. 아마 그렇게 듣기도 했고, 그렇게 활용? 해보셨을 겁니다. 그래서 비판적인 사고가 더욱 중요하다는 것에도 공감이 되실 겁니다.


그리고 한두 가지 사례와 데이터를 가지고 이를 지나치게 일반화하여 마치 모두가 그런 것처럼 확대 해석하는 편향도 일어납니다.


예를 들어, 외국인이 범죄를 일으킨 뉴스를 보고 나서, ‘외국인들은 전부 위험해’라며 모든 외국인을 추방해야 한다고 주장하는 것과 같습니다. 또는 '외국인의 범죄건수가 해마다 증가하고 있다'라는 기사를 보고 같은 생각을 할 수 있습니다. 하지만 국내 거주하는 외국인의 수가 월등히 증가했다면 사실은 어떨까요? 한국인의 범죄 비율과 외국인의 범죄 비율에 대한 데이터 분석이 더 필요할 것입니다.

이처럼 자신이 확인한 단편적인 데이터 몇 건으로 상상력을 발휘하여 무의식적으로 결론을 맺어버리게 되는 오류를 범합니다.  


오늘의 정리입니다. 데이터는 정보의 원천이며, 객관적인 사실을 볼 수 있는 현미경임에 틀림없습니다. 하지만 정답을 가지고 있지 않습니다. 아무리 빅데이터라고 해도 모든 것을 다 담을 수는 없습니다. 이렇듯 데이터가 가지고 있는 장점과 한계를 이해할 때 비로소 제대로 활용할 수 있습니다.


데이터로 이루어진 오늘날 세상에서 데이터는 새로운 통찰력을 주는 편리한 도구이지만 , 데이터가 보여주는 것이 세상의 전부는 아니다.라는 사실을 꼭 기억해주세요!


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari