brunch

You can make anything
by writing

C.S.Lewis

by Amang Kim Mar 21. 2020

45. 데이터로 거짓말 하는 방법

조국, 윤석열 그리고, 코로나19

안그래도, 데이터의 오용(?)에 대해서 생각하고 이었는데, 마침 마땅한 예제가 있어서 동영상을 찍게 되었다.

이번에 소개된 거짓말은 뭐랄까 가장 고단수(?)의 거짓말 일 것이다. 오늘 예제로 들 상황은 이런 거다.

모 기자가 분석한 조국과 윤석열검사에 대한 기사

이글의 퍼옴의 출저는 모 언론사 기자 양반의 페북이다. 이 기자 양반이 말하고자 하는 논지는 "조국의 잘못은 그렇게 이슈화 하면서, 왜 윤석열의 잘못은 이슈화 하지 않느냐"는 것일게다. 그리고, 위의 도표가 그에 대한 과학적인 근거로 제시한 것이다. 얼핏 보기엔 과학적이고, 논리적인 분석같지만, 기본적으로 틀린 것들이 있다. 


우선, 위의 사진에서도 보면 알겠지만, 조국에 대해서는 키워드가 상당히 상세 하다. 그도 그럴 것이 키워드를 "조국 동양대"만 한다거나 "조국 표창장"만 했다면, 위에 언급한 수 보다 보다 많은 양의 기사들이 쏟아져 나왔을 것이다. 그렇게 되면, 단순히 "언론이 덮어서" 기사가 안 나온거라는 이야기가 나름 하기 어려워 질테니까 말이다. 


하지만, 그보다 백만배는 더 중요한 오류는 위에 집계 된 1110건이나 되는 조국(+조민표창장)의 기사에는 조국을 까는 기사도 있지만, 조국을 옹호하는 기사들도 있다는 점이다. 즉, 비교를 할려고 하면 둘을 나눠서(즉, 옹호하는 기사들과 옹호하지 않는 기사들) 집계를 해야만 한다. 위에 모 기자가 언급한 저 데이터가 의미 하는 것은 조국의 이야기가 윤석열 이야기보다 훨씬 더 많이 언급되었다는 사실 외에는

말해주는 것이 아무 것도 없다. 

물론, 위의 데이터를 분석한 이의 말처럼, 윤석열의 기사를 일부러 덮을려고 검찰이 물밑 작업을 했을 수도 있을 것이다. 하지만,  중요한 것은

(물밑 작업을 했다는) 그 이야기는 위의 데이터가 보여주지 않는다

는 것이다. 이후에 이와 관련 해서 어느 분이 아래와 같이 달아 주셨다.


옹호기사가 절반 이라고 하더라도 그래프가 달라질것 같지가 않은데요...


라고 말이다. 그렇지, 그렇게 생각 할 수도 있을 것이다. 하지만, 그 또한 기본 전제가 틀렸다. 그에 대한 이야기는 아래 같은제목의 동영상에 언급 해 놓았으니 참조 하길 바란다.


https://youtu.be/x-WTKmIrOOc


결론. 데이터로 거짓말을 고급지게(?) 하는 방법

1. 조건을 티나지 않게 바꾸거나,

2. 조건을 티나지 않게 숨기거나.


[끝].





브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari