알베르토 카이로
박슬라 옮김
웅진지식하우스
2020년 10월 13일
숫자로 세상을 보는 사람들이 있다. 나도 그중 하나이다. 왜 그럴까? 쉽게 파악할 수 있고, 비교가 쉬우며, 그래서 의사소통할 때 편차도 적게 일어나기 때문이다. 내가 평생 해온 지질조사는 매우 불균질한 자연을 대상으로 하는 것이기 때문에 사람마다 이를 표현하는 방식이 다르다. 지질조사가 지반 특성의 경향을 파악하는 것이라면 그것으로 가능할지도 모른다. 하지만 지반 특성을 설계에 반영하기 위해선 어떤 형태로든 숫자로 나타나야 한다.
그렇다고 숫자가 만병통치약인 건 아니다. 숫자를 만들어내는 과정에 오류가 있을 뿐 아니라 숫자를 표현하는 과정 또한 다르지 않다. 의도적인 것이든 어쩔 수 없는 구조적인 한계 때문이든. 숫자와는 동떨어진 사례일 수 있지만, 구조적인 한계를 설명하는데 지도만큼 적절한 예가 없다. 지도란 3차원 구형인 지구를 2차원 평면에 나타내는 수단인데, 그러다 보니 극지방으로 갈수록 왜곡이 심하게 일어난다. 극지방을 통과한 항공기 궤적을 지도에 표시하다 보면 영 엉뚱한 모습이 된다.
요즘은 드라마 한 편을, 스포츠 중계방송 한 경기를 온전히 지켜보기 어려운 세상이 되었다. 드라마건 스포츠 중계건 짧은 시간에 압축한 하이라이트가 대세를 이루고 있다. 나 역시 야구를 그렇게 좋아하면서도 야구 한 경기를 온전히 지켜본 게 언제인지 모른다. 숫자도 다르지 않다. 숫자가 중요하다고 생각하면서도 숫자를 꼼꼼히 들여다보는 사람은 찾기 어렵다. 그래서 신문이건 방송이건 독자와 시청자의 눈길을 끌기 위해 여러 형태의 차트를 동원한다. 그런데 그런 차트가 차트에 담긴 숫자의 의미를 제대로 표현하고 있는 것일까? 제대로 전달하려고는 했는데 독자나 시청자에게 다르게 받아들여지는 건 아닐까? 마치 극지방을 통과한 항공기 궤적처럼 말이다.
데이터 시각화의 세계적인 권위자가 “통계와 그래프에 속지 않는 데이터 읽기의 힘”이라는 부제가 붙은 책을 발간했다. <숫자는 거짓말을 한다>는 제목만 보면 자칫 거짓말을 하는 게 ‘숫자’인 것으로 생각하기 쉽지만, 저자는 이 책에서 ‘숫자를 표시하는 방법’인 통계와 그래프, 또한 이를 담고 있는 차트의 문제와 한계를 다루고 있다.
저자는 차트가 거짓말을 할 수 있는 경우로 디자인이 잘못되었거나, 잘못된 데이터를 사용했거나, 표시한 데이터의 양이 너무 많거나 혹은 적거나, 불확실성을 숨기려 하거나, 잘못된 패턴을 제시하거나, 사람들의 기대와 편견에 영합하는 경우를 들고 있다.
차트를 만드는데 지켜야 할 가장 기본적인 원칙은 높이나 길이를 숫자에 비례하도록 그려야 한다는 점이다. 이건 너무나 기본적인 원칙이기 때문에 왜곡하기로 작정하지 않고서는 이 원칙을 어기는 경우를 좀처럼 찾기 어렵다. 문제는 보기 편하게 한다고 일부 구간을 생략해 버리거나 일부 구간만 떼어 표시할 때 일어난다. 말하자면 기준선이 바뀌는 것인데, 기준선이 바뀌니 숫자 차이가 전체와 비교하면 어느 정도나 되는지 가늠하기 어렵다. 따라서 차트의 기준선은 어느 경우가 되든 영점으로 설정하는 것이 바람직하다.
그런데 의도하지 않고 이런 경우가 생길 수 있는지 의문이다. 의도와 다르게 표현되었다는 것도 믿기 어렵다. 그러니 이 책은 결과적으로 거짓말이 되지 않도록 조심해서 차트를 작성하라는 권고라기보다는 독자들을 향해서는 차트 작성자의 숨은 의도를 간파해서 속지 말라는 당부이고, 차트 작성자들에게는 의도적인 왜곡을 멈추라는 경고가 아닐까 한다.
차트에서 문제가 되는 건 비교나 분석의 대상이 되는 특정 그룹에 대한 정의가 분명하게 표시되지 않은 경우가 많다는 것이다. 물론 차트마다 범례라던가 보기를 올려놓기는 한다. 하지만 그룹을 그렇게 단순히 표기하기는 어렵다. 메탈 밴드 관련 통계라고 할 때 중요한 건 숫자의 정확성이라기보다 어디, 어떤 형태까지는 메탈 밴드로 분류했는가 하는 정의에 관련한 문제이다. 간혹 메탈을 연주하는 밴드까지를 메탈 밴드라고 할 것인지 메탈만 연주하는 밴드만 메탈 밴드로 할 것인지에 따라 결과는 아주 달라질 수 있다. 노숙자 통계도 마찬가지다. 플로리다 공공 교육시스템 통계에서는 밤에 머무를 고정적이고 지속적이며 적절한 거주지가 없거나, 집을 잃거나, 또는 경제적 어려움 때문에 가족이나 가까운 친척이 아닌 사람들과 함께 사는 학생을 ‘노숙 상태’로 정의한다는데, 과연 노숙자 차트를 보고 그런 상황을 짐작할 수 있는 사람이 얼마나 될까.
그뿐 아니라 비교나 분석 대상이 잘못되어 결과적으로 거짓말이 되는 경우도 있다. 같은 직급에서 성별에 따른 임금 차이가 없다고 해서 그 직장은 성별에 따른 임금 차이가 없다고 정의할 수 있을까? 버클리 은행에서는 같은 직급에서 성별에 따른 임금 차이는 없었지만 전체 평균 임금은 성별에 따른 차이가 컸다는데, 이는 여성에게 승진 기회가 남성만큼 주어지지 않았기 때문이었다.
그러니 저자가 주장한 대로 “차트만으로는 아무것도 증명할 수 없다.” 물론 차트가 주장을 펴거나 논쟁할 때 강력한 설득 도구가 될 수 있지만, 사실 그 자체만으로는 대개 쓸모가 없다. 따라서 이를 피하기 위해 차트를 주의 깊게 읽어야 하는데, 이는 데이터를 비판적으로 사고한다는 뜻이다. 그러려면 데이터 출처의 신뢰성을 판단할 수 있는 감각을 길러야 할 것이고. 저자는 좋은 책 몇 권만 읽어도 언론 매체에서 접하는 숫자들을 판단하는 데 큰 도움이 될 것이라면서 마지막으로 차트를 볼 때 유의할 점 몇 가지를 거론하고 있다.
첫째, 출처가 낯설거나 익숙하지 않은 차트는 일단 믿지 않는다. 최소한 해당 차트나 데이터의 출처 또는 양쪽 모두를 조사하기 전에는 말이다.
둘째, 데이터의 출처를 명시하지 않거나 링크를 걸지 않은 차트 제작자나 게시자는 신뢰하지 않는다. 투명성은 또 다른 판단 기준이다.
셋째, 다양한 미디어를 접한다. 차트뿐만이 아니다. 정치 성향이 어떻든 보수와 진보, 중도 할 것 없이 폭넓은 출처와 인물로부터 정보를 구하라.
넷째, 잘못된 차트를 보고 가장 먼저 떠올려야 할 원인은 성급함이나 부주의, 무지다. 나쁜 의도가 있을 것이라고 함부로 가정하지는 말자.
다섯째, 이념적으로 입맛에 맞을수록 일부러라도 그 출처가 제시하는 내용을 비판적으로 바라봐야 한다. 인간은 자신의 믿음과 일치하는 증거나 차트를 편안해하고 그렇지 않은 것을 보면 부정적으로 반응하는 경향이 있다.
여섯째, 전문성은 분명 중요하지만 각자 전문 분야가 다른 법이다.