brunch

You can make anything
by writing

C.S.Lewis

by 서콴 Aug 01. 2019

당신은 이미 그래프에 속고 있다

시각화(Visualizaiton)의 함정에 빠지지 않으려면

 통계는 거짓말을 하지 않는다. 만약 통계가 거짓말을 한다면 그것은 사람이 했을 것이다. 사람이 원하는 결과를 얻지 못하면 통계에게 너무나 잔인해진다. 통계를 자르고, 늘리고, 깎고, 찢으면서 사람은 자신이 원하는 결과물을 만들어낸다. 1991년 노벨 경제학상을 수상한 영국 경제학자 로널드 코스는 연구자들의 인위적인 행위를 위트있게 경고했다. "데이터를 오래 고문하면 결국 자백한다(If you torture a data long enough, it will confess to anything)."


시각화로 상관관계를 만들어 낼 수 있다!


 하버드 대학 법대생이였던 타일러 비겐(Tyler Vigen)는 통계 고문으로 만들어진 여러 자료를 홈페이지에 올렸다.(tylervigen.com) 틀린 통계는 아니었지만 악의적인 조작으로 우스꽝스러운 상관관계들을 도출해냈다. 물론, 통계 전반에 걸친 불신을 조장하기보다는 통계에 대한 관심, 정확한 이해와 필요성을 일깨워주기 위해서였다.


 시각화(Visualizaiton)의 함정에 빠지지 않으려면 우리는 무엇을 봐야 할까? 아래 그래프들의 세로축에 집중해보자. 세로축이 '0'으로 시작하지 않고, 세로 간격이 자기 입맛대로 만들었다. 데이터 자체를 조작하지 않았지만 세로축을 조정하면서 우스꽝스러운 상관관계를 만들 수 있었다. 손은 눈보다 빠르다! 그러니 손 장난에 당하지 않으려면 소리를 들어야 하는 것처럼 데이터 시각화에서는 세로축을 봐야 한다.


1) 켄터키주의 결혼율과 고깃배에서 떨어져 익사한 사람

 타일러 비겐의 홈페이지에 따르면, 켄터키주의 결혼율과 고깃배에서 떨어져 익사한 사람들은 상관관계에 있다고 한다. 고깃배에서 떨어진 사람이 큐피드로 환생하여 서로를 반하게 했을까? 아님 하늘을 관장하는 신이 "세상은 공평하니깐 하나의 탄생이 있으면 하나의 소멸이 있어야 공평한 거 아니오!"라고 고깃배에서 사람을 떨어뜨렸을까? 이런 말도 안 되는 사건들도 상관계수가 0.95였다. 보통 0.3 이상이면 약한 상관관계, 0.7 이상이면 강한 상관관계가 있다고 한다.

출처-tylervigen.com

2)수영장에서 익사한 사람과 미국 핵발전소 생산량

 마찬가지로 타일러 비겐의 홈페이지에서 게재된 표이다. 이번엔 수영장에서 익사한 사람과 비슷하게 미국에서 핵발전소에서 생산량이 늘었다. 마찬가지로 상관관계가 0.9임으로 강한 상관관계가 있다고 할 수 있다. 그렇지만 두 가지 사실이 서로에게 영향을 줬다고는 상식적으로 믿기 힘들다.

출처-tylervigen.com

세로축이 '0'에서 시작하지 않으면 믿고 거른다!


 세로축이 '0'에서 시작하지 않으면, 믿고 걸러야 한다. 밑에 그래프들은 값이 같은 그래프이다. 값이 10, 11, 12, 13, 14, 15로 같은 데이터를 두 가지 형태의 그래프로 만들었다. 그러나, 세로축을 어떻게 사용하느냐에 따라 전혀 다른 느낌의 그래프가 됐다. 왼쪽은 세로축이 10부터 시작하고, 오른쪽은 세로축이 0부터 시작한다. 만약 실제로 존재하는 것보다 더 큰 변화를 보여주고 싶어 하는 사람은 분명 왼쪽 그래프를 사용할 것이다.


출처- https://flowingdata.com


이중 축의 의도를 생각하자!


이중 축을 사용하면 세로 축의 크기를 임의대로 축소하거나 확장이 가능하다. 아래 그래프의 왼쪽 세로축과 오른쪽 세로축은 크기가 같지 않다. 왼쪽은 크기가 위로 갈수록 2씩 증가하고, 오른쪽은 -0.1씩 증가한다. 실제 크기는 다르지만 마치 같아 보이기 때문에 이중 축을 사용할 때는 상관관계와 인과 관계를 암시하기 위해서 사용한다. 얼마나 쓰기 좋은가! 세로축의 크기가 다른 그래프를 보여주고 "내가 뭐랬어 내가 이럴 줄 알았다니껜!"라고 한다면 사기꾼이라고 봐야 한다.


출처- https://flowingdata.com

손은 눈보다 빠르니까 키클롭스가 되어 함께 지켜보자!


 데이터의 활용도가 주목받으면서 시각화(Visualizaiton)에 대한 관심도 높아지고 있다. 정부 부처, 방송사, 신문사들도 좀 더 나은 시각화에 대해서 고민하고 있는 것도 사실이다.


그러나 더 나은 디자인이 때에 따라서는 데이터 본질을 흐릴 때도 있다. 극적인 차이를 보여주고자 세로 축을 조정한다거나 이중 축을 이용해 상관관계와 인과관계를 암시하는 것은 엄연히 숫자로 여론을 호도 하는 것이다. 언론사에 다니는 친구에게 이런 이야기를 했더니 “세로 축 보정이나 약간의 편집을 못하면 그냥 raw 데이터만 보여줄 수 없지 않아?”라고 항변했다. 그 심정은 이해하지만 그렇다고 틀린 그래프를 보여줄 수는 없지 않을까?  


최근에는 시각화를 대하는 시민들의 눈도 상당히 높아졌다. 페이스북에 잘못된 시각화 자료에 대해 고발하고, 함께 고민하는 페이지도 생겼다. 요즘 잘 보고 있는 페이스북 '통계불편러'페이지 소개한다. 손은 눈보다 빠르니깐 우리가 키클롭스가 되어 함께 지켜봐야한다. 그래야 시민이든 언론사든 정부 부처든 더 나은 데이터에 대해서 고민할 것이다.  


통계 불편러 -  페이스북

https://www.facebook.com/statisticallyinconvenient/



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari