완벽한 데이터 시각화를 위해 꼭 알아야 할 2가지
우리는 효과적으로 데이터를 활용하기 위해 시각화를 만듭니다. 시각화를 통해 많은 양의 데이터를 쉽게 요약해서 볼 수 있고, 데이터 인사이트도 빠르게 찾을 수 있기 때문이죠! 그러나 모든 시각화가 언제나 좋은 것은 아닙니다. 시각화에도 약점이 있습니다. 간단히 요약한 차트의 시각적 패턴을 무조건 믿었다가 데이터 해석을 잘못하게 되는 경우가 대표적입니다. 따라서 시각화의 효과를 제대로 활용하기 위해서는 시각화의 장점을 알고 있는 만큼 약점에 대해서도 알고 있어야 합니다.
오늘은 데이터 시각화 분야의 유명 인사인 알베르토 카이로(Alberto Cairo)의 책 『the truthful art : data, charts, and maps for communication』(이하 『the truthful art』)의 내용을 바탕으로 데이터 활용 시 알아야 할 시각화의 약점에 관해 이야기하려 합니다. (참고로 알베르토 카이로는 인포그래픽, 데이터 시각화, 데이터 저널리즘 영역에서 교수, 저자 등으로 활동하고 있습니다. 이번 글의 바탕이 된 책 『the truthful art』 뿐만 아니라 시각화 관련 서적 『the functional art』은 이미 국내 번역본이 출간된 바 있습니다.)
데이터 시각화는 많은 양의 데이터를 시각화 요소를 활용해 데이터를 요약합니다. 우리는 숫자를 일일이 보지 않고서도 시각화 요소의 크기를 비교하여 데이터의 크고 작음을 쉽게 알 수 있고, 이는 곧 데이터 인사이트를 쉽게 찾을 수 있다는 것을 말합니다. 그러나, 한편으로 우리는 시각에 의해 데이터를 잘못 해석할 수도 있습니다. 또 의도적으로 데이터를 왜곡하는 방향으로 시각화 차트를 만들 수도 있습니다.
사례를 통해 자세히 알아보겠습니다. 위 막대 차트는 National Cable & Telecommunications Association에서 규제에 따른 케이블 산업 투자 현황을 시각화 한 것입니다. 기간별 막대를 보면, 규제를 줄인 이후인 1999-2003년에 산업 투자가 증가한 것으로 보입니다. 혹시 발견하셨나요? 이 차트가 잘못된 점, 우리를 속이고 있는 부분은 무엇일까요?
이 차트는 사실 2가지 오류를 갖고 있습니다. 첫 번째, 비교 대상인 두 개의 막대가 의미하는 데이터 기간이 서로 다릅니다. 빨간색 막대는 1993년부터 1996년까지 4년 치의 데이터를 의미하지만, 파란색 막대 차트는 1999년부터 2003년까지인 5년 치의 데이터를 의미합니다. 서로 다른 기간의 데이터를 동일 기준으로 놓고 비교하는 것이 잘못되었습니다. 두 번째, 두 막대가 의미하는 데이터 기간 사이에 생략된 기간이 존재합니다. 기간별 데이터를 비교하는 차트임에도 불구하고 위 차트상에서는 1997년과 1998년의 데이터를 볼 수 없습니다. 해당 기간의 데이터를 의도적으로 숨긴 것으로 보입니다.
이와 같은 사례를 접할 때 우리는 데이터 시각화 차트, 데이터의 신뢰성에 대해 의문을 갖게 되는데요! 위 사례로 살펴본 데이터와 관련된 다른 데이터, 다른 시각화 차트로 정말 규제를 줄이면 산업 투자가 줄어드는 것인지 확인해보겠습니다.
위의 선 차트는 연도별 케이블 산업 기반 시설에 대한 지출 현황을 보여줍니다. 규제라고 볼 수 있는 케이블 TV 소비자 보호 및 경쟁법이 통과된 1992년 이후 오히려 해당 산업의 지출이 증가했다는 것을 확인할 수 있습니다.
한편, 차트를 만드는 사람의 어떠한 의도가 아닌 시각화 자체의 한계로 인해 데이터 해석상 오류가 발생하는 경우도 있습니다. 가장 흔한 경우는 데이터의 크기를 비교하는 기준이 시각화 요소의 면적인 경우입니다. 심볼 맵(Symbol map)을 사례로 알아보겠습니다.
심볼 맵은 지도 위의 위치마다 데이터의 크기를 도형의 크기로 표현하는 시각화 유형입니다. 일반적으로 원을 활용하여 데이터를 표현합니다. 우리는 위치별 원의 크기를 비교하면서 데이터를 대략 해석합니다. '대략 해석한다?' 어떤 숨겨진 의미가 있을까요?
일단 원의 크기로 데이터를 비교하는 것 자체가 다른 시각화 요소를 활용한 비교보다 어렵기 때문에 그렇습니다. 동일한 데이터를 막대 차트와 버블 차트로 그린 위 그림을 사례로 보겠습니다. 막대 차트의 경우 월별 데이터의 크기를 y축 정보로 알 수 있는 동시에 막대의 길이를 기준으로 대략 몇 배 차이 나는지 쉽게 가늠해 볼 수 있습니다. 예를 들어 4월 데이터보다 5월 데이터가 약 2배 정도 차이 나는 것을 쉽게 알 수 있습니다.
반면 원으로 데이터의 크기를 비교할 때는 '면적'을 기준으로 비교하게 되기 때문에, 데이터의 크기 차이를 가늠하기가 쉽지 않습니다. 앞서 막대차트에서 살펴본 데이터인 4월 데이터와 5월 데이터를 표현한 원을 보았을 때 몇 배나 큰 것인지, 얼마나 더 큰 것인지 가늠하기 쉽지 않습니다.
한 가지 사례를 더 알아보도록 하겠습니다. 100달러, 200달러, 400달러의 데이터 크기를 원으로 시각화할 경우, 위 그림 중 어느 쪽이 올바르게 시각화 한 것일까요?
비교적 직관적으로 크기 차이를 실감할 수 있는 것은 왼쪽이지만, 정답은 오른쪽입니다! 오른쪽은 이전 크기 대비 면적이 2배 증가한 형태로 시각화하였습니다. 반면, 왼쪽의 경우 원의 크기를 지름 기준으로 2배 키운 것으로 결과적으로 면적이 4배 증가한 형태를 띱니다. 위 사례로 우리는 도형의 면적을 기준으로 한 데이터 비교, 데이터 해석이 어렵다는 것에 공감할 수 있습니다. 또 한편으로는 시각화 차트를 만드는 사람이 주의하지 않을 경우 의도치 않게 잘못된 정보를 제공할 수 있는 시각화의 한계라는 것도 이해할 수 있습니다.
다시 심볼 맵의 이야기로 돌아와서 심볼 맵 역시 원의 면적으로 데이터의 크기를 비교하는 버블 차트와 동일하게 시각화 요소로 데이터 간의 크기 차이를 비교하기가 쉽지 않습니다. 더군다나 시각화 유형 특성상 지도 위 많은 위치에 원을 배치하기 때문에 시각적 오류가 발생하기도 합니다.
가운데 회색 원을 보았을 때, 어느 쪽이 더 커 보이나요? 오른쪽 원이 더 커 보이지 않나요? 사실 이 두 원의 크기는 동일합니다. 독일의 심리학자 헤르만 에빙하우스 (Herman Ebbinghaus)의 이름을 딴 '에빙하우스 착시' 자료는 같은 크기의 원이라고 할지라도 주변을 둘러싼 원의 크기에 따라 가운데 원의 크기가 달라 보이게 된다는 것을 보여줍니다. 심볼 맵의 경우 위 이미지와 같이 특정 공간에 많은 원을 배치하게 되므로, 시각에만 의존해서 데이터를 해석할 경우 잘못된 해석을 할 수 있습니다.
위 사례들을 통해 우리는 내가 만든 데이터 시각화 차트, 그리고 내가 보고 있는 데이터 시각화 차트가 "진실한 데이터 시각화"인지 생각해볼 필요가 있다는 것에 공감하게 됩니다. "진실한 데이터 시각화"란 단어 그대로 데이터를 시각화할 때, 데이터를 얼마나 진실하게 보여주고 있는지를 의미합니다. 선의로 만든 시각화 차트라고 할지라도 사소한 부분을 놓쳐 독자가 데이터를 오해하게 할 수 있습니다. 또 비판적인 관점 없이 일방적으로 수용한 데이터 시각화 차트의 정보는 우리를 잘못된 데이터 해석, 의사결정의 방향으로 이끌 수 있습니다.
우리에게 데이터 시각화가 효과적일 수밖에 없는 이유인 '시각'이 때로는 시각화의 약점이 되기도 합니다. 앞서 살펴본 내용이 데이터 시각화의 표현 형태에 의해 데이터 해석상 오류가 발생할 수 있다는 것이었다면, 이번에는 문제없는 데이터 시각화 차트를 오해하는 우리의 '시각'으로 인해 문제가 발생한다는 내용을 이야기해 보려 합니다.
책 『the truthful art』에서 저자 알베르토 카이로는 이를 마인드 버그(Mind Bug)라고 칭하였습니다. 마인드 버그란 데이터를 해석하는 우리의 인지적 사고에 의한 데이터의 진실성이 왜곡되는 것을 의미합니다. 쉽게 말해, 우리가 데이터 시각화를 오해하여 데이터 해석상 오류가 발생한다고 할 수 있습니다.
마인드 버그의 유형은 3가지- 1) 패턴성(Patternicity) 버그, 2) 스토리텔링(Storytelling) 버그 3) 확증(Confirmation) 버그-로 구분됩니다. 그중에서 패턴성 버그는 우리가 시각에 의존해 데이터의 의미를 찾을 때 발생하는 오류라고 할 수 있습니다. 패턴성 버그는 데이터 시각화 차트를 보았을 때 사실상 유의미한 시각적 패턴이 없음에도 불구하고, 사람들이 어떠한 패턴을 찾으려는 경향을 보이는 것을 말합니다.
위 시각화는 가상의 9개 국가의 실업률을 2010년부터 2015년까지 연도별로 시각화한 선 차트입니다. 이 차트를 처음 보았을 때는 아무것도 보이지 않지만, 한동안 계속 보고 있으면 우리는 무의식적으로 국가별 차트를 비교해보며 시각적으로 유사한 부분이 있는 것은 아닌지를 자연스럽게 찾게 됩니다. 그리고 그 결과로 어떤 패턴을 발견하게 되죠! 이는 9개 국가를 분류하는 어떤 기준이 됩니다. 예를 들어 '몇몇 국가의 데이터 수치가 특정 시점에서 동일하게 낮아진다'와 같은 시각적 패턴을 기준으로 하는 것이죠!
그러나 사실 위 차트는 1부터 10 사이의 숫자가 무작위로 50번 반복되는 9개의 세트를 만든 것으로 어떤 시각적 패턴도 의미가 있지 않습니다. 시각화 차트를 보고 무의식적으로 특정한 패턴을 찾으려고 하는 경향인 패턴성 버그는 의미 없는 데이터 인사이트를 찾게 하고, 또 쉽게 믿게 만듭니다. 가짜 데이터 인사이트를 진짜로 오해하고 무엇인가를 결정했다고 가정해보죠. 좋은 결과를 상상하기 어렵습니다.
한편, 패턴성 버그와 함께 마인드 버그에 속하는 스토리텔링 버그, 확증 버그는 우리의 '눈'보다 '생각'에 의해 발생하는 오류입니다. 시각으로 인한 데이터에 대한 오해가 어떻게 실제 문제로 이어지게 되는지를 알 수 있습니다.
먼저 스토리텔링 버그는 우리가 의도적으로 유의미한(혹은 흥미로운) 이야기를 만들려고 하는 것을 의미합니다.
"우리는 타고난 스토리텔러이며, 스스로의 이야기를 믿으려는 성향을 갖고 있다."
- 평론가 윌 스토(Will Storr)
시각화를 활용해 데이터를 분석하고자 하는 사람의 관점에서 깊이 있는 판단 없이 시각화 차트의 패턴만을 근거로 결론(이야기)을 내려놓고, 이를 합리적으로 정당화하기 위한 방법을 찾는 것입니다. 쉽게 말해 데이터 분석을 하다 기분 좋게 발견한 '데이터 인사이트'를 의심 없이 믿고, 이것에만 집중하여 이야기를 만들어나가는 것을 말합니다.
또 다른 면으로는 그럴싸한 이야기를 위해 데이터를 선택적으로 활용하는 것도 스토리텔링 버그에 속합니다. 이는 어떤 식으로든 데이터를 바탕으로 이야기를 하는 사람들이 흔히 할 수 있는 실수이기도 한데요! 언론사가 쉽게 범할 수 있는 실수이기도 합니다. 전하고 싶은 메시지를 정해놓고 해당 메시지를 뒷받침할만한 데이터만 보고 활용하는 것이죠! 관련하여 생각해볼 만한 사례를 한 가지 알아보겠습니다.
아래 자료는 최근 논란이 된 최저임금에 대한 데이터입니다. 두 데이터 모두 최저임금을 이야기하고 있지만 서로 다른 해석의 기준이 되었습니다.
먼저 전국경제인연합회(전경련) 산하 한국경제연구원(한경연)의 경우 "OECD 국가 대상 국민 1인당 총소득(1인당 GNI) 대비 최저임금 수준(주휴 수당 포함, 19년 4월 기준)" 데이터를 근거로 우리나라 1인당 GNI 대비 최저임금은 OECD 27개국 중 7위고, 주휴수당을 포함하면 1위로 나타나 최저임금정책의 속도 조절이 필요하다고 주장하였습니다.
반면, 한국노동사회연구소는 "OECD 국가 대상 평균 임금 대비 최저 임금 수준" 데이터를 근거로 우리나라의 수준이 OECD 평균과 유사하다고 반박하였습니다.
과연 누구의 말이 맞을까요? 여기에서 우리는 누구의 말이 맞느냐의 문제는 차치하고, 데이터 활용의 관점에서 문제를 바라보도록 하겠습니다. 위와 같은 상황에서 데이터는 어떻게 활용되었을까요? 전하고 싶은 메시지에 맞는 데이터 찾기? 사실이 무엇이든 간에 일각에서 이 두 연구소가 서로 다른 주장을 하는 것에 '최저임금'에 대한 재계와 노동계의 입장차가 반영된 것이라는 평이 나오는 이유에는 각자가 하고 싶은 이야기에 맞는 데이터를 선택적으로 사용한 것은 아닐까 하는 스토리텔링 버그를 사람들이 의심하고 있는 것이라는 생각이 듭니다.
마지막으로 알아볼 확증 버그는 우리가 만든 스토리를 무조건 믿는 것을 말합니다. 스토리텔링 버그에 힘을 더한다고도 볼 수 있는데요! 확증 버그는 시각화를 기반으로 도출한 인사이트, 우리가 만든 스토리가 사실상 의미가 없거나, 확실할 수 없는 예외적인 상황이 존재함에도 불구하고 우리는 이를 외면하려는 경향을 보인다는 것입니다. 우리가 만든 스토리에 근거가 되어줄 만한 정보만 선택적으로 탐색하고 수용하는 것 역시 확증 버그로 인한 행동이라고 할 수 있습니다. 앞선 사례를 예로 생각해보면, 자신의 주장을 반박하는 내용이 제시되었을 때 이에 대해 검토하지 않고 자신의 주장만 내세우려는 행동이 잘못되었다는 것입니다.
없는 데이터 인사이트도 발견하고 믿는 우리의 눈과 뇌, 마인드 버그 3가지를 정리하면 아래와 같습니다.
1. 우리는 언제나 진짜로 의미 있는 시각적 패턴을 찾는 것은 아니다.
2. 우리가 발견한 패턴은 곧 우리 머릿속에 하나의 이야기가 된다. 우리는 그 이야기를 설명하기 위한 방법을 찾는다.
3. 우리는 우리가 만든 이야기를 믿는다. 설령 우리의 이야기에 잘못된 점이 있더라도 이를 쉽게 받아들이지 못하고, 외면하려 한다.
미국의 물리학자 리처드 파인만은 칼텍(Caltech) 학위 수여식에서 "세상에서 가장 속이기 쉬운 사람이 자기 자신이다."라는 말을 하였습니다.
"제 1원칙은 스스로를 속여서는 안된다는 것인데, 세상에서 가장 속이기 쉬운 사람은 여러분 자신이다."
- 물리학자 리처드 파인만(Richard Feynman)
그의 말은 시각화를 활용할 때 마인드 버그로 인해 예상치 못한 문제에 빠질 수 있는 우리를 대변하는 것이 아닌가 하는 생각이 듭니다. 우리는 데이터 활용을 위해 시각화를 사용하고, 시각화를 기반으로 인사이트를 도출할 때 비판적인 관점에서 살펴보아야 합니다. 스스로 자신이 내린 결론이 정말 합리적이고 정당한 것인지 되물어보며 정확한 데이터 활용을 위해 노력해야 합니다.
지금까지 데이터 시각화를 제대로 활용하기 위해 알아야 할 시각화의 약점에 대해 알아보았습니다. 잘못 만들어진 시각화는 우리를 잘못된 판단으로 이끕니다. 또 문제없이 만들어진 시각화 차트라고 할지라도 우리의 인지적 사고의 한계인 '마인드 버그'로 인해 잘못된 인사이트도 진실로 믿는 문제가 발생하기도 합니다. 쉽게 말하면 시각화가 우리를 속일 수도 있지만, 우리가 시각화를 속일 수도 있기에 주의할 필요가 있다는 이야기입니다.
시각화의 장점을 이야기하는 글은 많지만, 시각화의 약점을 이야기하는 글은 찾기가 쉽지 않습니다. 우리는 시각화의 약점을 이야기하는 것이 곧 시각화가 불필요하다는 이야기가 아니라는 것을 알고 있습니다. 시각화의 약점에 대한 정확한 이해를 갖고 있을 때, 이를 보완할 수 있는 더 나은 시각화를 만들 수 있습니다. 그리고 이는 더 효과적인 데이터 활용을 가능하게 한다고 생각합니다. 오늘의 글이 여러분의 효과적인 시각화 활용에 유용한 도움이 되었길 바라며 글을 마무리합니다.
참고 자료
도서 『the truthful art : data, charts, and maps for communication』
김연주 기자, "최저임금 1위다, 아니다" 재계 VS 노동계 공방" (매일경제, 2019.05.07)
* 이 글의 원문 출처는 뉴스젤리 블로그 '알고 있어야 보인다! 사람들은 잘 모르는 데이터 시각화의 약점' 입니다.