데이터는 거짓말을 하지 않지만, 데이터로 거짓말을 할 수는 있습니다.
2009년 연구에서, 아이스크림 판매량이 늘어날수록 살인 사건 발생률도 높아지는 경향이 있었습니다. 비슷한 맥락으로 2006년 연구에서는 아이스크림 판매량이 가장 많을 때 익사 사고 사망자 수도 증가하는 것을 확인했습니다. 이 현상의 원인은 무엇일까요?
아이스크림을 많이 먹는 것이 사망률 증가와 직접적인 관련이 있을까요? 여름이 시작하는 시점에서, 이러한 놀라운 주장을 접하니 과연 안전한 지에 대한 의구심이 들 수 있습니다.
아이스크림 판매량이 최고조에 달하는 시기에 사망자 수가 늘어난다면, 둘 사이에 어떤 관계가 있다고 볼 수 있을까요? 그렇다고 해서 아이스크림 판매를 즉시 중단해야 할까요? 아니면 우리가 아직 파악하지 못한 다른 요인이 두 현상 모두에 영향을 미치고 있는 것일 수도 있을까요?
통계학이나 데이터 분석 수업을 들어봤다면 "상관관계가 인과관계를 의미하지 않는다"라는 말을 자주 들었을 겁니다. 이는 두 가지 현상이 함께 움직이는 것처럼 보여도, 한 현상이 다른 현상을 일으키거나 서로 의미 있는 관계가 있다는 것을 확실히 증명하는 것은 아니라는 뜻입니다. 이는 두 가지 현상이 함께 움직이는 것처럼 보여도, 한 현상이 다른 현상을 일으키거나 서로 의미 있는 관계가 있다는 것을 확실히 증명하는 것은 아니라는 뜻입니다.
이처럼 데이터 시각화가 때로는 사람들을 오해하게 만들거나 잘못된 정보를 전달할 수 있습니다. 이 글에서는 데이터 시각화가 잘못된 방식으로 사용된 8 가지 예시를 살펴보고, 이러한 오류를 어떻게 찾아낼 수 있는지 알아보겠습니다.
잘못된 데이터 시각화는 보는 이에게 혼란을 주거나, 부정확한 정보를 전달하는 시각 자료를 의미합니다. 알베르토 카이로 (Alberto Cairo)의 논문 "그래픽 거짓말, 오해의 소지가 있는 시각 자료" (Graphic Lies, Misleading Visuals)에서 언급된 바와 같이, 이러한 부정적인 데이터 시각화는 다음과 같은 특징을 보입니다.
잘못된 시각화는 데이터의 중요한 부분을 가리거나, 너무 적은 정보만 보여주어 정보를 받아들이는 사람들에게 잘못된 인상을 줄 수 있습니다.
지나치게 많은 정보를 제공하거나, 부정확한 정보로 인해 현실을 제대로 파악하기 어려워질 수 있습니다.
데이터를 시각적으로 표현할 때, 그래픽 형식을 올바르지 않게 사용하면 데이터가 왜곡되거나 이해하기 어려워질 수 있습니다.
잘못된 데이터 시각화의 특징들을 살펴봤으니, 이제 몇 가지 실제 예시를 통해 그러한 시각화가 정보를 받아들이는 사람들을 어떻게 잘못된 방향으로 이끌 수 있는지 알아보겠습니다.
뉴스 프로그램에서 나온 막대그래프를 한번 보겠습니다.
위 그림에서 발표자는 아마도 화씨온도로 한 주간의 날씨 예보를 보여주는 듯합니다. 하지만 발표자가 정확히 어떤 내용을 전달하려 하는지 파악할 수 있는 정보가 부족합니다.
이 시각화 자료를 보는 사람은 그래프가 무엇을 나타내는지, 예를 들어 기온, 풍속, 사고 발생 건수 등 어떤 데이터를 보여주는지 전혀 파악할 수 없을 겁니다. 따라서 이 자료는 중요한 정보를 제공하지 못하고 있습니다.
2004년부터 2013년까지 전기 요금이 어떻게 변화했는지 보여주는 다음 그림을 함께 살펴보겠습니다.
제공된 이미지에서는 2012년까지 스페인의 연간 전기 요금 변화를 보여줍니다. 이후에는 가로축을 바꿔 분기별 요금 변화를 나타냈습니다. 이렇게 분기를 기준으로 나누니 각 막대그래프에서 보이는 요금 변동 폭이 더 작아졌습니다.
이는 마리아노 라호이 (Mariano Rajoy) 총리 정부 시절 전기 요금 변동폭이 작았다는 점을 보여주려 의도적으로 사용된 방식입니다. 하지만 실제와는 다릅니다. 해당 그래프는 막대그래프를 부적절하게 활용하여 데이터를 왜곡하고 있으며, 잘못된 데이터 시각화의 대표적인 사례입니다.
CBSN 방송에서 보여준 데이터 시각화는 좋지 않은 예시 중 하나입니다.
위 그림의 원형 그래프는 지난 3년간 미국에서 마리화나를 경험한 사람들의 비율을 나타냅니다. 원형 그래프는 전체에서 각 부분이 차지하는 비율을 보여주는 데 효과적이지만, 특정 시점의 비율을 보여주는 데는 적합하지 않을 수 있습니다. 따라서 이 그래프를 보는 사람은 제시된 정보를 잘못 이해할 가능성이 있습니다.
설문 조사 응답자들은 모두 마리화나를 경험해 본 적이 있다고 답했습니다..
오늘 전체 인구의 51%가 마리화나를 경험해 본 것으로 나타났습니다.
작년 한 해 동안 전체 인구의 약 43%가 마리화나를 경험해 본 적이 있습니다.
1997년에 전체 인구 중 34%가 마리화나를 경험해 본 적이 있습니다.
하지만 실제로는 상황이 전혀 다릅니다. 위에 제시된 원형 그래프는 서로 다른 세 개의 설문 조사 결과를 나타냅니다. 이 그래프는
지금까지 전체 인구의 절반이 넘는 51%가 마리화나를 경험한 적이 있으며, 나머지 49%는 사용 경험이 없습니다.
작년 한 해 동안 전체 인구의 43%가 마리화나를 경험한 적이 있으며, 나머지 57%는 사용 경험이 없는 것으로 나타났습니다.
1997년 당시, 전체 인구 중 마리화나를 경험한 사람은 34%에 불과했으며, 대다수인 67%는 마리화나를 사용해 본 적이 없었습니다.
따라서, 제시된 데이터 시각화는 데이터를 오해하도록 만들기 위해 적절하지 않은 방식으로 그래프 형식을 활용하고 있습니다.
아마도 이는 콜롬비아의 구스타보 페트로 (Gustavo Petro)와 피코 구티에레스 (Fico Gutiérrez) 두 지도자의 지지율 변화를 반영하는 결과처럼 보입니다.
위 데이터 시각화에 어떤 문제가 있다고 생각하시나요?
첫째, 이 시각 자료는 무엇을 보여주려는지 명확하게 밝히지 않았습니다. 그래서 저는 두 지도자의 지지율 변화를 나타내는 것으로 짐작했습니다.
또 다른 의도적인 오류를 살펴보겠습니다. 그래프를 보면 두 그래프의 세로축 비율이 서로 다르다는 것을 알 수 있습니다. 이 때문에 오른쪽 그래프의 3%가 왼쪽 그래프의 25%보다 더 높은 위치에 표시됩니다. 그래프만 봤을 때는 피코 구티에레스가 구스타보 페트로보다 더 인기 있다고 착각할 수 있습니다. 하지만 이는 전혀 사실이 아닙니다. 따라서 이 시각 자료는 데이터를 부정확하게 보여줌으로써 현실을 흐리게 만들고 있습니다.
따라서, 앞서 언급한 문제점들을 고려할 때, 이 이미지는 효과적인 데이터 시각화라고 보기 어렵습니다.
폭스 뉴스에서 방영된 차트는 데이터 시각화가 잘못된 예시 중 하나입니다.
위 그림에 제시된 두 개의 막대그래프는 미국의 기독교인 비율을 2009년과 2019년으로 나누어 나타냅니다. 한눈에 보면 77%에서 65%로 감소한 수치가 상당히 큰 변화처럼 느껴질 수 있습니다. 하지만 이는 다음과 같은 착시 때문입니다.
그래프의 세로축이 58부터 시작하는데, 막대그래프는 일반적으로 0부터 시작해야 비율을 시각적으로 정확하게 나타낼 수 있습니다.
게다가, 축의 범위를 조작하여 실제로는 12% 감소한 것을 막대 길이가 절반 이상 줄어든 것처럼 보이게 했습니다. 이렇게 되면 막대그래프만 보고는 비율이 엄청나게 줄었다고 오해할 수 있지만, 실제로는 그렇지 않습니다.
파키스탄이 여러 기관으로부터 빌린 돈의 비율을 보여주는 다음 그림을 자세히 살펴보겠습니다.
위 그래프를 보면 각 영역의 크기가 부채 비율과 정확히 일치하지 않는다는 점을 알 수 있습니다. 예를 들어, 중국 관련 부채를 나타내는 영역이 민간 기관이나 기타 기관 관련 부채 영역보다 훨씬 넓게 표시되어 있지만, 실제 중국 부채는 민간 기관이나 기타 기관 부채의 약 3분의 2 수준입니다.
따라서 숫자 자체를 자세히 보지 않고 단순히 구분된 부분만 본다면 중국이 파키스탄에 가장 많은 돈을 빌려준 나라라고 착각할 수 있지만, 이는 사실이 아닙니다. 그러므로 이 그래프는 데이터 시각화를 잘못 활용한 사례라고 볼 수 있습니다.
캐나다 공영 방송국의 재정 보고서를 살펴보겠습니다. 이 보고서는 2년간의 회계 기간 동안 자금 조달이 어떻게 이루어졌는지 보여줍니다.
차트만 보면 괜찮아 보일 수도 있지만, 실제로는 여러 가지 문제점을 안고 있습니다.
그래프의 세로축에 갑작스러운 단절이 있습니다. 축의 아래쪽 부분은 1억 달러부터 시작하지 않고 중간에 끊겨 있으며, 7억 달러 이후에는 17억 달러로 갑자기 값이 크게 뛰어넘습니다. 이러한 방식 때문에 실제로는 12억 1,300만 달러인 정부 지원금이 4억 9천만 달러의 수입보다 작거나 거의 비슷하게 보이도록 왜곡되어, 정보 전달에 혼란을 줄 수 있습니다.
시청자들은 TV 수신료가 정부 지원금과 비슷한 수준이라고 오해할 수 있습니다. 막대 그래프에서 Y축의 눈금이 정확하지 않아, 파란색 막대와 분홍색 막대의 길이가 거의 동일하게 보이기 때문입니다.
위 차트의 중요한 문제점 중 하나는 총수입을 나타내는 핵심 막대와 수입 및 광고 수입 막대가 분리되어 있다는 점입니다. 이상적으로는 별도의 막대로 표시하는 대신, 하나의 막대 안에서 수익 구성을 세분화하여 총수입을 보여주는 것이 좋습니다. 즉, 두 번째 막대는 첫 번째 막대의 파란색 부분을 상세하게 나누어 보여주고, 세 번째 막대는 두 번째 막대의 보라색 부분을 더 자세히 분석하여 보여주는 방식으로 구성해야 합니다.
따라서 이 그래프는 그래프 구성 요소를 조작하여 보는 사람에게 잘못된 인상을 주려는 의도가 엿보이므로, 데이터 시각화의 부정적인 사례로 볼 수 있습니다.
'체리피킹' (Cherry-picking)은 어떤 주장을 뒷받침하기 위해 유리한 정보만 골라서 제시하고, 불리한 정보는 의도적으로 숨기는 행위를 말합니다. 이렇게 되면 데이터 전체에 대한 오해를 불러일으킬 수 있습니다. 예를 들어, 특정 해의 매출이 초반 몇 달 동안은 상승했지만 이후에는 하락했다면, 상승했던 기간의 데이터만 보여주고 하락한 기간의 데이터는 감추는 것이 체리피킹의 한 예시입니다.
아래 차트를 보면 2019년 5월부터 2020년 2월 사이 (짧은 기간)에 캐나다 휘발유 가격이 전반적으로 하락하는 경향을 보였다는 것을 알 수 있습니다. 특히 이 특정 기간을 선택했기 때문에 캐나다 휘발유 가격이 하락하는 모습이 더욱 두드러져 보입니다.
이제 2019년 5월부터 2021년 11월까지 (장기간) 캐나다 휘발유 가격이 꾸준히 오르는 경향을 보여주는 아래 차트를 살펴보겠습니다.
전반적인 시간 흐름을 고려했을 때, 캐나다 휘발유 가격은 장기적으로 꾸준히 상승하는 경향을 보입니다.
데이터 시각화는 우리가 데이터를 살펴보고, 분석하며, 더 깊이 이해하도록 도와주는 효과적인 방법입니다. 훌륭한 시각화 자료는 지도나 그래프처럼 정보를 시각적으로 표현하여 데이터의 의미를 더욱 분명하게 전달합니다. 하지만 모든 데이터 시각화가 정보 전달이라는 본연의 목적에 부합하도록 만들어지는 것은 아닙니다.
위의 사례들은 처음에는 속이려는 의도 없이 만들어졌을 수 있지만, 이후에 프레임을 바꾸거나 간단한 설명을 덧붙여 악용되는 경우가 있었습니다. 저는 이러한 차트들이 오해를 불러일으킬 수 있다고 생각합니다. 따라서 디자이너는 차트를 만들 때 편향된 해석이 가능하다는 점을 고려하여 설계함으로써 차트가 악용되지 않도록 주의해야 합니다.
데이터 분석 도구를 사용할 때, 특정 데이터만 선택적으로 보거나, 잘못된 연관성을 해석하는 오류를 범하지 않도록 사용자에게 알림을 제공하는 것이 필요합니다. 또한, 분석 결과의 불확실성을 명확히 하거나, 데이터의 갑작스러운 변화에 대한 설명이나 주석을 덧붙이는 것이 중요합니다. 이러한 정보 없이 시각화된 자료만 보면, 사람들은 자신의 선입견에 따라 차트를 해석하고 오해할 가능성이 커집니다.