도서『the truthful art』를 읽고 나서
이번 포스팅은 지난 2월 도서『Data Visualisation – A Handbook for Data Driven Designs』리뷰 이후 팀원들과 함께 읽은 도서 『the truthful art : dat, charts, and maps for communication』(이하 『the truthful art』) 리뷰를 하고자 한다.
이 책의 저자 알베르토 카이로(Alberto cairo)는 인포그래픽, 데이터 시각화, 데이터 저널리즘의 영역에서 교수, 저자 등으로 활동하고 있다. 그의 또 다른 저서 『the functional art』는 이미 국내 번역본으로 출간된 바 있으며, 개인 블로그 ‘the functional art’를 통해서도 데이터 시각화와 관련된 다양한 콘텐츠를 게재하고 있다.
본격적인 리뷰에 앞서 책의 목차를 살펴보면, 이 책은 총 4개의 파트 12개의 챕터로 구성되어 있다. 저자는 책의 첫 번째 파트에서 ‘좋은 시각화의 다섯 가지 요건’으로 Truthful, Functional, Beautiful, Insightful, Enlightening을 언급하며, 이 중 Truthful, Functional에 대한 이야기를 2개의 파트 총 8개의 챕터를 통해 각각 자세히 설명한다.
‘Truthful’은 책의 제목에 포함된 단어이자 책 내용 중 두 번째 파트의 제목으로 저자는 책의 전반에 걸쳐 해당 내용을 꾸준히 언급한다. 그가 강조하는 truthful은 단어 그대로 데이터를 시각화 작업물로 만들 때에 데이터를 얼마나 진실되게 보여주느냐를 의미한다. 선의로 만든 작업물일지라도 시각화 작업에서 사소한 부분을 놓쳐 오류를 포함한 결과물은 독자로 하여금 오해를 하게 하거나, 중요한 의사결정에 잘못된 근거로 사용될 수 있다. 책에서 언급된 사례를 통해 truthful 한 데이터 시각화에 대해서 알아보자.
Figure 2.2는 National Cable & Telecommunications Association에서 규제에 따른 케이블 산업 투자 현황을 시각화한 자료이다. 막대 차트를 보면 규제를 줄여 산업 투자가 증가한 것처럼 보이지만, 사실 이 자료는 두 가지 오류를 갖고 있다. 첫 번째, 비교 대상인 두 개의 막대는 각각 4년(1993-1996), 5년(1999-2003)의 서로 다른 기간의 데이터로 동일 기준에 따른 비교로 보기가 어렵다. 두 번째, 비교 기간 사이에 생략된 기간(1996-1999)이 존재해 의도적으로 데이터를 숨긴 것으로 보인다. 저자는 이와 연관된 데이터로 연도별 케이블 산업 기반 시설 지출 현황 데이터(Figure 2.3)로 사실상 규제가 있었던 시기에도 해당 산업의 지출이 증가하였음을 제시해 앞선 시각화 자료가 전달하는 메시지의 진실성에 의문을 제기한다.
저자는 위 사례와 같은 시각적 자료의 잘못된 표현으로 왜곡될 수 있는 데이터의 진실성뿐만 아니라, 데이터를 해석하는 인간의 인지적 사고에 의해 진실성이 왜곡될 수 있음을 언급한다. 책에서 Mind bug라는 명칭으로 3가지-1) Patternicity 2) Storytelling 3) Confirmation-가 서술되었다. 각각에 대한 간단한 정의를 살펴보면 1) Patternicity는 실제 데이터가 유의미한 시각적 패턴(인사이트)을 갖고 있지 않더라도, 사람들은 패턴을 찾으려는 경향을 보인다는 것이다.
책에서 사례로 든 Figure 3.8을 보면, 해당 자료를 처음 보면 어떤 의미도 없는 것 같지만, 계속 보고 있으면 무의식적으로 각 차트에 시각적으로 유사한 부분이 있는지를 찾게 된다는 점을 알 수 있다.
두 번째 Mind bug로 소개된 Storytelling은 Confirmation bias로도 불리는 것으로 데이터에서 도출한 인사이트를 바탕으로 사람들은 이를 설명하기 위한 원인과 결과를 찾으려 하고, 의도적으로 유의미한(혹은 흥미로운) 이야기를 만들려고 하는 것을 의미한다. 마지막으로 Confirmation Mind bug는 도출한 데이터 인사이트가 사실상 의미가 없거나, 확신할 수 없는 예외적 상황이 존재함에도 불구하고 이를 외면하려는 경향을 보인다는 것이다. 저자는 이 책 이전에 출간한 책 『the functional art』를 통해 데이터 시각화에 대한 인지적 접근, 오류 등에 광범위하게 서술한 바 있는데, 그의 견해가 같은 맥락에서 이 책의 중심이 되었음을 알 수 있다.
데이터 시각화를 다루는 책답게 이 책에서도 시각화 원리와 유형에 대한 내용이 서술되었다.
숫자를 다양한 형태의 그래픽으로 표현한다는 의미에서 Visual Encoding이라 불리는 시각화 원리에 대한 내용에서는 숫자를 막대의 길이, 면적, 영역, 컬러 등으로 표현할 수 있음과 가장 효과적인 형태은 무엇인지에 대해서 언급한다. 이는 데이터 시각화 분야의 도서에서 대다수 공통적으로 언급되는 것으로 이전에 읽었던 『Data Visualisation – A Handbook for Data Driven Designs』, 『Visualization Analysis & Design』 등에서 동일한 내용을 접한 바 있다.
또한 데이터, 전달하고자 하는 메시지에 적합한 시각화 유형은 무엇인지, 왜 적합한 시각화 유형을 선택해야 하는가에 대한 내용을 포함하고 있다. 다만 여타의 시각화 책에서 해당 부분에 대해 다소 추상적으로 중요성을 언급하였던 것과 다르게 매우 구체적인 사례를 들어 설명한 것이 인상적이었다.
해당 사례는 지난 20년간 사람들의 음악 장르별 선호도가 어떻게 달라졌는지를 데이터로 시각화 한 자료로 파이 차트로 시각화하였을 경우 비중이 어떻게 달라졌는지 비교하기 어려우나, 슬로프(Slope) 차트로 시각화하면 한눈에 변화를 확인할 수 있음을 보여준다. 왜 적합한 시각화 유형을 선택해야 하는지, 데이터 시각화의 중요성이 무엇인지 피부로 느낄 수 있는 사례였다.
나아가 저자는 단순히 어떤 시각화 유형을 선택할 것인가의 문제를 넘어서 동일한 시각화 유형일지라도 좀 더 효과적으로 표현하기 위한 팁을 제공한다.
차트 Y축의 시작점을 0으로 해야 한다는 일반적인 규칙은 모든 경우에 적용되어야 하는 필수 조건이 아니라, 데이터의 분포, 시각화로 전달하고자 하는 메시지가 무엇이냐, 어떻게 효과적으로 보여줄 수 있느냐에 따라서 달리할 수 있다는 내용이 대표적이다. 또한 동일한 데이터로 막대차트를 그리더라도 범주형(categorical) 변수의 인코딩 순서를 달리하여 제작자가 의도한 바에 최적화된 차트를 그릴 수 있는 방법도 제시되었다.
다른 데이터 시각화 책과 구별되는 이 책의 특징은 데이터와 관련된 통계적 내용을 상당히 자세하게 설명한다는 점이다. 데이터 시각화 이전에 데이터의 요약 통계(평균, 최빈값, 중앙값 등)를 확인해 데이터가 특이한 패턴을 보이는지를 확인해야 truthful 한 시각화 작업물을 만들 수 있음을 언급한다. 동시에 분포, 시계열, 관계, 위치를 보여주기 위한 목적으로 시각화하는 경우를 각각의 챕터로 나누어 설명하는데 데이터에 대한 통계적 접근과 시각화 접근을 함께 보여준다.
그중에서도 인상적인 챕터는 ‘Chapter 8 Revealing Change’, ‘Chapter 10 Mapping data’였다. 각 챕터에서 인상적인 부분을 간략히 설명하면, 챕터 8은 시계열 정보를 포함한 데이터를 시각화하는 것에 대한 내용을 다루고 있는데 시계열 정보에서 추출할 수 있는 있는 다수의 데이터 필드와 이를 시각화한 사례가 매우 인상적이었다.
일반적으로 시계열 데이터를 시각화할 때, 시간의 흐름에 따라 수치를 순차적으로 그래픽화하는 것이 일반적이다. 그러나 저자는 계절, 월(month) 등을 기준으로 여러 해(year)의 데이터를 하나의 차트에 시각화하거나, 스몰 멀티플(small multiples) 형식을 활용하는 등의 시각화 방법을 제안한다. 또한 수치형 변수의 사용을 절대치가 아닌 비율(%), 값의 차이, log 값 등으로 설정해 동일한 데이터를 활용하되 기준에 따라 다른 형태의 시각화가 가능하다는 것을 설명한다.
챕터 10은 위치 데이터를 시각화하는 방법에 대해 설명하는 챕터로 지도 위에 표현할 수 있는 시각화 요소(Figure 10.9)는 무엇이 있으며, 각 시각화 유형에 따라서 알아야 할 통계적 지식과 다양한 시각화 사례를 예로 제시한다.
대표적으로 지도 위에 각 위치별 수치 값을 원의 크기로 표현하는 Proportional Symbol Map의 경우 면적으로 수치를 비교할 때에 인지적 오류가 있음을 언급했고, 여러 개의 Symbol이 겹칠 때 문제를 해결할 수 있는 시각화 방법을 제안하는 등 해당 시각화 유형과 관련된 내용을 다각적으로 서술했다.
그 외 지도의 각 영역(지역)의 수치 데이터를 색으로 표현한 Choropleth Map의 경우 수치 데이터 전체 범위를 어떤 기준으로 binning 하느냐에 따라 시각화 결과가 달라질 수 있음을 설명해, 데이터에 대한 통계적 이해의 정도가 정확한 시각화 결과물을 만드는 데 중요한 역할을 한다는 점을 느끼게 하였다.
지금까지 도서 『the truthful art』의 리뷰를 작성했다. 책 소개와 함께 인상 깊었던 부분을 3가지 – 1. 진실된 작업물로서 데이터 시각화, 2. 전달하고자 하는 메시지에 맞는 시각화, 3. 데이터에 대한 통계적 이해를 전제로 한 시각화- 로 요약하여 작성하였다. 좀 더 자세한 내용을 알고 싶으신 분들은 책을 직접 읽어보시길 추천한다.
* 이 글의 원문 출처는 뉴스젤리 블로그 '[콘팀 블로그] ‘진실된’ 데이터 시각화란?- 책 『the truthful art』를 읽고 나서'입니다.