지도 시각화의 효과와 그 한계를 극복하는 방법
위치 데이터에서 인사이트를 도출하는 효과적인 방법은 '지도 시각화'를 활용하는 것입니다. 지난 포스팅에서는 위치 데이터의 시각적 분석을 위해 필요한 지도 시각화 유형에 대해서 알아보고, 인사이트를 도출하는 방법에 대해서 간략히 알아보았습니다. 위치 데이터를 활용한 시각적 분석의 기본을 이해했다고 볼 수 있는데요! 이번에는 지도 시각화와 관련된 좀 더 깊이 있는 내용과 함께 다양한 지도 시각화 콘텐츠 사례를 살펴보도록 하겠습니다. 각각의 사례를 통해서 지도 시각화를 활용한 위치 데이터의 분석 효과를 경험적으로 이해하실 수 있으리라 생각합니다:)
지도 시각화는 지도 위 위치를 기준으로 특정 지점에 데이터를 여러 요소로 표현한 것입니다.
데이터 값을 표현하는데 어떤 요소를 활용할지, 이를 크기(size)로 표현할지, 색(color)을 이용할 것인지 등 제작자가 선택한 방법에 따라 지도 시각화 유형이 결정됩니다. 지도 위에 동그란 원(circle)이 그려져 있어 Bubble Map이라고 불리기도 하는 Proportional Symbol Map을 예로 설명하면, 이는 각 데이터가 위치하는 지점을 표시하되 원(circle)을 요소를 사용하고, 원의 크기로 데이터의 크기를 표현한 것입니다. 만약, 각 지점을 분류하는 범주형 변수(Dimension, 차원)를 활용하고자 한다면, 해당 변수를 색으로 인코딩하여 원의 색을 달리 표현할 수도 있습니다.
여기서 알아야 할 개념이 바로 지도의 '계층(layer)'입니다. 쉽게 말해 지도 시각화의 배경에 표현할 수 있는 것들이라고 할 수 있습니다. 점(point), 선(line), 면(area)의 요소로 표현되는 여러 개의 계층을 겹쳐서 지도의 형태를 구성합니다. 대표적으로 국가/지역을 나누는 경계선, 해안선, 도로 및 고속도로 등을 들 수 있으며, 지도 위에 어떤 계층을 표현하느냐에 따라서 지도의 형태(Style)가 달라집니다.
서로 다른 형태의 지도는 각각 시각적으로 전달할 수 있는 메시지와 효과에도 차이가 있기 마련입니다. 따라서 위치 데이터를 지도 시각화로 표현할 때, 어떤 형태의 지도가 데이터 인사이트를 도출하는데 도움이 될 것인지 판단하고 사용하는 것이 좋습니다.
구글(Google)은 공기의 질(quality) 정도를 나타내는 데이터를 수집 및 시각화하되 배경 지도로 스트릿 뷰(Street View)를 사용하였습니다. 실제 길(road) 별로 공기의 질 정도를 색으로 표현한 것을 볼 수 있습니다. 이 사례는 우리가 일반적으로 보는 그래픽 형태의 지도가 아닌 위성사진에 데이터를 시각화하여 현실감을 더한 것을 특징으로 꼽을 수 있습니다.
'서울 건물 나이 지도'는 서울에 위치한 건물들의 사용승인 허가 연도 데이터를 시각화 한 사례입니다. 기본적인 지도 배경은 도로 및 고속도로가 표현된 그래픽 지도 계층에 위치별 건물의 형태가 표현된 계층을 더한 것으로 보입니다. 건물별 사용승인 허가 연도의 범위를 10년 단위로 나눠 색을 달리 표현하였습니다. 최근에 사용승인이 난 건물일수록 보라색에 가까운 색으로 표현되었습니다. 건물별 위치에 따라 색을 달리하여 표현했으므로, 히트맵(Heat Map)이라고도 볼 수 있습니다. 다만, 일반적인 히트맵과 달리 각 실제 건물 모습을 3D로 시각화한 점이 눈에 띕니다. 데이터 주제와 맥락을 같이하는 시각화 형태로서 데이터 인사이트 전달에 강점을 갖습니다.
유사한 스타일의 시각화 콘텐츠 사례로 워싱턴 포스트(The Washington Post)의 '111일, 17시간, 1분 동안 어둠 속에 있던 푸에르토리코의 지역 (Parts of Puerto Rico have been in the dark for 111 days, 17 hours and 1 minutes)'이 있습니다. 허리케인 마리아로 인한 푸에르토리코 정전 사태를 지도 시각화로 보여준 것입니다. 지도 위에 데이터를 색으로 표현한 히트맵(heat map)입니다. 어두운 배경의 지도를 활용하고, 지역별 밤 시간대의 불빛의 정도를 색으로 인코딩하였습니다. 각 시점별 도시의 불빛 정도 차이를 한눈에 확인할 수 있습니다. '정전'이라는 주제에 적합한 스타일의 지도를 활용해, 시각화를 통한 데이터 인사이트 전달 효과가 더해진 사례라고 할 수 있습니다.
화면을 통해 우리가 볼 수 있는 영역에는 제한이 있고, 따라서 한 화면 안에 표현할 수 있는 지도의 영역에도 한계가 있습니다. 지도 시각화로 표현하고자 하는 데이터의 범위가 방대할수록, 한 장의 지도로 모든 정보를 전달하는 것은 불가능합니다. 이는 곧 지도 시각화에서 인사이트를 도출할 때 한 장의 지도만으로는 충분한 인사이트를 도출하기 어렵다는 것을 의미하기도 합니다. 따라서 지도 시각화로 표현하고자 하는 데이터의 범위가 방대할 경우, '인터랙티브 지도 시각화'를 떠올려야 합니다.
인터랙티브 지도 시각화에서 가장 기본적인 인터랙션은 마우스를 활용해 지도의 영역을 자유롭게 이동하는 기능과 확대·축소를 할 수 있는 줌(zoom) 기능이 있습니다. '트리피디아-전 세계 도시의 녹색 캐노피 탐색(Treepidia - Exploring the Green Canopy in cities around the world)'는 세계 주요 도시의 길별로 녹지 현황(나무의 수를 세는 것이 아니라 나뭇가지들이 지붕 모양으로 우거진 정도를 측정, 부가 설명은 콘텐츠 링크를 통해 확인)을 Dot Density Map으로 시각화하였습니다. 각 점(dot) 별 색은 녹지 분포 정도에 따라 달리하였습니다. 제한된 지도 영역 위에서 마우스 드래그 앤 드롭을 하면 화면에 표시되는 지도 영역을 이동시킬 수 있고, 스크롤링을 통해 지도를 확대·축소할 수 있습니다. 지도를 최대한으로 확대한 뒤 하나의 점을 선택하면 해당 지점의 상세 데이터를 툴팁으로 보여줍니다. 사례를 통해 알 수 있듯이 지도에서 인터랙션 요소를 활용할 수 있을 때, 조금 더 자유로운 데이터 탐색에 의한 데이터 인사이트 도출이 가능합니다. 지도 시각화에서 보다 편리한 시각화 인사이트 도출을 위해 필요한 요소라고 생각하면 되겠습니다!
위치 데이터의 시각적 분석 방법으로 지도 시각화는 분명 효과적인 방법이라고 할 수 있지만, 지도 시각화가 가진 한계점에 대해서도 생각해봐야 합니다.
따라서 지도 시각화로 시계열 분석을 하고자 한다면, 어려움이 있을 수밖에 없습니다. 그렇다면 어떻게 해야 할까요? 지도 시각화의 장점을 살려 시각적 분석을 하는 동시에 여러 시점의 데이터를 비교해 인사이트를 도출하는 방법은 없을까요?
먼저 각 시점별 데이터를 여러 장의 지도로 표현하는 방법이 있습니다. 지도 시각화의 스몰 멀티플즈라고 볼 수 있습니다. 동일한 지역 범위의 지도를 여러 시점별로 나눠서 시각화 함으로써 시계열에 따른 데이터의 변화를 한눈에 확인, 인사이트를 도출할 수 있습니다.
미국의 공영 라디오 방송국 내셔널 퍼블릭 라디오(NPR)의 '지도가 보여주는 ACA 아래에서의 건강보험 적용 범위의 드라마틱한 변화(Maps Show A Dramatic Rise In Health Insurance Coverage Under ACA)'사례가 대표적입니다. 지역별 건강보험 적용 현황을 지역별로 시각화하는 동시에 스몰 멀티플즈 방식에 따라 2010년부터 2015년의 데이터를 6개의 지도로 표현했습니다. 각 지도별 시각적 패턴을 비교해 데이터의 변화를 알 수 있습니다.
또 다른 방법은 애니메이션 효과를 활용하는 것입니다. 하나의 지도를 사용하되 각 시점별 데이터의 변화를 애니메이션으로 보여줍니다. 시점별로 변화하는 시각적 패턴을 근거로 지도 시각화에서 시계열 분석을 할 수 있습니다. FiveThirtyEight의 '지난 35년간 미국인의 사망(35 Years of American Death)'는 사망원인별 X 연도별 미국인의 사망률 데이터를 지도 시각화로 표현, 애니메이션 효과를 활용해 시계열에 따른 데이터 변화를 확인할 수 있도록 하였습니다.
특히 Choropleth Map을 활용한 데이터 분석을 대표적인 사례로 이야기할 수 있습니다. Choropleth Map은 지리 영역별 데이터 수치 값을 색으로 표현한 지도 시각화 유형입니다. 데이터가 크면 클수록 같은 계열 내 짙은 색으로 표현되도록 인코딩하는 것이 일반적입니다. 따라서 인사이트 도출 시 데이터의 크고 작음을 비교하는 기준이 '색'이 되어야 함에도 불구하고, 지도상 표현된 '영역의 크기'에 영향을 받게 됩니다. 지도 내 같은 색으로 칠해진 영역이라도 영역의 면적이 크면 전체 중 차지하는 데이터의 비중도 크다고 생각하게 되는 것이지요! 일반적인 Choropleth Map에서 각 지역별 영역의 크기는 상이하기 때문에, 이와 같은 데이터 해석의 오류가 발생할 수 있습니다. 그렇다면, 어떻게 해야 정확한 인사이트를 도출할 수 있을까요? 대안적인 시각화 유형으로 Cartogram이 있습니다.
Cartogram은 지도의 각 영역 범위를 지리적 기준이 아닌 수치형 변수 값을 근거로 시각화하여 본래 지도의 형태를 왜곡한 것입니다. 지역별 영역의 크기를 인구수, GDP 등의 수치형 변수(Measure) 기준으로 왜곡한 경우가 대표적인 사례입니다.
영역의 크기를 왜곡한 기준과 색의 인코딩 기준이 동일한 Cartogram에서 데이터는 그 크기가 클수록 영역의 크기도 크고, 색도 짙게 표현됩니다. 즉, Cartogram으로 시각화하면 앞서 언급한 Choropleth Map를 이용한 데이터 해석의 오류(데이터 비교 기준으로서 '영역의 크기'와 '색'이 매칭 되지 않는)에서 벗어날 수 있습니다.
KILN의 '탄소 지도(The Carbon Map)'은 Cartogram을 이해하는데 도움이 되는 대표적인 시각화 콘텐츠 사례입니다. 지도의 각 영역별 크기를 표현할 변수 기준과 색으로 인코딩할 변수 기준을 직접 선택하여 데이터를 확인할 수 있습니다. (Cartogram에 대한 빠르고 직관적인 이해를 위해, 직접 링크에 접속해 지도 시각화 콘텐츠의 인터랙션을 경험해보시길 권해드립니다!) 위 이미지는 1인당 이산화탄소 발생 현황 데이터를 색으로 인코딩하여 각 영역별 색은 동일하게 표현하되, 영역의 크기를 실제 육지 면적(area), 인구수(population), 전체 GDP(Wealth) 등의 기준에 따라 다르게 시각화해 본 것입니다. 영역의 크기 기준이 되는 변수가 무엇이냐에 따라 서로 다른 형태의 지도를 확인할 수 있습니다. 이는 Choropleth Map의 데이터 해석상 오류를 방지하는 동시에 다양한 인사이트를 도출할 수 있다는 것을 의미하기도 합니다.
지금까지 2회 차 연재 포스팅을 통해 위치 데이터의 시각적 분석 방법으로서 지도 시각화에 대한 다양한 이야기를 하였습니다. 지도 시각화의 경우 다소 전문적인 영역이라 일반인이 이를 직접 제작하는 것에 어느 정도 한계가 있을 수 있습니다. 우리가 데이터 시각화 툴을 통해 그려볼 수 있는 지도 시각화의 일반적인 유형은 Proportional Symbol Map, Choropleth Map, Dot Density Map 정도 일 것이라고 생각됩니다. 그러나 직접 지도 시각화 유형을 만들 수 없다고 해서 지도 시각화에 대해서 자세히 알 필요가 없다는 이야기는 아닙니다. 왜냐하면 각각의 지도 시각화 유형을 제대로 알고 있을 때, 해석상의 오류 없이 정확한 위치 데이터의 인사이트를 도출할 수 있기 때문입니다. 시각화 유형별로 그에 대한 정확한 이해가 왜 필요한지에 대해서 생각해보게 됩니다. 이번 포스팅으로 시각화로 하는 데이터 분석의 중요성에 대한 여러분의 공감과 이해가 더해졌길 바라며 글을 마무리합니다.
* 이 글의 원문 출처는 뉴스젤리 블로그 '[데이터 시각화] 위치 데이터의 시각적 분석(2) 그 무한한 가능성에 대하여!'입니다.