brunch

You can make anything
by writing

C.S.Lewis

by 강원양 Oct 06. 2017

시각화 유형의 한계를 극복하기 위한 시각화 방법

스몰 멀티플즈(Small Multiples)에 대하여

데이터는 시각화하면 무조건 좋은 것일까요? 그렇지 않습니다. '어떻게 '시각화하느냐의 문제를 어떤 방식으로 해결하느냐에 따라서 시각화의 효과는 달라집니다. '어떻게 시각화할 것이냐'라는 질문에 가장 빠르게 생각나는 것은 아마 시각화 유형일 것입니다. 시각화 유형을 선택하는 것은 데이터의 특징과 시각화 콘텐츠를 제작하는 사람의 의도가 무엇이냐에 따라서 달라집니다. 제작자는 이들을 고려해 '적합한' 시각화 유형을 찾고자 할 텐데, 시각화 유형 각각은 개별적인 특징을 갖고 있는 동시에 한계를 갖고 있는 것이 새로운 문제가 되기도 합니다. 즉, 모든 상황에 완벽한 시각화 유형은 없기 때문에 이를 해결할 수 있는 방법을 찾아야 합니다.

차트 1 OECD 국가별 인구수 상위 10개 국가 현황 2014년 기준 (데이터 출처 : OECD, 'OECD 국가별 인구수')

예를 들어 보겠습니다. 위 차트 1은 2014년 인구수를 기준으로 OECD 국가 중 상위 10개 국가의 현황을 나타냅니다. 막대 차트는 데이터상 국가 이름을 값으로 갖는 범주형(categorical) 변수(dimension) 1개와 인구수를 나타내는 수치형(measure) 변수 1개의 조합으로 만든 것입니다. 만약, 한 시점이 아니라 2000년부터 2014년까지의 인구수 변화를 알고 싶다면 어떻게 해야 할까요? 간단한 방법으로는 연도를 나타내는 범주형 변수 1개를 추가하면 됩니다.

차트 2. OECD 국가별 인구 수 상위 10개 국가 현황 2000-2014년 (데이터 출처 : OECD, 'OECD 국가별 인구수')

연도를 값으로 갖는 범주형 변수를 컬러로 인코딩하여 추가해보았습니다. 어떤가요? 각 국가의 인구수가 연도별로 어떻게 변화했는지 알 수 있나요? 보고자 하는 데이터를 의도에 따라 시각화하였으나, 결국 원하는 인사이트를 찾을 수 없는 문제에 봉착하게 됩니다. 이처럼 다수의 변수(multi-dimension)를 활용해 시각화할 경우, 때때로 시각화의 본래 목적(시각적 패턴을 통해 쉽게 인사이트를 도출)에 부합하지 않는 결과물을 마주하게 됩니다.

차트 3. OECD 국가별 인구수 현황 2014 (데이터 출처 : OECD ' OECD 국가별 인구수')

뿐만 아니라 지도 시각화 유형(Choropleth map 유형이 대표적)과 파이 차트의 경우는 시각화 유형의 특성상 본래 여러 시점의 데이터를 표현할 수 없는 한계를 갖고 있습니다. (차트 3 사례로 설명을 덧붙여 봅니다. 위 지도는 이미 2014년 기준의 인구수가 국가별 영역에 컬러로 표현한 Choropleth map입니다. 만약 2014년과 2015년 데이터를 비교하고 싶다면 어떻게 해야 할까요? 2015년 데이터를 위 지도 위에 동일한 방식으로 표현할 수 있을까요? 2014년과 2015년 데이터를 합친 수를 기준으로 표현할 수는 있으나, 각 연도의 데이터 비교를 위한 목적에 맞는 형태를 Choropleth map 한 장으로 만들 수 없습니다.) 그렇다면, 이와 같은 한계를 극복하기 위해서 어떻게 해야 할까요? (서론이 길었습니다...) 오늘은 이와 같은 시각화의 한계를 극복하기 위한 한 가지 방법으로 스몰 멀티플즈(Small Multiples)에 대해서 알아보도록 하겠습니다.


스몰 멀티플즈(Small Multiples)란?

차트 4. OECD 국가별 인구수 변화, 스몰 멀티플즈 방식 (데이터 출처 : OECD 'OECD 국가별 인구수')

스몰 멀티플즈(Small Multiples)란 동일한 데이터 값을 기준으로 한 동일한 유형의 시각화 차트를 나열한 세트를 의미합니다. 이 개념은 1983년 발간된 『 Visual Display of Quantitative Information 』 의 저자 Edward Tufte에 의해 처음 언급되었습니다. 보통 그리드(Grid) 형태로 표현되곤 하는데, 시각화 원리의 관점에서 설명하면 차트에 활용하고자 하는 다수의 변수(multi-dimension) 중 하나를 기준으로 여러 개의 차트를 나열하는 것입니다. 위 차트 4를 예로 살펴보면 각 차트는 연도별 인구수 변화를 보여주되, '국가'를 기준으로 여러 개의 동일한 유형(라인)의 차트로 나뉘어 나열되어 있음을 알 수 있습니다. 일반적으로 시계열을 기준으로 나열하거나, 카테고리컬한 정보를 값으로 갖는 범주형 변수를 기준으로 차트를 나열합니다.


그렇다면 스몰 멀티플즈는  어떤 장점을 갖고 있을까요?


Small multiples are economical: once viewers understand the design of one [chart], they have immediate access to the data in all the other [charts]… as the eye moves from one [chart to the next, the consistency of the design allows viewers to focus on changes in the data rather than on changes in graphical design.
- Edward Tufte


스몰 멀티플즈는 1) 다수의 변수를 하나의 차트에 표현함에 따라 발생하는 '복잡해 보이는' 문제('Perceptual Edge'의 Stephen Few는 이를 overplotting이라고 칭함)를 해결해줍니다. 2) 독자는 하나의 차트로 차트를 읽는 법과 데이터의 의미를 이해하고, 동일한 맥락으로 나머지 차트를 훑어보면서 전체 데이터의 의미를 바로 이해할 수 있습니다. 즉, 여러 개의 차트를 개별적으로 해석해야 하는 노력을 하지 않아도 됩니다. 또한 3) 각 차트의 시각적 패턴을 바탕으로 항목 간 데이터를 빠르게 비교할 수 있습니다. 위 차트 4를 예로 보면, 차트 내 라인의 형태를 기준으로 인구수가 증가하고 있는 국가와 일정 수준을 유지하고 있는 국가 등으로 나눠서 비교할 수 있습니다.

출처 : Flowing data 'The Rise and Decline of Ask MetaFilter'

나아가 스몰 멀티플즈에 관한 여러 이슈 중 한 가지로 '정렬'(sorting)에 대해 간단히 이야기해보고자 합니다.  스몰 멀티플즈는 동일한 유형의 차트 여러 개를 그리드(Grid) 형태로 나열한 것으로 이때 각 차트의 정렬 기준을 무엇으로 하느냐에 따라서 서로 다른 맥락으로서 정보를 전달합니다.


 <Flowing Data>'의 'The Rise and Decline of Ask Metafilter'는 'Metafilter'의 수입을 항목을 기준으로 나누어 스몰 멀티플즈로 표현한 것입니다. 이때 차트 정렬의 기준은 '수입' 수준과 '항목 이름' 중 하나를 선택할 수 있습니다. 1) '수입' 수준을 기준으로 하면 Metafilter의 전체 수입 중 가장 많은 부분을 차지하는 항목을 순서대로 알 수 있고, 각 항목별 수입의 연도별 변화를 확인할 수 있습니다. 반면 2) '항목 이름'을 기준으로 하면 알파벳 순서에 따라 확인하고자 하는 특정 항목의 위치를 쉽게 유추해 해당 항목의 연도별 데이터 변화를 바로 확인할 수 있습니다. 위 사례와 같은 인터랙션 요소가 없을 경우, 각화 콘텐츠 제작자는 전달하고자 하는 메시지와 독자가 어떤 흐름(순서)으로 콘텐츠를 이해하도록 할 것이냐의 조건을 고려해 '의도'를 명확히 하고 그 의도에 따라 독자의 행동을 유도할 수 있도록 정렬해 배치해야 합니다. (부가적으로 위 사례에서 한 차트 영역 위 특정 시점에 마우스 오버를 하면 여타의 차트의 동일한 시점에도 점(dot)이 나타나는 것을 볼 수 있습니다. 독자가 각 항목별 해당 시점의 데이터를 쉽게 비교해 볼 수 있도록 한 장치로 'Scrubbable', 'Mouseable'으로 불리기도 합니다.)


스몰 멀티플즈 유형을 활용한 시각화 콘텐츠 알아보기


지금부터는 스몰 멀티플즈의 개념과 원리에 대한 이해를 더하고자 스몰 멀티플즈 방식의 시각화 콘텐츠 사례를 살펴보도록 하겠습니다. 



1. 지도 시각화 유형과 스몰 멀티플즈의 만남


사례 1/ 출처 : AXIOS, 'Thirty years of major flooding in the U.S.

첫 번째 사례로 <AXIOS>의 'Thirty years of major flooding in the U.S'는 지난 30년간 미국의 주요 홍수 발생 현황을 지도 시각화로 표현한 것입니다. 지도 시각화 유형을 활용하면서도 시계열의 관점에서 데이터 변화를 보여주기 위해 스몰 멀티플즈를 활용하였습니다. 각 연도별 홍수 현황을 시각적 패턴에 근거에 빠르게 확인할 수 있습니다.

사례 2/ 출처 : The Washington Post, 'Leaving town at rush hour? Here’s how far you’re likely to get from

워싱턴 포스트 <The Washington Post>의 'Leaving town at rush hour? Here’s how far you’re likely to get from America’s largest cities.'는 오후 4시, 7시 10시 각 시간대별로 1시간 내에 주요 도시에서 이동 가능한 지역의 범위를 지도 위에 영역으로 표현했습니다. 스몰 멀티플즈 유형을 활용한 관점에서 해당 콘텐츠를 보면, 주요 도시를 한 화면에 모두 나열하지 않고, 권역을 기준으로 그룹화하여 표현함과 동시에 인사이트를 도출한 것이 특징입니다. 각 권역에 포함되는 도시의 지도 시각화는 알파벳 순서로 배치되었습니다. 그 외 스크롤링을 기반으로 이어지는 콘텐츠로서 각 권역별 내용을 빠르게 확인할 수 있도록 권역을 의미하는 텍스트에 링크를 연결하여, 텍스트 클릭 시 해당 부분으로 바로 이동할 수 있는 기능을 헤더에 적용한 점이 인상적입니다. 



2. 시각화를 통한 인사이트 도출, 스몰 멀티플즈의 힘


사례 3-1/ 남성보다 여성의 비중이 높아진 직업 유형 (출처 : Flowing data, Most Female and Male Occupations Since 1950')
사례 3-2/ 다수의 비중을 차지하는 성별 변동이 많은 직업 유형 (출처 :Flowing data, Most Female and Male Occupations Since 1950)

스몰 멀티플즈의 장점 중 하나는 여러 항목을 시각적 패턴에 따라서 분류해 인사이트를 도출할 수 있다는 점입니다. <Flowing data>의 'Most Female and Male Occupations Since 1950'을 사례로 자세히 살펴봅시다. 해당 콘텐츠는 지난 1950년 이래로 미국의 직업 유형별 남성과 여성이 차지하는 비중을 라인 차트로 시각화하고, 이를 스몰 멀티플즈로 시각화하였습니다.


먼저 사례 3-1의 좌측 상단에 위치한  첫 번째 차트 조제(Dispensing) 분야에서의 성별 직업 비중을 나타내는 라인 차트를 읽어보도록 하겠습니다. 주황색 선은 남성이 차지하는 비중을, 청록색 선은 여성이 차지하는 비중을 나타냅니다. 각 선 사이의 음영색은 더 많은 비중을 차지하는 성별에 따라서 결정됩니다. 즉, 주황색 음영 처리된 기간은 여성보다 남성의 비중이 큰 기간이며 청록색 음영 처리된 기간은 남성보다 여성의 비중이 큰 기간입니다. 이제 나머지 차트의 시각적 패턴을 확인해 봅시다. 사례 3-1의 10개 차트는 모두 시계열 기준 초반에 남성의 비중이 우세하다(주황색 음영) 이후 여성의 비중이 우세하다(청록색 음영)는 것을 시각적 패턴으로 한눈에 확인할 수 있습니다. 이제 사례 3-2를 살펴보도록 하겠습니다. 차트 상단에 배치된 타이틀을 읽지 않고서도 6개 차트의 시각적 패턴 만으로도 각 직업별로 우세한 비중을 차지하는 성별의 변동이 많음을 알 수 있습니다. (아마 해당 콘텐츠의 제작자는 각 직업 유형별 라인 차트를 모두 나열해 놓고 유사한 시각적 패턴을 근거로 직업 유형을 그룹화해 인사이트를 정리하는 순서로 작업을 진행했으리라 예상됩니다.)

사례 4/ 출처 : Propublica, 'Ambulances for Dialysis Patients on Rise'

<Propublica>의 'Ambulances for Dialysis Patients on Rise'는 미국 각 주별로 투석 환자에 대한 앰뷸런스 서비스에 드는 비용 데이터를 연도별로 시각화한 콘텐츠입니다. 각 주별 차트의 막대는 투석 환자에 대한 앰뷸런스 서비스에 든 비용을 나타내며, 주황색 선은 주별 평균 비용을 의미합니다.

이 콘텐츠에서 인사이트를 도출하는 방은 크게 3가지로 볼 수 있는데, 일단 1) 특정 주의 특정 시점에 마우스 오버를 할 경우 나타나는 레이블 정보를 통해 각 주의 데이터를 비교할 수 있습니다. 예를 들어 위 사례 4 이미지는 '매사추세츠'(Mass.) 차트에서 마우스 오버의 위치를 연도별로 달리하고 있음을 보여줍니다. 마우스 오버의 위치를 달리할 때마다 각 연도와 해당 연도의 비용 정보가 레이블로 표시되는데, 이 정보를 근거로 각 주의 특정 연도의 데이터를 비교할 수 있습니다. 2) 막대 차트의 시각적 패턴을 바탕으로 주별 특징을 도출할 수 있습니다. 비용이 꾸준히 증가하는 주와 최근 비용이 감소하고 있는 주 등을 기준으로 삼아 그룹화해보고 인사이트를 정리할 수 있습니다. 마지막으로 3) 개별 차트의 막대그래프와 주황색 선의 형태를 비교해 보는 것입니다. 주황색 선은 주별 평균 데이터를 의미하므로, 각 주별 데이터와 평균 데이터를 비교해 서로 다른 패턴을 보이는지, 유사한 패턴을 보이는지 확인하여 인사이트를 도출할 수 있습니다.



3. 스몰 멀티플즈가 지도로? 스몰 멀티플즈의 변신


앞서 스몰 멀티플즈 활용 시 '각 차트 배치의 순서를 어떤 기준으로 할 것인가'가 중요한 이슈라고 언급하였습니다. '정렬의 기준을 무엇으로 할 것인가'에서 한 걸음 나아가 '차트를 어디에 혹은 어떻게 배치할 것인가'의 관점에서 중요한 인사이트를 주는 사례를 살펴보겠습니다. 

사례 5/ 출처 : The Economist, 'Why it is closing time for so many London pubs'

<The Economist>의 'Why it is closing time for so may London pubs'는 영국 자치구별 펍(pubs) 개수의 연도별 변화를 라인 차트로 시각화, 스몰 멀티플즈로 표현하였습니다. 각 자치구별 차트 왼쪽 하단의 버블은 2016년 기준으로 펍의 개수를 시각화한 것입니다. 눈으로 보았을 때 직관적으로 알 수 있듯이, 해당 콘텐츠에서 각 자치구를 나타내는 차트는 자치구의 지리적 위치에 근거해 배치되었습니다. 따라서 지리 정보의 의미 맥락에 따라 또 다른 관점의 시각화 인사이트를 발굴할 수 있습니다. 가령 각 자치구의 데이터를 비교하되, 그 관점을 템스강을 기준으로 위쪽에 위치한 지역과 아래쪽에 위치한 지역으로 나누어서 살펴볼 수 있습니다.

사례 6/ 출처 : The Newyork Times, 'The Assalut Colleges - and the American Dream'

이와 유사한 형태의 시각화 콘텐츠를 다수 확인할 수 있습니다. 지역 단위를 기준으로 한 스몰 멀티플즈 유형의 배치를 지리적 위치 기반으로 한 형태의 시각화 유형을 Tile Grid Map이라고 부르기도 합니다.

사례 7/ 출처 : 뉴스젤리, '서울시 음식점 흥망성쇠 50년'

우리에게 조금 더 친숙한 사례로 저희가 제작한 '서울시 음식점 흥망성쇠 50년' 콘텐츠가 있습니다. 서울시 25개 자치구의 음식점 수 데이터를 사각형 모양의 도형의 컬러로 인코딩하여 시각화하되, 각 도형을 자치구의 지리적 위치를 고려하여 배치하였습니다. 이 경우 자치구의 위치에 대해 경험적으로 인식하고 있는 배경 지식을 바탕으로 데이터를 좀 더 쉽고 빠르게 이해할 수 있습니다. (정확하게는 각 자치구별 데이터를 차트로 표현하지 않았다는 점에서 앞선 사례와 차이가 있을 수 있지만, 지리 정보가 갖고 있는 의미 맥락에 따라 데이터 인사이트를 도출할 수 있다는 점을 이해하는데 도움이 되리라 판단하여 덧붙여 언급합니다.)




지금까지 시각화의 한계를 극복하는데 도움이 되는 시각화 방법으로 스몰 멀티플즈에 대해서 알아보았습니다. 데이터에서 유의미한 인사이트를 도출하기 위해 시각화했음에도 불구하고 오히려 복잡하게 표현되어 '시각화를 왜 했지?'하고 그 의미를 되묻게 되는 여러 상황에 유용하게 활용될 만한 방법입니다. 물론 스몰 멀티플즈로 표현한다고 해서 무조건 효과적이라고 볼 수 있는 것은 아닙니다. 한눈에 보기 어려울 정도로 매우 많은 항목의 개별 차트를 아무 맥락 없이 나열한다고 하면, 오히려 더 복잡해 보일 수 있습니다. 따라서 데이터 시각화에 대한 접근은 '어떤 시각화 유형을 선택할 것이냐'에 대한 고민 이전에 데이터를 통해 전달하고자 하는 핵심 메시지는 무엇인지를 명확히 하는 것이 중요합니다. 그 이후에 그 의도를 효과적으로 반영할 수 있는 '적합한' 시각화 유형을 선택하고, 독자의 이해를 도울 수 있는 방법은 무엇인지, 더 정확하고 잘 보여주기 위한 방법은 무엇인지 고민하고 실행하는 것이 순서라고 생각합니다. 이러한 점을 고려한다면, 시각화의 한계를 극복하는 방법으로서 스몰 멀티플즈의 활용도 더욱 빛나지 않을까요?


* 참고 자료
 · Juiceanalytics, 'Better Know a Visualization: Small Multiples'
 · Forum one, 'Good Data Visualization Practice: Small Multiples'


* 이 글의 원문 출처는 뉴스젤리 블로그 '[데이터 시각화] 시각화 유형의 한계를 극복하기 위한 시각화, 스몰 멀티플즈(Small Multiples)' 입니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari