brunch

You can make anything
by writing

C.S.Lewis

by 강원양 Aug 04. 2019

선 하나 더 그었을 뿐인데.. 그래프가 달라진 이유!

더 나은 시각화 그래프를 그리는 간단한 방법 3가지

우리가 데이터 시각화 그래프를 만드는 이유는 데이터의 의미를 시각적으로 빠르게 파악하기 위함입니다. 다양한 시각화 그래프 유형들은 제각기 다른 목적으로 활용되곤 하는데요! 이는 곧  시각화 그래프 하나만으로 모든 데이터 인사이트를 찾을 수 없다는 것을 의미하기도 합니다. 따라서 우리는 데이터 시각화 그래프를 만들 때 자신의 의도를 최대한 효과적인 방법으로 표현할 수 있는 방법을 찾아야 하는데요!


오늘은 시각화 그래프의 부가 요소를 활용하여, 더 나은 시각화 그래프를 만드는 방법에 대해 알아봅니다.




1. 시각화 그래프의 부가 요소 활용하기


우리가 보고 만드는 시각화 그래프에는 데이터를 표현한 시각화 요소(도형) 이외에도 다양한 요소를 포함할 수 있습니다. 

시각화 그래프의 구성 요소

시각화 그래프의 부가 요소라 하면 제목, X축, Y축, 범례 등을 떠올릴 수 있는데요! 이들은 시각화 그래프에서 데이터의 의미를 정확하게 읽을 수 있도록 도움을 주는 요소라고 할 수 있습니다. 이를 활용하면 우리는 시각화 그래프로 표현된 데이터가 무엇인지, 데이터를 해석할 때 무엇을 기준으로 크고 작음을 비교해야 할지 등 데이터 해석을 위한 기본적인 정보를 파악할 수 있습니다.


시각화 그래프의 부가 요소를 활용해 어떻게 시각화 그래프를 더 효과적으로 만들 수 있을지 사례를 통해 자세히 알아보도록 하겠습니다!


1.1 시각화 그래프에 텍스트 더하기


그래프의 제목, X축, Y축, 범례 등이 그래프를 보조하는 수단으로써 활용된다면 보다 직관적으로 그래프 영역 내 특정 요소를 직접 표기하여 그래프를 통해 전달하고자 하는 핵심 데이터 인사이트를 직접 노출하는 방법도 있습니다. 가장 흔한 사례가 그래프 영역 내 글자로 내용을 작성하여 인사이트를 바로 찾을 수 있도록 하는 것입니다.

2017년 일별 서울시 배달 업종 이용 현황 분석

위 그래프를 사례로 살펴볼까요? 위 그래프는 2017년 한 해 동안 서울시에서 치킨, 중국음식 배달 업종 이용 추이를 시각화 한 선 그래프입니다. 그래프 영역 중 특정 시점의 날짜가 텍스트로 표기된 것을 볼 수 있는데요! 이처럼 그래프 영역 내 시각화 요소의 특정 부분에 텍스트로 해당 정보를 직접 표기하는 것을 데이터 레이블이라고 합니다. 시각화 그래프에 데이터 레이블을 표시하면, 그래프를 보는 사람의 시선이 텍스트로 먼저 이동하도록 유도할 수 있습니다. 이 경우 그래프를 만든 사람이 자신이 전달하고자 하는 데이터 인사이트를 사람들이 먼저 찾을 수 있도록 하는 효과를 얻을 수 있습니다. 위 그래프에서는 데이터가 급증하거나 급락한 시점의 날짜를 텍스트로 표기하여, 데이터가 급변한 시점은 언제이고, 어떤 일이 있었을지에 대해서 사람들이 빠르게 생각해 볼 수 있도록 합니다.


한편, 시각화 그래프의 특정 부분에 해당 정보를 표기하는 방법 외에, 직접 데이터 인사이트를 문장으로 표기하는 경우도 있습니다.

발행 연도별 과학 연구 자료의 이용 가능성 현황 (출처 : The Pudding, 'A Chronicle of the Anti-vaccination Movement')

위 막대그래프는 발행 연도별 과학 연구 자료의 이용 가능성 현황을 보여줍니다. 그래프  영역 내 '1993년 혹은 그 이전의 경우 데이터 접근 가능성이 거의 10% 이하 수준이었다'는 문장이 표기된 것을 볼 수 있는데요! 시각화 차트를 통해 알 수 있는 데이터 인사이트를 직접적으로 표기하여 그래프를 오래 보고 있지 않더라도 빠르게 의미를 찾을 수 있다는 것이 장점입니다.


이와 같이 그래프 영역 내 데이터 인사이트를 직접 문장으로 서술하여 표기하는 것을 어노테이션(Annotation)이라고 합니다. 어노테이션을 한글로 하면 '주석'으로 말 그대로 차트를 설명하는 부연 설명을 차트 영역 내 표시하는 것을 말합니다.


1.2 시각화 그래프에 선 긋기


시각화 그래프에는 기본적으로 선이 많이 사용됩니다. 앞서 시각화 그래프의 구성 요소로 살펴본 X축, Y축도 선이라고 볼 수 있죠! 이 뿐만 아니라 추가로 선을 더해 시각화 그래프가 전하는 데이터 인사이트를 강조하는 방법이 있는데요! 참조선과 추세선이 여기에 해당합니다.


먼저, '참조선'에 대해 알아볼까요? 참조선은 데이터 해석에 참조할만한 정보를 제공하는데요! 사례를 통해 참조선이 무엇인지, 왜 이를 사용하면 효과적인지 알아보겠습니다.

연도별 미세먼지(PM10) 농도 (황사 일자 제외 평균값), 2001-2016, 국립환경과학원

위 선 그래프는 우리나라의 연도별 미세먼지(PM10) 농도를 시각화한 것입니다. 그래프 상단을 보면 미세먼지 환경 기준을 의미하는 파란색 참조선이 수평으로 그어진 것을 볼 수 있는데요! 우리는 이 참조선을 기준으로 연도별 미세먼지의 수준이 높았는지 반대로 낮았는지를 판단 할 수 있습니다.


다음으로 그래프에 그릴 수 있는 또 다른 선, '추세선'에 대해서도 알아보겠습니다.

일별 콜택시 이용 통화량 추이 변화 (2016년 12월 기준, skt data hub)

위 선 그래프는 2016년 12월 한 달 동안 전국 지역별 일별 콜택시 이용 통화량 추이를 시각화 한 것입니다. 먼저 그래프 영역을 보면, 최댓값과 최솟값이 데이터 레이블로 표시된 것을 볼 수 있습니다. 또 지역별 데이터를 시각화 한 영역에 짙은 회색 점선이 있는 것을 볼 수 있는데요! 이 짙은 회색 점선이 데이터의 추이 변화의 경향을 보여주는 추세선입니다. 추세선의 기울기에 따라서 데이터의 변화 정도를 알 수 있고, 또 그 방향에 따라 증가하는 추세인지, 감소하는 추세인지 쉽게 파악할 수 있습니다.



2. 시각화 요소의 색 바꾸기


그래프에 특정한 부가 요소를 더하지 않고, 색을 활용해 자신이 의도한 메시지를 강조하는 시각화 그래프를 만들 수도 있습니다. 


2.1 일반적인 시각화 그래프에서 색을 다르게 사용하는 방법

일별 콜택시 이용 통화량 추이 변화 (2016년 12월 기준, skt data hub)

앞서 위에서 살펴본 시각화 그래프를 다시 한번 살펴볼까요? 지역별 데이터를 의미하는 선 뒤로 회색 음영 처리된 영역이 보이시나요? 일반적인 그래프에서 흔히 볼 수 없는 모습일 텐데요! 왜 이런 영역이 표시된 것일까요? 기간 내 데이터의 최댓값과 최솟값을 기준으로 색을 칠한 이 영역은 데이터의 변동 폭을 직관적으로 파악할 수 있도록 합니다. 영역이 크면 클수록 데이터의 변동 폭이 큰 것이고, 그렇지 않은 경우 비슷한 수준을 유지했다는 것을 직관적으로 알 수 있습니다.


또 다른 사례도 알아봅시다!

요일별, 시간별 출생아 비중 (출처 : storytelling with data 블로그)

위 그림은 요일별, 시간별 출생아 비중을 시각화 한 100% 누적 막대 그래프입니다. 왼쪽 그래프와 오른쪽 그래프의 차이는 무엇인가요? 가장 먼저 차트에 활용된 색의 가짓 수가 다르다는 것을 알 수 있습니다. 왼쪽 그래프의 경우 시간 범위별로 각기 다른 색을 사용했지만, 오른쪽 그래프는 새벽 12시부터 5시 59분 사이의 데이터만 푸른 계열로 표현하고, 나머지 시간대는 모두 회색으로 표현했습니다. 왼쪽 그래프 보다 오른쪽 그래프에서 시각화 그래프를 만드는 사람이, 이를 보는 사람들이 먼저 집중해서 보길 원하는 것이 무엇인지 쉽게 짐작할 수 있습니다.


뿐만 아니라 푸른 계열로 표현한 부분 중에서도 데이터의 크기에 따라 색의 짙고 옅음을 다르게 표현하여, 주말로 갈수록 데이터가 증가한다는 것도 쉽게 파악할 수 있도록 하였습니다. (참고로 오른쪽 그래프의 경우 색의 활용뿐만 아니라, 핵심 데이터 인사이트를 차트 제목으로 작성하여 더욱 효과적으로 메시지를 전달한 사례로 볼 수도 있습니다!)


2.2 지도 시각화에서 색을 활용하는 방법


그렇다면 일반적인 그래프 말고 지도 시각화에서도 색을 다르게 활용하는 방법이 있을까요? 지도 시각화 제작시 데이터를 의미하는 시각화 요소를 배치할 배경을 무엇으로 하느냐에 따라서 그 효과가 달라집니다. 쉽게 말해, 일반적인 그래프에서 색을 바꾸는 것을 지도 시각화에서는 지도의 배경을 바꾸는 것과 동일하다고 볼 수 있죠!


이해를 더하기 위해 지도를 구성하는 요소인 계층(layer)에 대해 짚고 넘어가보겠습니다.

지도의 계층 (출처 : Caliper)

지도는 점, 선, 면의 요소로 표현된 여러 개의 계층을 겹쳐 놓은 것이라고 볼 수 있습니다. 계층의 대표적인 예는 국가/지역을 나누는 경계선, 해안선, 도로 및 고속도로 등을 예로 들 수 있는데요! 이 중 어떤 요소를 계층으로 선택하여 활용하느냐에 따라서, 또 어떤 색으로 이를 표현하느냐에 따라서 지도의 스타일이 달라집니다.

다양한 지도 스타일 (출처 : Mapbox)

지도 스타일이 달라지면, 그 위에 데이터를 시각화 요소로 표현한 지도 시각화를 통해 메시지를 전달할 때 그 효과도 달라지기 마련인데요! 따라서 지도 시각화로 데이터를 표현하고자 한다면, 어떤 스타일의 지도가 데이터 인사이트를 효과적으로 전달하는 데 도움이 될지 판단하고 사용할 필요가 있습니다.

허리케인 마리아로 발생한 푸에르토리코 정전 사태 지도 시각화 (출처 : The Washington Post)

위 지도 시각화는 미국 언론사 워싱턴 포스트가 발행한 '허리케인 마리아 그 후, 111일, 17시간, 1분 동안 어둠 속에 있던 푸에르토리코 지역'이라는 기사에 포함된 시각화 자료입니다. 허리케인 마리아로 인해 발생한 푸에르토리코 정전 사태의 심각성을 보여주는데요! 지도 위 데이터의 크기를 색으로 표현한 히트맵 유형을 활용하였는데, 일반적인 지도와 달리 어두운 배경 지도를 활용한 것이 눈에 띕니다!


왜 어두운 배경 지도를 사용했을까요? 이는 지역별 밤 시간대의 불빛 정도를 색으로 표현하는데 효과를 더하기 위해서였는데요! 시점별 도시의 불빛 정도의 차이를 직관적으로 파악할 수 있습니다. 정전이라는 주제의 데이터를 표현하는데 매우 적합한 지도 스타일을 활용해, 시각화를 통한 데이터 인사이트 전달 효과가 극대화된 사례라고 할 수 있습니다.



3. 같은 차트를 한 번 더, 확대해서 그리기


앞서 살펴본 1, 2의 방법보다 단순하지만, 충분한 효과를 낼 수 있는 방법도 있습니다. 1, 2의 방법이 시각화 그래프에 부가 요소를 더하거나, 색을 바꾸는 등의 노력이 필요하다면, 이번에는 그래프 자체를 변경하지 않아도 됩니다. '무슨 이야기인지...?'라는 생각이 드시나요? 사례를 통해 알아보도록 하겠습니다.

미국 역대 홍역 발생 현황 (출처 : The Washington Post)

위 그래프를 볼까요? 왼쪽의 작은 선 그래프와 오른쪽의 선 그래프는 무엇이 다를까요? 자세히 살펴보면, 두 선 그래프가 표현한 데이터의 기간이 다르다는 것을 알 수 있습니다. 왼쪽의 작은 선 그래프는 1950년 이래로 현재까지 발생한 홍역 현황 전체 추이를 보여주지만, 오른쪽 선 그래프는 1990년 이래로 홍역 발생 현황 추이만 나타냅니다.


왜 이렇게 시각화한 것 일까요? 그 이유는 1950년 이래로 홍역 발생 현황을 보면, 워낙 1950-60년대의 홍역 발생 수가 압도적이기 때문에, 하나의 선 그래프로는 1990년 이후 시점의 데이터 변화를 파악하기 어렵기 때문입니다. 따라서 이러한 한계를 극복하기 위해 왼쪽 그래프로는 데이터의 변화를 보여주기 어려운 시점의 데이터만 따로 보기 위해 별도의 그래프를 그린 것입니다. 오른쪽 선 그래프에서는 왼쪽의 경우와 달리 1990년 이후의 데이터 변화를 직관적으로 파악할 수 있다는 것을 알 수 있습니다.

동일한 데이터 시각화 그래프의 부분을 확대하여 표현하는 방법(출처 : 책 '진실을 드러내는 데이터 시각화의 과학과 예술')

이처럼 시각화 그래프에서 데이터 표현 범위가 너무 넓어서 시각화 요소로 데이터의 변화를 파악하기 어렵거나, 또 시각화 요소가 너무 많이 밀집되어 있어 상세한 데이터 패턴을 알기 어려운 경우, 특정 부분만 확대한 별도의 차트를 함께 나열하면, 전하고자 하는 데이터 인사이트를 효과적으로 전달할 수 있습니다.




지금까지 데이터 시각화 그래프를 좀 더 효과적으로 만드는 3가지 방법에 대해 자세히 알아보았습니다. 시각화 그래프 영역에 부가 요소를 더하거나, 조금 색다른 방법으로 색을 활용하는 방법 또 단순하지만 간단히 동일한 그래프를 확대하여 한 장 더 그리는 방법을 통해 우리는 각자 자신이 전달하고자 하는 데이터 인사이트를 가장 효과적으로 전달할 방법을 찾고 적용할 수 있습니다.


여러분이 만든 시각화 그래프는 여러분이 의도한 데이터 인사이트를 얼마나 정확하게, 또 얼마나 효과적으로 전달하고 있나요? 이번 글을 통해 더 나은 시각화를 만드는 방법을 고민하고 시도할 수 있는 계기가 되었길 바라며 글을 마무리합니다.


* 이 글의 원문 출처는 뉴스젤리 블로그 '선 하나만 그었을 뿐인데...! 시각화 그래프가 확 달라진 이유'입니다.

매거진의 이전글 알아야 보인다! 사람들은 잘 모르는 데이터 시각화 약점
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari