brunch

You can make anything
by writing

C.S.Lewis

by HEARTCOUNT팀 Apr 19. 2022

데이터를 효과적으로 시각화 하는 방법

데이터 시각화의 중요성은 다들 잘 아실 겁니다. 데이터 분석 결과를 효과적으로 공유하기 위해서는 데이터 시각화의 기본 문법과 원칙들을 이해하고 있어야 합니다.


데이터를 시각적으로 표현하기 위해서 우리는 차트를 이용합니다. 그런데 문제는 차트의 종류가 매우 다양하다는 것입니다. 데이터를 열심히 분석하고 모델링하여 시각적으로 표현하려고 하는데, 이때 차트 유형을 잘못 선택하게 된다면 그 정보를 전달 받은 이들의 이해를 끌어내지 못할 수 있습니다. 


지금부터 분석 결과를 효과적으로 전달할 수 있는 적절한 데이터 시각화 방식을 결정하기 위해서 거쳐야 할 몇 가지 단계를 살펴보고 시각화 종류 별로 어울리는 상황과 어울리지 않는 상황에 대해서 다루어 보겠습니다. 



데이터 시각화 방식을 결정하는 단계


● 데이터가 전달하려는 스토리와 전달 대상 파악하기


가장 먼저 알아야 할 것은 데이터가 전달하려고 하는 스토리입니다. 


데이터는 숫자로 이루어진 이야기입니다. 데이터를 왜, 어떤 과정으로 수집했는지와 데이터를 통해 결론적으로 전달하고자 하는 스토리를 이해한다면 차트 유형을 선택하는 데 큰 도움이 될 것입니다.


데이터를 매개로 하여 전달할 스토리를 파악했다면 이제 데이터를 전달할 대상을 알아야 합니다. 예를 들어 마케팅 분야에서 오랜 시간 근무하여 다양한 이력을 지니고 있는 시니어 마케터에게 마케팅 결과를 발표하는 것과 이제 막 마케팅에 대해서 공부를 시작한 학생들을 대상으로 마케팅의 결과를 발표하는 것에는 다른 차트 유형을 사용해야 한다는 건 누구나 아는 사실일 겁니다. 전달 대상에게 맞는 데이터 시각화를 해야 가장 효율적인 전달이 가능합니다. 


● 데이터의 크기 및 유형과 관계 파악하기


데이터의 크기는 차트 유형을 선택하는 데 아주 큰 영향을 미칩니다. 데이터의 크기에 따라서 표현이 불가능한 차트가 있습니다. 원형 차트같은 경우에는 적은 수의 데이터 셋을 잘 표현하는 반면 많은 수의 데이터 셋을 표현하기에는 비합리적입니다. 데이터의 양이 방대한 경우라면 산점도를 활용하는 것이 더 합리적입니다.


데이터의 유형은 연속, 정성, 범주와 같이 매우 다양합니다. 유형에 따라서 적합한 시각화 방법이 다릅니다. 예를 들어 연속형 데이터의 경우 대표적으로 시간 데이터가 있습니다. 이 경우에는 막대 차트보다는 꺾은 선형 차트가 적합합니다. 반면 학년과 같은 범주형 데이터의 경우에는 막대형 차트가 적합하죠. 데이터의 유형뿐만 아니라 관계 역시 파악이 필요합니다. 데이터의 요소들이 순위를 나타내지는 않는지, 서로 상관관계에 있지는 않은지와 같은 관계를 파악한다면 전달하기에 더 용이한 차트를 선택할 수 있습니다. 



시각화 종류 별 어울리는 상황과 어울리지 않는 상황


차트를 결정하기 전에 파악해야 할 것들에 대해서 간단하게 알아 보았습니다. 이제부터는 실제 차트를 종류 별로 살펴 보면서 어떤 때에 사용하면 좋고, 또 어떤 때에 사용하지 말아야 할지에 대해서 살펴 봅시다. 너무 다양한 차트 유형이 존재하기 때문에 모든 시각화 방법을 다루어 보기는 어려워 네 가지만 다루어 보겠습니다.


각 예시 이미지는 HEARTCOUNT를 통해 한스로슬링의 데이터셋을 시각화한 것입니다. 


<막대 차트>

보시는 것처럼 막대차트는 가로와 세로 모두 사용됩니다. 범주형 데이터를 시각화할 때 주로 사용되며 카테고리의 수가 많을 때는 가로형 막대차트를, 카테고리의 수가 적을 때는 세로형 막대 차트를 사용합니다. 


• 사용하기 좋은 경우

- 특정 값이 중요해 다른 값과의 비교를 통해서 강조하고자 하는 경우

- (가로형 막대 차트의 경우) 양수와 음수 값을 모두 포함하고자 하는 경우


• 사용하기 좋지 않은 경우

- 범주의 개수가 너무 많은 경우 


<라인 차트>

• 사용하기 좋은 경우

- 시계열 데이터를 사용하여 시간의 흐름에 따른 측정값의 변화를 표시하려고 하는 경우


<산점도 (scatter plot)>

• 사용하기 좋은 경우

- 두 숫자형 변수의 관계를 파악하고 싶은 경우

- 데이터의 분포나 클러스터링을 파악하고 싶은 경우 


<박스플로 (box plot)>

• 사용하기 좋은 경우

- 서로 다른 범주 간, 측정값 분포의 차이를 이해하고자 하는 경우

- 이상값을 알고자 하는 경우  



지금까지 데이터 시각화를 '잘' 하는 법에 대해서 알아 보았습니다.

어느 시각화 유형을 선택하더라도 단순할수록 좋다는 점을 꼭 기억하세요. 필요 이상의 현란한 색상이나 글씨체는 시각화의 가장 큰 장점인 전달력을 감소시킬 수 있습니다. 

다음 글에서는 마케팅 영역에서 시각화가 필요한 상황을 가정하여 위 단계에 따라서 시각화를 해 보도록 하겠습니다.



실무자를 위한 데이터 분석 솔루션, 하트카운트
지금 사용해보기


하트카운트 뉴스레터 구독하기는 여기를 클릭해주세요.

하트카운트 도입, 견적 및 구축 문의는 여기를 클릭해주세요.
(협업 문의는 support@idk2.co.kr로 부탁드립니다.)

여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로'에 참여하세요.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari