brunch

You can make anything
by writing

C.S.Lewis

by Cheon Aug 05. 2016

데이터분석 종류에 따른 올바른 차트 타입 고르기

올바른 차트와 분석

대쉬보드를 처음 만들기 시작할 때, 가장 먼저 생각해야 할 것은 그 대쉬보드를 만드는 목적이다. 
목적을 분명히 안 후에는, 어떤 분석 타입이 그 목적을 가장 잘 달성할 수 있는지를 생각해 봐야 한다. 


이번 글에서는 그 분석 종류(타입)를 위한 가장 올바른 차트 타입 고르기에 대해 정리를 할 것이다. 


1. 시간에 따른 트렌드  


시간이 경과함에 따른 그 트렌드를 추적하는 방법은 데이터를 분석하는 데에 있어 가장 많이 사용하는 방법 중 하나이다. Tableau Software 회사에 따르면, 시간에 따른 그 트렌드를 보여주기 위한 가장 좋은 시각화 중에 line 차트, area 차트, bar 차트들이 있다고 한다. 

아래 라인 차트를 보면, 우리가 알 수 있는 것은 각 카테고리(각각의 다른 색깔 선)의 시간에 따른 트렌드와 카테고리들간의 차이점이다. 그러나 전반적인 세일즈 트렌드는 어떤가? 혹은, 예를 들어, 2월중 각 카테고리의 세일즈는 얼마였는지 정확하게 알 수가 있을까?



Figure 1: Line charts of Sales Trends in 2014 


라인 차트로는 저런 질문들에 답하기가 어렵다. 하지만 area 차트와 bar 차트로 답을 찾을 수 있다. 
그 두개의 차트로 우리는 시간에 따른 전체 세일즈 트렌드를 좀 더 자세하게 볼 수 있고 각 카테고리가 그 전체 세일즈에 얼마나 기여했는지도 볼 수 있다. 

그러나 이 두 차트간의 약간의 차이점은 있다. 
area 차트는 각 카테고리를 하나의 패턴으로 하는 반면 bar 차트는 각각의 달(Month)을 하나의 패턴으로 한다.



Figure 2: Area Charts of Sales Trends in 2014



Figure 3: Bar Charts of Sales Trends in 2014


2. 비교와 순위 매기기

데이터를 분석하는 또 다른 방법은 비교하고 순위를 매기는 것이다. 우리가 고객들이나 국가들을 비교하고 순위를 매길 때, 하나 혹은 둘 이상의 기준을 가지고 그 순위를 매긴다. 이렇게 순위를 매김으로써 각 고객들이나 국가들의 현재 위치와 어떻게, 얼마나 하고 있는 지에 대해 알 수 있다. 무언가를 비교하고 순위를 매길 때는 bar 차트를 쓰는 것이 좋은 방법이다. 왜냐하면 그 bar 차트가 비교하는 값들을 길이로 표현을 해주기 때문에 우리가 쉽게 이해하고 비교할 수 있기 때문이다. 



Figure 4: States Ranked by the Number of Sales


3. 연관성(Correlation)

측정하는 두 대상들 사이의 관계를 알 수 있다면 아주 유용할 것이다. 그 대상들 사이의 관계를 알기 위해서 간단한 연관분석(correlation analysis)으로 시작할 수 있다. 단순히 연관분석을 해서 그 대상들간의 관계가 뚜렷하게 나오지는 않을 수도 있다. 하지만 어떤 관계가 있을 것이다라는 것을 암시해 주기 때문에 우리가 어느 정도 그 관계를 추측할 수 있을 것이다. 


두 대상들 사이의 관계를 알기 위해서는 산포도(scatter plot)를 사용하는 것이 일반적이다. 



Figure 5: Trend Line between Discount and Sales


이 사진은 할인과 판매량 사이의 긍정적인 트렌드를 보여주는 산포도이다. 몇개의 원들은 그 트렌드와 직접적인 연관이 없긴 하지만, 전반적으로는 할인율이 증가할 때 판매량도 증가한다. 각 원들의 사이즈는 판매되는 아이템들의 양을 의미한다. 


산포도 방법 말고도, line 차트와 bar 차트를 사용할 수 있다. 두 개의 line 차트와 한 개의 bar 차트를 같이 보여줌으로써 다른 인사이트를 얻을 수 있다. 



Figure 6: Two Line Charts with a Bar Chart


이 데이터는 2014년도의 Superstore에 관한 데이터이다. 할인과 판매량 사이는 전반적으로 부정적인 관계에 있다. 다시 말하면, 할인율이 증가하면 판매량은 감소한다. 
또한 밑에 bar 차트를 보게 되면, 위에 두 대상간의 관계와 상관없이 2014년도의 초기 보다는 끝에(9월 이후) 더 많은 양의 아이템들이 있었다는 것을 알 수 있다. 


4. 분포 (Distribution)

분포 분석은 데이터 값들이 전체 범위들 사이에서 얼마나 퍼져있는지를 보여주는 방법이다. 이 방법을 효과적으로 이용하기 위해서 보통 사용하는 차트들은 box plot 그리고 히스토그램이다. 



    Figure 7: Box Plots


Box plot은 여러개의 분포들을 보여줄 때 좋다. 우리는 low values, 25th-percentile values, medians, 75th-percentiles, and maximum values 들을 볼 수 있다. (용수철 처럼 생긴 것의 각 라인들은 이런 값들을 보여준다.)


분포를 보여주는 다른 방법으로는 아까 언급한 히스토그램을 사용하는 것이다. 


Figure 8: Histogram


히스토그램을 사용하여 우리는 데이터를 나누고(bin을 사용해서,이 경우 0,2,4...) 각각의 세그먼트 안에서 데이터 값들을 따로 나눠서 볼 수 있다.(bin 0: 50.95%, 28.59%, 20.47%) 



5.  Part to Whole

Tableau Software 회사에 따르면, 두 가지 이유로 part to whole 분석을 할 때 파이 차트 사용을 피하라고 한다. 

- 인간의 시각적 기능은 기본적으로 부분(area)을 추정하는 것을 잘 못한다.
- 바로 옆에 있는 조각들(slices)만을 분석할 수 있다.


예를 들어, 아래에 있는 차트를 보자. White Collar job이 각 나이 그룹들과 비교했을 때 어떻게 다른지 설명할 수 있나? 



Figure 9: Pie Charts


파이 차트를 사용하는 대신에 bar 차트를 사용해보자. 



Figure 10: Bar Charts


이 bar 차트의 데이터는 저 파이 차트를 사용한 그림의 데이터와 같다. 하지만 이 막대 차트를 보면, 30-39 그룹의 white collar job이 가장 많다는 것을 알 수 있다. 


6.  Geographical Data

지도를 사용하는 것은 장소를 보여줄 때는 아주 좋은 방법이다. 그러나 좀 더 깊은 분석을 위해서는, 그 지도에 다른 차트들을 추가하면 더 효과가 있을 것이다. 

- bar 차트: sort from greatest to least
- line 차트: shows the trends
- a cross-tab: shows actual data



Figure 11: Pie Charts on a Map


이것은 각 주마다의 카테고리, 이익, 그리고 판매량에 관한 정보를 상세하게 보여주는 파이 차트들을 포함하는 미국의 지도이다. 지도에 파이 차트들을 사용함으로써, 각 주의 각각의 카테고리가 얼마나 소비되는지를 쉽게 볼 수 있다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari