올바른 차트와 분석
대쉬보드를 처음 만들기 시작할 때, 가장 먼저 생각해야 할 것은 그 대쉬보드를 만드는 목적이다.
목적을 분명히 안 후에는, 어떤 분석 타입이 그 목적을 가장 잘 달성할 수 있는지를 생각해 봐야 한다.
이번 글에서는 그 분석 종류(타입)를 위한 가장 올바른 차트 타입 고르기에 대해 정리를 할 것이다.
1. 시간에 따른 트렌드
시간이 경과함에 따른 그 트렌드를 추적하는 방법은 데이터를 분석하는 데에 있어 가장 많이 사용하는 방법 중 하나이다. Tableau Software 회사에 따르면, 시간에 따른 그 트렌드를 보여주기 위한 가장 좋은 시각화 중에 line 차트, area 차트, bar 차트들이 있다고 한다.
아래 라인 차트를 보면, 우리가 알 수 있는 것은 각 카테고리(각각의 다른 색깔 선)의 시간에 따른 트렌드와 카테고리들간의 차이점이다. 그러나 전반적인 세일즈 트렌드는 어떤가? 혹은, 예를 들어, 2월중 각 카테고리의 세일즈는 얼마였는지 정확하게 알 수가 있을까?
Figure 1: Line charts of Sales Trends in 2014
라인 차트로는 저런 질문들에 답하기가 어렵다. 하지만 area 차트와 bar 차트로 답을 찾을 수 있다.
그 두개의 차트로 우리는 시간에 따른 전체 세일즈 트렌드를 좀 더 자세하게 볼 수 있고 각 카테고리가 그 전체 세일즈에 얼마나 기여했는지도 볼 수 있다.
그러나 이 두 차트간의 약간의 차이점은 있다.
area 차트는 각 카테고리를 하나의 패턴으로 하는 반면 bar 차트는 각각의 달(Month)을 하나의 패턴으로 한다.
Figure 2: Area Charts of Sales Trends in 2014
Figure 3: Bar Charts of Sales Trends in 2014
2. 비교와 순위 매기기
데이터를 분석하는 또 다른 방법은 비교하고 순위를 매기는 것이다. 우리가 고객들이나 국가들을 비교하고 순위를 매길 때, 하나 혹은 둘 이상의 기준을 가지고 그 순위를 매긴다. 이렇게 순위를 매김으로써 각 고객들이나 국가들의 현재 위치와 어떻게, 얼마나 하고 있는 지에 대해 알 수 있다. 무언가를 비교하고 순위를 매길 때는 bar 차트를 쓰는 것이 좋은 방법이다. 왜냐하면 그 bar 차트가 비교하는 값들을 길이로 표현을 해주기 때문에 우리가 쉽게 이해하고 비교할 수 있기 때문이다.
Figure 4: States Ranked by the Number of Sales
3. 연관성(Correlation)
측정하는 두 대상들 사이의 관계를 알 수 있다면 아주 유용할 것이다. 그 대상들 사이의 관계를 알기 위해서 간단한 연관분석(correlation analysis)으로 시작할 수 있다. 단순히 연관분석을 해서 그 대상들간의 관계가 뚜렷하게 나오지는 않을 수도 있다. 하지만 어떤 관계가 있을 것이다라는 것을 암시해 주기 때문에 우리가 어느 정도 그 관계를 추측할 수 있을 것이다.
두 대상들 사이의 관계를 알기 위해서는 산포도(scatter plot)를 사용하는 것이 일반적이다.
Figure 5: Trend Line between Discount and Sales
이 사진은 할인과 판매량 사이의 긍정적인 트렌드를 보여주는 산포도이다. 몇개의 원들은 그 트렌드와 직접적인 연관이 없긴 하지만, 전반적으로는 할인율이 증가할 때 판매량도 증가한다. 각 원들의 사이즈는 판매되는 아이템들의 양을 의미한다.
산포도 방법 말고도, line 차트와 bar 차트를 사용할 수 있다. 두 개의 line 차트와 한 개의 bar 차트를 같이 보여줌으로써 다른 인사이트를 얻을 수 있다.
Figure 6: Two Line Charts with a Bar Chart
이 데이터는 2014년도의 Superstore에 관한 데이터이다. 할인과 판매량 사이는 전반적으로 부정적인 관계에 있다. 다시 말하면, 할인율이 증가하면 판매량은 감소한다.
또한 밑에 bar 차트를 보게 되면, 위에 두 대상간의 관계와 상관없이 2014년도의 초기 보다는 끝에(9월 이후) 더 많은 양의 아이템들이 있었다는 것을 알 수 있다.
4. 분포 (Distribution)
분포 분석은 데이터 값들이 전체 범위들 사이에서 얼마나 퍼져있는지를 보여주는 방법이다. 이 방법을 효과적으로 이용하기 위해서 보통 사용하는 차트들은 box plot 그리고 히스토그램이다.
Figure 7: Box Plots
Box plot은 여러개의 분포들을 보여줄 때 좋다. 우리는 low values, 25th-percentile values, medians, 75th-percentiles, and maximum values 들을 볼 수 있다. (용수철 처럼 생긴 것의 각 라인들은 이런 값들을 보여준다.)
분포를 보여주는 다른 방법으로는 아까 언급한 히스토그램을 사용하는 것이다.
Figure 8: Histogram
히스토그램을 사용하여 우리는 데이터를 나누고(bin을 사용해서,이 경우 0,2,4...) 각각의 세그먼트 안에서 데이터 값들을 따로 나눠서 볼 수 있다.(bin 0: 50.95%, 28.59%, 20.47%)
5. Part to Whole
Tableau Software 회사에 따르면, 두 가지 이유로 part to whole 분석을 할 때 파이 차트 사용을 피하라고 한다.
- 인간의 시각적 기능은 기본적으로 부분(area)을 추정하는 것을 잘 못한다.
- 바로 옆에 있는 조각들(slices)만을 분석할 수 있다.
예를 들어, 아래에 있는 차트를 보자. White Collar job이 각 나이 그룹들과 비교했을 때 어떻게 다른지 설명할 수 있나?
Figure 9: Pie Charts
파이 차트를 사용하는 대신에 bar 차트를 사용해보자.
Figure 10: Bar Charts
이 bar 차트의 데이터는 저 파이 차트를 사용한 그림의 데이터와 같다. 하지만 이 막대 차트를 보면, 30-39 그룹의 white collar job이 가장 많다는 것을 알 수 있다.
6. Geographical Data
지도를 사용하는 것은 장소를 보여줄 때는 아주 좋은 방법이다. 그러나 좀 더 깊은 분석을 위해서는, 그 지도에 다른 차트들을 추가하면 더 효과가 있을 것이다.
- bar 차트: sort from greatest to least
- line 차트: shows the trends
- a cross-tab: shows actual data
Figure 11: Pie Charts on a Map
이것은 각 주마다의 카테고리, 이익, 그리고 판매량에 관한 정보를 상세하게 보여주는 파이 차트들을 포함하는 미국의 지도이다. 지도에 파이 차트들을 사용함으로써, 각 주의 각각의 카테고리가 얼마나 소비되는지를 쉽게 볼 수 있다.