4.2 데이터 시각화
데이터를 보여주는 방법에는 여러가지가 있습니다. 표로 데이터 내용을 있는 그대로 보여줄 수도 있고, 산포도, 히스토그램 등으로 나타낼 수도 있습니다. 보통 ‘데이터 시각화’라고 하면, 표처럼 데이터의 변수 값들을 있는 그대로 보여주는 것 보다는, 히스토그램, 산포도 등과 같이 한눈에 볼 수 있는 형태로 가공된 것을 일컫습니다. 여기서 가공의 핵심은 변수 값을 어떤 시각화 요소(Visualization Element/Aesthetic/Channel)로 치환하는 것으로, 여기서 시각화 요소란 이를 테면 도형의 크기나, 색상 같은 것입니다.
[그림 1] 세계 국가별 인구 밀도. 수치 시각화 요소 = 색상
예를 들어 [그림 1]은 세계 인구 밀도 라는 수치형 변수를 클수록 진해지는 색상으로 치환한 것입니다. [그림 2]는 국가별 GDP 데이터를 시각화 한 것인데, 같은 세계 지도지만 이번에는 수치형 변수를 넓이로 치환했습니다.
[그림 2] 세계 국가별 GDP. 수치 시각화 요소 = 넓이
시각화 요소는 색상과 크기 외에도 점/선/면의 위치, 기울기, 굵기 등 다양합니다. 또 시각화 요소마다 장/단점이 있어서 어떤 요소는 정확한 전달이 장점이고, 어떤 요소는 전체적인 패턴을 강조할 수 있습니다.
[그림 3] 양적 표현이 가능한 시각화 요소들 + 정확도 성능
[그림 3][3]은 수치형 변수 표현이 가능한 시각화 요소들 몇 가지를 보여주고 있는데, 정보 전달의 정확성을 기준으로 위에서부터 나열되어 있습니다. 여기에 길이(Length)는 각도(Angle)보다 정확한 전달에 좋다고 나오는데요, 정말 그런가 확인해 보도록 합시다.
[그림 4] 시각화 요소 전달력 비교: 각도 vs 길이
[그림 4][4]의 위쪽은 '각도'(Pie-chart)로 수치를 표시했고, 아래쪽은 '길이'(Bar-plot)로 같은 수치를 표시한 것입니다. 보는 사람이 각도를 보고 a, b, c, d, e의 양적 순서를 파악하는 것은 거의 불가능하지만, 길이로는 쉽게 비교가 됨을 확인할 수 있습니다.
갑자기 장황하게 시각화 요소라는 것을 설명한 이유는 이것이 다양한 시각화 도구를 분류하는 중요한 기준 중 하나이기 때문입니다. 시각화 도구들을 분류하는 방식은 여러가지가 있지만, 1) 어떤 데이터를 나타내느냐, 2) 어떤 시각화 요소를 썼느냐, 3) 어떤 내용을 표현하고자 하느냐에 따라서 분류하는 것이 일반적 입니다.
예를 들어 산포도는 두 개의 수치형 변수 값을, 좌표 축 상의 위치로 치환하여, 데이터의 분포나 변수간 상관 관계를 표현하고자 하는 시각화 도구입니다. 또, 파이 차트(Pie Chart)나 트리맵(Treemap)은 한 개 범주형 변수로 구분되는 각 집단의 크기를, 도형의 넓이로 치환하여, 데이터의 분포를 표현하고자 하는 것입니다. 몇몇 데이터 시각화 도구를 이런 기준으로 분류하면 [표 1]과 같습니다.
[표 1] 시각화 도구 분류
데이터 시각화의 목적은 다음과 같습니다.
데이터의 특징을 다른 사람에게 명료하게 전달한다.
데이터에서 스스로 인사이트(Insight)를 얻는다.
데이터를 숫자 그대로 보는 것 보다는 여러 시각화 요소를 통해 보면 전달력도 높아지고 인사이트도 얻을 수 있는 것입니다. 시각화는 데이터 분석 초기 단계에서 가장 중요한 일이라고 할 수 있습니다.
시각화 도구는 종류가 많고, 각각 사용시 주의 사항도 있습니다. 웹 상에는 시각화 도구를 잘 설명해 놓은 사이트들이 많습니다.[5][6] 이를 활용해 각 도구들의 장단점을 파악해 둔다면 큰 효과를 볼 수 있을 것입니다.
[4] 각도 vs 길이 https://www.data-to-viz.com/caveat/pie.html