시각화 유형 알아보기 I Ternary Plot
데이터 시각화 유형을 선택할 때 고려하는 것은 무엇이 있을까? 전달하고자 하는 데이터 인사이트의 목적에 맞는 시각화 유형을 선택하는 것이 한 가지 방법이라면, 다른 한 가지 방법은 시각화에 활용하고자 하는 데이터 변수의 조합을 고려해 시각화 유형을 선택하는 것이다.
시각화에 있어서 데이터 유형은 범주형(Categorical)과 수치형(Measure) 두 가지로 나눌 수 있다. 범주형 변수는 주로 텍스트 형태로 데이터 값을 각각 하나의 항목으로 구별할 수 있는 것이다. 반면, 수치형 변수는 계산이 가능한 숫자 형태를 띤다.
모든 시각화 유형은 각 유형별로 표현할 수 있는 데이터 변수의 조합이 정해져 있다. 예를 들어 위 이미지의 막대 차트와 파이 차트는 각 항목을 구분 지을 수 있는 범주형 변수 1개와 숫자 값인 수치형 변수 1개의 조합으로 만들어진 시각화 차트이다.
오늘 소개하고자 하는 시각화 유형 Ternary Plot은 수치형 변수 3개를 이용하여 만들 수 있는 시각화 유형 중 하나이다. 자주 활용되는 시각화 유형은 아니지만, 최근 해외 시각화 콘텐츠 등에서 종종 그 모습을 드러내고 있어 간단히 정리해보고자 한다.
시각화 유형 Ternary Plot(Graph)은 정삼각형 모양이라는 이유로 Triangle Plot(Graph)이라고도 불린다. (그 외 Trilinear Plot/Graph, Simplex Plot, De Finetti Diagram, Gibbs Triangle으로 불리기도 한다.) 수치형 변수 3개를 활용해 만들 수 있는 시각화 유형으로 수치형 변수(지표) 간 관계를 파악할 수 있다. 위 오른쪽 이미지는 Ternary Plot에 활용된 데이터 표의 예로 '가, 나, 다' 값으로 구성된 변수는 범주형 변수, 'A', 'B', 'C'는 수치형 변수이다. 일반적으로 수치형 변수는 비율을 나타낸다.
데이터를 Ternary Plot으로 시각화하는 방법을 간단히 설명하면, 삼각형의 꼭짓점은 각 수치형 변수의 데이터가 100%인 지점이다. 또한 각 꼭짓점에서 멀어질수록 수치가 줄어드는데, 꼭짓점 반대편 삼각형 선은 0%를 의미한다. 즉, Ternary Plot은 수치형 변수 3개의 값(비율)을 가진 항목의 위치를 삼각형 안에 표현한 것이라고 할 수 있다. 각 데이터의 위치를 점(point)으로 표현하는 경우가 일반적인데, 이 경우 데이터의 분포를 한눈에 볼 수 있다는 장점이 있다.
이해를 돕기 위한 방법으로 아래 Ternary Plot에서 항목 '1', '2', '3', '4'의 위치를 근거로 각 항목의 A, B, C 수치 값을 찾아보자. 각 항목의 데이터는 어떻게 될까?
모두 다 찾아보면 좋겠지만, 빠른 글 읽기를 위해... 한 가지 퀴즈로 대신해보자. '1', '2', '3', '4' 중 C 값이 가장 높은 항목은 무엇일까? 답은 '4'(C : 80%)이다.
항목 1. 60% A | 20% B | 20% C = 100%
항목 2. 25% A | 40% B | 35% C = 100%
항목 3. 10% A | 70% B | 20% C = 100%
항목 4. 0% A | 25% B | 75% C = 100%
* Ternary Plot을 이해하는데 도움이 되는 동영상 강추!
Ternary Plot 중 데이터를 점(point)이 아닌 형태로 표현한 경우도 있다.
위 Ternary Plot은 토성(Soil Texture) 삼각도로 모래, 미사, 점토(수치형 변수 3개)의 상대적 비율을 근거로 토성을 분류한 것이다. 각 항목의 데이터 위치를 기반으로 해당 항목이 포함된 영역(area)을 알 수 있다. 즉, 데이터를 영역별로 분류할 수 있다는 것이다. 이와 같은 이유로 Ternary Plot은 지질학, 물리 화학, 광물학 등과 같은 물리학 분야에서 유용하게 활용된다.
Ternary Plot의 활용은 위 사례 이외에도 다양한데, 그 기준은 삼각형 내에 데이터를 어떤 형태로 표현하느냐에 달려있다. 3개의 수치형 변수를 기준으로 삼각형 안에 데이터의 위치를 점(point)으로 표현하되 하나의 수치형 변수를 더해 이를 점의 크기(size)로 나타내면 Ternary Bubble Plot이 된다. 또한 점으로 표현된 데이터를 시계열 기준에 따라 선으로 연결하면 Connected Ternary Plot이 된다. Ternary Countour Plot은 3개의 수치형 변수에 1개의 수치형 변수를 더하되 이를 컬러로 표현한 것이다.
<Five Thirty Eight>의 기사 'The Worst Tweeter in Politics Isn't Trump'는 미국 정치인의 트윗에 대한 사람들의 반응(리트윗, 답글, 좋아요)을 데이터로 분석 및 시각화한 사례이다. 위 이미지는 오바마, 트럼프의 트위터 데이터를 시각화한 것이다. 오바마 트윗에 대한 리트윗 반응이 트럼프에 비해 많다는 것을 알 수 있다. 반면, 트럼프 트윗은 좋아요 반응에 집중된 것을 확인할 수 있다.
이 사례는 2017년 NFL 대학 선수들의 성적을 3개의 변수(체질량지수(BMI), 속도(Yard dash), 벤치 프레스)를 기준으로 시각화한 것이다. 삼각형의 내 위치를 근거로 선수들의 특징을 알 수 있을 뿐만 아니라, 각 선수 데이터를 의미하는 점(point)을 포지션(범주형 변수)을 기준으로 컬러를 구분 지어 표현하였다. 따라서 단순히 각 선수의 데이터를 개별적으로 파악하는데에서 나아가, 선수의 포지션별 특징을 파악할 수도 있다.
<The Pudding>의 'The differences in how CNN, MSNBC & FOX cover the news'는 미국 케이블 방송사 CNN, MSNBC, FOX 뉴스 프로그램(2017년 8월 25일~2018년 1월 21일)에서 사용된 단어를 분석한 시각화 사례다. 수치형 변수 3개는 각 방송사에서 특정 단어가 언급된 횟수를 기준으로 한다. 각 점(point)은 개별 단어를 의미하고, 점의 크기는 사용 빈도에 따라 달라진다.
뉴스 항목별 주요 키워드의 분포를 살펴본 결과, 각 이슈별로 관련된 키워드가 많이 언급된 방송사가 다른르게 나타났다는 인사이트를 도출할 수 있다. 미국의 2016년 선거 이후 주요 뉴스 항목이었던 트럼프 선거 캠페인과 러시아의 관계에 대한 대부분의 언급은 MSNBC에서 나온 것을 알 수 있다. 뿐만 아니라 힐러리 클린턴 관련된 이슈는 FOX, 허리케인에 관한 이슈는 다른 방송사에 비해 CNN이 집중적으로 다루었다. (이 시각화 콘텐츠의 경우 직접 독자가 단어를 검색하여 데이터를 확인할 수 있는 콘텐츠를 포함하고 있으니, 직접 링크를 방문하여 경험해보길 추천한다.)
지금까지 시각화 유형 Ternary Plot에 알아보았다. 데이터 지표 간의 관계를 파악할 수 있다는 점에서 산점도 시각화 유형과 비슷하다고 볼 수 있다. 산점도와 Ternary Plot 모두 기본적으로 2개 혹은 3개의 수치형 변수 간의 관계를 파악할 수 있고, 여기에 1개 변수 데이터를 추가적으로 컬러, 사이즈의 요소를 활용해 그 활용도를 달리 할 수 있다. 하나의 시각화 유형으로 3개의 수치형 변수 간의 관계를 파악할 수 있다는데 큰 장점이 있지만, 모든 시각화 유형이 완벽하지 않듯이 단점도 있다. 일반적으로 우리가 잘 알고 있는 시각화 유형에 비해 낯선 형태라 시각화 유형 자체에 대한 이해가 부족하다면, 데이터 패턴을 파악해 인사이트를 도출하는 것이 쉽지 않기 때문이다. 따라서 개인적인 바람으로... 이번 글이 Ternary Plot에 대한 이해를 높이는데 도움이 되길 바란다.
* 참고 자료
· Further Exploration #8 – Triangular Plots