데이터를 분석하는 목적은 인사이트를 얻기 위함이고, 인사이트를 얻으려면 시각화가 필수다. 그리고 데이터 시각화에는 그래프만 한 것이 없다. 하지만 그래프 종류가 너무 많다는 것이 문제다. 어떤 그래프로 만드는 것이 가장 적절할까 늘 고민된다. 그 고민을 함께 풀어보자.
아마도 가장 많이 사용되는 그래프가 아닐까 싶다. 여러 항목을 비교할 때 좋다. 막대 간 간격을 적당히 띄어야 보기 편하다. 막대 순서에는 시간 순이든(예: 1분기부터 4분기) 매출 순이든 특정 법칙을 부여하자.
항목 종류가 많다면 막대를 세로가 아닌 가로로 눕히는 것도 방법이다. 개인적으로 종류가 5개를 넘어가면 가로가 더 보기 좋다고 느낀다. 가로로 하면 항목 이름을 쓸 공간도 확보되어 좋다.
만약 시간 순에 따라 엎치락뒤치락하는 그래프를 만들고 싶다면(예: 1980년부터 2020년까지의 기업 가치 랭킹 변화) 애니메이션을 만들어보자. 1년을 1초로 잡아 1초마다 랭킹이 이리저리 바뀌는 막대 그래프 애니메이션이다. FabDev(fabdevgit.github.io/barchartrace/) 같은 사이트를 이용하면 별다른 기술 필요 없이 데이터를 올리는 것만으로 그래프 애니메이션을 만들 수 있다. 시간이 지나면서 랭킹이 위아래로 바뀌는 애니메이션을 보고 있으면 시간에 따라 변화하는 모습을 동적으로 보여줄 수 있다.
여러 항목을 비교해서 보여준다는 점은 막대 그래프와 같다. 여기에 세부 항목별 비율까지 나타내 주는 것이 누적 막대 그래프다. 예를 들어 2020년도의 월별 매출을 본다고 할 때, 해외와 국내 매출 부분을 다른 색으로 하면 각 비율까지 한눈에 확인할 수 있다. 다만 세부 항목이 많아지면 가독성이 떨어지니 개수는 5개 이하로 유지하는 것을 추천한다.
선 그래프는 시간이 중요한 요소일 때 사용하면 좋다. 여러 항목을 비교하기보다는 하나의 항목이 어떻게 변화하는지를 확인할 수 있다. 올해 매출을 월별로 확인한다고 할 때, 막대 그래프가 ‘가장 매출이 높은 달은 언제일까’에 시선이 간다면, 선 그래프는 ‘매출이 어떤 식으로 성장/하락하고 있는지’를 중점으로 보여준다.
선 그래프를 볼 때는 전체적인 트렌드뿐만 아니라, 선이 확 꺾이는 부분에 주목할 필요가 있다. 확 꺾였다는 것은 무언가 변화했다는 뜻이고, 그 안에 중요한 인사이트가 숨어있을 가능성이 높다.
세부 항목의 구성 비율을 나타낼 때는 원그래프가 최고다. 대부분의 사람들은 원그래프를 시계방향으로 읽는다. 따라서 비율이 가장 큰 항목부터 시작해 시계 방향으로 점점 비율이 작은 항목을 넣는 것이 가장 무난하다.
여기서도 항목 개수를 제한할 필요가 있다. 원그래프는 구성 항목들의 비율을 보여주는 것이 목적인데, 항목이 너무 많으면 어떤 항목이 있나 확인하는데 정신이 팔려버린다. 만약 항목이 5개를 넘어간다면, 넘어가는 항목들은 ‘기타’로 묶어버리자.
원그래프를 변형한 도넛 그래프도 있다. 원그래프에서 중간을 뻥 뚫어놓은 형태로 원그래프와 같이 비율을 보여주는 역할을 맡지만, 중간 공간을 활용할 수 있는 장점이 있다. 예를 들어 서비스 중인 앱에서 유저들이 가장 많이 사용한 기능을 비율별로 보여주는 동시에 총 체류시간을 보여주면 또 다른 정보가 된다. 다만 디자인적으로 꽉 차있는 원그래프가 좀 더 비율을 나타내는 느낌을 주므로 상황에 맞춰 쓰면 된다.
선 그래프 여러 개를 누적시켜놓으면 영역 그래프가 된다. 만약 신제품을 출시했다고 했을 때, 해당 제품이 총매출에 얼마나 기여했는지, 기존 제품을 갉아먹고 있는지 아니면 새로운 영역을 만들어내고 있는지 등 다양한 인사이트를 알아낼 수 있다.
성격이 다른 항목을 보여주므로 항목별로 뚜렷한 색깔을 사용하는 것이 좋다. 대신 정신 사나워지지 않도록 항목의 개수는 3개 이하로 제한하는 것이 좋다고 생각한다.
인구 이야기를 할 때 빠질 수 없는 그래프다. 두 개의 항목으로 확실이 나눌 수 있는 대상(예: 인구의 성별)을 세부적으로 비교해 전체적인 분포를 보여주기 좋다.
성격이 다른 두 가지 항목의 관계성을 파악하기에 좋다. ‘결제 금액이 높을수록 만족도도 높을까?’ ‘접속 횟수가 많으면 결제도 자주 할까?’ 같은 질문에 대한 답을 찾을 수 있다. 상관관계뿐만 아니라 사람들이 어느 영역에 많이 포진되어 있는지도 볼 수 있다.
산점도를 볼 때는 패턴을 찾아내는 것이 중요하다. 주로 어디에 몰려있는지, X축이 커질수록 Y축은 어떤 방향으로 가는지를 보면서 인사이트를 찾아야 한다. 또한 패턴과는 동떨어진 점들이 드문드문 보일 것이다. 그런 점들은 왜 따로 노는지 살펴보면 가끔 생각지도 못한 사실을 발견할 수 있다.
말 그대로 뜨거운 영역을 보여주는 지도다. 예를 들어 어떤 웹사이트를 운영하고 있다면, 접속하는 유저들의 기기 및 요일별 체류시간을 확인하고 싶을 수 있다. 그때는 데이터 입력 후 체류시간이 길어질수록 색을 진하게 넣으면 된다. 그러면 눈은 자연스레 가장 진한 쪽을 향하게 되고, 거기가 가장 핫플레이스인셈이다.
엑셀에서 사용하려면 [홈 > 조건부 서식 > 색조]로 가서 데이터와 가장 어울리는 색조를 고르면 된다.
- 그래프는 무지개색보다는 단일 색상을 사용하는 것이 좋다. 조금 더 구분을 주고 싶다면 톤을 다르게 하는 것도 방법(중요한 곳일수록 진하게).
- 그래프에 들어가는 텍스트는 검정이 좋다. 밝은 배경과 진한 텍스트 조합이 가장 읽기 편하다.
- X축과 Y축이 무엇을 나타내는지 반드시 써놓자. 설명이 없으면 축의 의미를 알아내느라 머리가 아프다.
- 의미 없는 내용은 다 빼자. 단순할수록 보기 편해진다.
- 관련 있는 색깔을 써보자(예: 삼성과 LG를 비교한다면 파란색과 빨간색을 쓰는 식으로).
- 3D 그래프는 꼭 필요한 경우가 아니면 쓰지 말자. 가독성이 정말 안 좋다.
- 너무 많은 이야기를 꾸역꾸역 한 그래프에 담지 말자. 전달하고 싶은 메시지가 여러 개라면 그래프를 여러 개 만들자.
데이터가 끝없이 쏟아지는 시대다. 그러나 데이터는 단순히 쌓이는 것만으로는 의미가 없다. 그 안에서 인사이트를 끄집어내어 행동의 근거를 만들어줄 때 빛을 발한다. 우리는 어지럽게 나열되어있는 숫자보다는 막대기나 점 같은 그림을 더 친숙하게 느낀다. 그러니 인사이트를 뽑아내려면 그래프는 거의 필수적으로 사용해야 하는 도구다.
다양한 그래프를 만드는 것 자체는 어렵지 않을 것이다. 다만 멋지게 만들고 싶은 마음에 그래프가 너무 요란해지지 않도록 주의해야 한다. 대부분의 경우 막대, 원, 선 그래프만으로도 충분하다.
*본 내용은 요즘IT와 함께 작성한 글입니다.