brunch

You can make anything
by writing

C.S.Lewis

by 뉴스젤리 Jun 21. 2018

마케터가 알아두면 좋을 낯선 시각화

마케팅 데이터 인사이트 도출을 위해 알아야 할 다변량 시각화

우리는 데이터를 통해 문제를 발견하고자 합니다.

데이터에서 문제를 볼 줄 알아야 하는데, 여기에 시각화의 필요성이 있습니다.




마케팅 데이터로 해보는 시각화 


마케팅의 경우 사용자의 반응을 즉각적으로 확인하고, 그에 따른 적절한 행동을 취할 때 마케팅 효율을 높일 수 있습니다. 시각화는 이런 통찰을 가능하게 합니다. 통찰은 단순한 과정이 아니라 내부 요인 간의 관계를 통해 대상들 사이에 숨겨진 관계를 찾는 것을 의미합니다. 이 관계를 찾으면 과거를 알 수 있고, 현재가 보이며, 미래에 대해 짐작할 수 있습니다.


그렇다면 시각화는 어떻게 할 수 있을까요? 시각화에도 프로세스가 있습니다. 시각화를 통해 어떤 목적을 달성할 것이냐에 따라 심화된 단계로 나아갈 수 있습니다. 시각화 프로세스는 그 과정과 목적에 따라 3단계로 구분할 수 있습니다. 각 과정에 따라 사용해야 할 시각화의 종류와 데이터가 달라질 수 있습니다.


시각화 프로세스

① 탐색 : 시각화 패턴을 통해 자료 사이의 관계를 찾는 것입니다. 자료들 간에 어떤 관계들이 있는지 최초로 살펴보는 단계이자, 모든 가능성을 열어두고 자료의 분포를 확인하는 단계입니다.

② 분석 : 시각화 분석을 통해 관계를 명확하게 규명하고 그 의미가 무엇인지 찾아내는 과정입니다. 그 관계에 대해 잘 설명할 수 있는 데이터를 찾는 과정이라고도 볼 수 있습니다.

③ 활용 : ①, ②를 통해 정립한 데이터의 관계를 사람들에게 전달하는 과정입니다. 발견한 통찰을 바탕으로 사람들을 설득하고 정교화하기 위해 사용하는 시각화로, 이해를 돕기 위해 적절한 디자인이 요구됩니다. 대표적인 형태로 인포그래픽 등을 들 수 있습니다.


이쯤에서 우리가 쓰는 시각화는 어떤 것들이 있는지 생각해볼까요? 여러 개의 선이 들어간 라인 차트, 항목별 비율을 알 수 있는 파이 차트, 항목 간 차이를 알 수 있는 막대차트, 막대와 선이 함께 있는 콤보차트 정도로 예상됩니다. 이런 차트들은 쉽게 만들 수 있을 뿐만 아니라, 시각화의 기본적인 역할을 합니다. 그러나 화룡점정으로 쓰기엔 뭔가 심심한 면이 없지 않습니다.




피봇 테이블은 데이터가 아니다, 시각화다.


피봇 테이블 예

위 테이블은 우리가 흔히 보고서에서 볼 수 있는 표 중 하나일 것입니다. 우리는 이 표 하나를 만들기 위해 매일 아침마다 데이터를 다운로드하고, 엑셀에서 복사한 뒤 만들어 놓은 양식에 붙여 넣는 과정을 반복합니다. 어쩌면 이를 가지고 양질의 데이터를 만들고 있다고 자부할 수도 있겠죠. 과연 그렇게 생각해도 될까요?


이런 형태의 테이블은 일반적으로 피봇 테이블이라고 하는데 크로스 테이블, 다차원 테이블이라고 하기도 합니다. 열(Column)과 행(Row)으로 구성된 양방향 테이블임을 볼 수 있습니다. 이 테이블의 가장 큰 강점은 많은 양의 데이터를 구조, 요약, 표시할 수 있다는 점입니다. 각 열에 대한 부분합, 총합계, 평균 등을 표시할 수 있어 많은 보고서에서 빠지지 않고 사용됩니다.


그렇다면 이런 피봇 테이블은 데이터라고 할 수 있을까요? 결론부터 이야기하자면 그렇지 않습니다. 피봇 테이블은 시각화의 성격에 가깝습니다. 피봇 테이블 형태의 값은 컴퓨터에서 연산 처리할 수 없는 형태입니다. 컴퓨터가 필요로 하고 인식하는 데이터의 구조는 아래와 같은 모습입니다.

원본 데이터 예

위와 같은 형태의 원본 데이터를 테이블로 요약 및 정리하면 피봇 테이블이 됩니다. 피봇 테이블은 원본 데이터를 특수한 목적과 의도에 따라 집산하여 만든 다른 유형의 ‘표’이기 때문에 데이터가 아니라 시각화로 봐야 합니다. 따라서 데이터베이스 또는 데이터 시각화를 만들기 위해서는 피봇 테이블이 아닌 원본 데이터의 형태로 데이터를 정리하여 사용해야 합니다.




낯설지만 알아둬야 하는 시각화


앞서 마케팅 데이터를 통찰하기 위한 방법으로 시각화, 시각화 프로세스에 대해 알아보았습니다. 또 시각화를 위해 필요로 하는 데이터는 피봇 테이블이 아닌 원본 데이터 형태임을 알아보았습니다.


그렇다면 흔히 일반적으로 사용하는 시각화, 그 이상을 하려면 무엇을 알아둬야 할까요? 다변량 데이터 시각화를 알아둘 필요가 있습니다. 우리가 흔하게 사용했던 시각화는 변수 1-2개를 조합하여 만든 것입니다. 앞서 예를 들었던 막대차트, 라인 차트, 파이 차트 등이 대표적입니다. 시각화를 통해 탐색, 분석, 활용이라는 3가지 프로세스를 달성하기 위해서는 이와 같은 시각화로는 한계가 있기 때문에, 다변량 변수의 시각화가 필수적입니다. 무엇보다도 사회현상은 다차원적이므로 1,2가지 변수만 보는 것으로는 요인들 간의 관계성을 명확히 파악할 수 없습니다. 우리가 활용할 수 있는 다변량 시각화에는 어떤 종류의 시각화가 있는지 알아봅시다!



1. 산점도 (Scatter Plot)

노출수와 클릭율의 관계를 알아보는 산점도 (자료 : 매직테이블)

산점도는 두 변수 간의 영향력을 파악하기 위해 가로축과 세로축을 기준으로 데이터 포인트 그리는 데 사용하는 시각화입니다. 산점도로 데이터를 표현하면 두 변수 간의 관계를 볼 수 있는데 이를 상관관계라고 합니다.


차트 안에 표현된 점들은 마커(Marker)라고 부르며, 이 마커가 산점도에서 직선에 가까운 경우 두 변수의 상관관계가 높다고 볼 수 있습니다. 반면 균등하게 분산되거나 흩어져 있는 경우 상관관계가 낮거나 0인 변수들이라고 봅니다.


예를 들어 매출과 매체의 노출 수를 산점도로 시각화해 보았을 때, 두 변수에 의한 마커들이 우상향으로 직선 형태를 나타내면 매체의 노출수와 매출이 상관관계가 있다는 것입니다. 인과관계는 아니지만, 각 변수에 대해 영향을 주고 있다는 분석이 가능하므로 매출이라는 변수의 변화를 위해 노출 수의 변화를 만들어보는 것도 하나의 전략이 될 수 있습니다. 



2. 평행 좌표 (Parallel Coordinate)

미국 SAT 시험의 읽기, 수학, 쓰기 점수의 연관성을 찾는 평행좌표

평행 좌표는 데이터 테이블의 각 행을 선으로 연결하는 형태의 다변량 시각화입니다. 평행으로 나열되어 있는 축 위에 각 아이템들이 점으로 표현되는 방식입니다. 평행 좌표는 각 데이터 요소들이 어떠한 방식으로 누적되어 있는지, 어떤 분포를 보이는지 확인하는데 유용합니다.


이때 여러 평행 선을 의미하는 열(Column)의 데이터는 유형이 완전히 다르거나, 서로 전혀 호환되지 않는 경우가 많습니다. 그렇기 때문에 평행 좌표에서 데이터 값은 가장 낮은 값을 0%로, 가장 높은 값은 100%로 그려질 수 있도록 각 열의 데이터를 가능한 정규화시켜야 합니다. 이 경우 각 속성이 다른 데이터도 함께 비교할 수 있습니다.


또 한 가지 더 주의할 점은 열 데이터를 의미하는 축을 어떤 순서로 배열하느냐에 따라 유의미한 패턴이 나타나거나 혹은 나타나지 않을 수 있다는 점을 기억해야 합니다. 축의 배열 순서가 중요하다는 점을 유념하여 여러 가지 순서로 배치해보면서 데이터의 인사이트를 찾는 작업이 필요합니다.



3. 스몰 멀티플즈 (Small Multiples)

알아보기 힘든 다양한 변수의 차트 (자료 : 매직테이블)

하나의 차트 위에 많은 변수를 모두 표현하면 어떤 문제가 있을까요? 일반적으로 사람은 5개 이상의 요소가 한 번에 표현될 경우 효과적인 인지를 하지 못한다는 연구결과가 있습니다. 모든 데이터를 하나의 차트로 시각화할 경우 효과적인 데이터 탐색이 불가능합니다.


뿐만 아니라 단위(Scale)가 다르거나 데이터 값의 차이가 큰 서로 다른 변수를 하나의 차트 위에 그리면 높은 값을 가진 변수를 제외한 나머지 변수들에 대해서는 값을 확인하기 어려워집니다. 가장 높은 값을 제외한 나머지는 한 곳에 밀집하여 표현될 것이기 때문에 비교가 어려운 것이죠! 이를 해결하기 위한 방법으로 차트에서 축을 한쪽이 아닌 양쪽으로 하여 단위를 구분하거나, 차트 위 도형 요소를 변수의 수에 따르게 쓰는 등의 방법을 고안하지만, 이 경우도 효과적이지 않은 경우가 발생합니다. 과연 이럴 경우에는 어떤 시각화를 사용해야 할까요?


스몰 멀티플즈로 표현한 다양한 변수의 차트 (자료 : 매직테이블)

스몰 멀티플즈가 한 가지 대안으로 역할을 할 수 있습니다. 스몰 멀티플즈는 다수의 변수를 하나의 차트에 표현하지 않고 영역을 구분하여 표현하는 방식입니다. 라인 차트, 막대차트, 산점도 등을 활용해 스몰 멀티플즈를 만들 수 있습니다. 또한 지도 등의 위치 데이터 위에 차트를 표현하여 각 지역별 차이를 볼 수 있는 방법도 있으며, 애니메이션을 활용해 시간의 흐름에 따라 변화를 시각화할 수도 있습니다. 스몰 멀티플즈는 복잡해 보이는 데이터의 문제를 구분하여 시각화해주기 때문에, 정보는 분리하되 데이터 패턴을 이해할 수 있도록 도와준다는 장점이 있습니다.


* 참고) 스몰 멀티플즈의 다양한 사례 보러 가기 : https://brunch.co.kr/@dimension-value/14



4. 선버스트 차트(Sunburst Chart)

선버스트 차트 예시

우리가 잘 알고 있는 시각화 유형 중 하나인 트리 맵(Tree map)은 각 카테고리별로 특정 데이터의 집합이 전체 데이터 중 차지하는 비율을 면적으로 표현한 것입니다. 따라서 각 카테고리를 구성하는 요소가 무엇인지, 그 비중은 얼마나 되는지 한눈에 파악할 수 있습니다.


여기에 드릴다운(drill down) 인터랙션을 더하는 것도 유용한 시각화를 만드는 방법입니다. 이 경우 각 부분 집합의 하위 부분 집합의 구성을 더 자세히 볼 수 있습니다. 선버스트는 계층형 구조의 데이터를 파이 차트처럼 링의 형태로 보여주는 방법이라고 할 수 있습니다. 즉, 트리 맵에서 면적에 해당하는 크기의 비교가 각각의 링의 비율을 통해 데이터의 크기를 비교할 수 있는 방법입니다.


광고 데이터의 경우 일반적으로 캠페인-광고그룹(ad group set)-광고/키워드 혹은 유입경로, 전환 페이지 등의 위계 구조를 갖는 계층형인 경우가 많습니다. 이는 개별 아이템이 소속을 갖고 있다는 뜻으로 상황에 따라 소속의 위계별로 데이터를 비교하는 경우에 선버스트 차트를 활용하면 빠르게 데이터의 패턴을 확인할 수 있습니다.




이런 시각화 어디서 만들 수 있을까?


위와 같은 시각화를 잘 알고 있더라도 만들 수 없다면 무용지물이 될 수도 있습니다. 그렇다고 이를 위해 R이나 파이썬을 배우고, 시각화 패키지를 활용한 코딩으로 만들어 보기에는 할게 너무 많습니다. 따라서 위에서 언급한 다변량 차트를 쉽게 만들 수 있는 웹서비스 또는 시각화 솔루션을 간단히 공유하는 것으로 글을 마무리하고자 합니다.


1. 태블로 퍼블릭(Tableau Public) : public.tableau.com
  - 제작 가능 시각화 유형 : 막대차트, 라인 차트, 파이 차트, 산점도, 트리 맵, 히트맵, 박스 플롯, 히스토그램, 피봇 테이블 등 자체 변형 적용 가능
  - 특징
    - 빅데이션 설루션으로 대용량 데이터 처리 속도가 빠르고 다양한 데이터 편집 기능 제공
    - 사용자가 적용하는 시각화 스타일에 따라 무궁무진한 변형이 가능(이미지, 데이터 필터, 추세선 등)
    - 차트 간 인터랙션, 페이지 변화에 따른 애니메이션, 차트 도형 요소의 하이라이트, 툴팁 등 모든 차트 구성요소의 조건을 변경 가능
    - 자유도가 높은 만큼, 솔루션 사용을 위해 학습 시간 투자가 필요
2. 데이지(DAISY) : daisy.newsjel.ly/solution
  - 제작 가능 시각화 유형 : 막대차트, 라인 차트, 파이 차트, 산점도, 평행 좌표, 트리 맵, 지도, 콤보차트, 히트맵, 워드 클라우드 등 10종 이상
  - 특징
    - 태블로보다 간소화된 템플릿과 시각화 유형 제공하여 UI/UX 관점에서 간편
    - 시각화 유형별 2~3가지의 변형 시각화 옵션 제공
    - 차트 사이즈, 컬러, 축 단위 등 세부사항 조정 가능
    - 공공데이터 연동을 통한 직접 검색 가능
3. 인포그램(Infogram) : infogram.com
  -  제작 가능 시각화 유형 : 막대차트, 라인 차트, 호 차트, 파이 차트, 산점도, 콤보차트, 히트맵, 퍼널 차트, 피봇 테이블, 게이지 차트, 트리 맵, 박스 차트, 워터폴 차트 등 15종 이상
  - 특징
    - 시각화 목적에 따라 인포그래픽, 대시보드, 보고서, 일반 차트 등의 템플릿 제공
    - 차트의 고퀄리티 디자인 (템플릿 형태로 제공되어 디자인 리소스 불필요. 다만 페이지 로딩 속도가 느려짐)
    - 데이터를 실시간으로 수정하여 시각화 변경 가능
    - 구글 애널리틱스, 구글 드라이브 데이터 연동 가능
4. 매직테이블(Magic table) : www.magictbl.com
  - 제작 가능 시각화 유형 : 막대차트, 라인 차트, 파이 차트, 산점도, 콤보차트, 스몰 멀티플즈
  - 특징
    - 광고 채널, 로그 분석 채널 데이터 연동 가능
    - 선택할 수 있는 변수에 제한되어 있으며, 시각화 유형만 선택하면 자동으로 시각화

[참고 자료]

· 다채널 광고 분석 솔루션 매직테이블

· 송한나 2017.04.01,  [The Art of Data] /DB Guide 

· Heartcount, 2018.01, Small Multiples: 수많은 작은 창들을 통해 데이터를 거시적으로 조망하기

· TIBCO 2018, 데이터 시각화와 각 유형별 구성요소

작가의 이전글 좋은 대시보드는 무엇인가?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari