brunch

You can make anything
by writing

C.S.Lewis

by SSEN Aug 02. 2020

데이터가 한눈에 보이는 시각화

데이터 시각화 책 리뷰-01

데이터 시각화에 대해 관심을 가지면서 해외의 책들을 많이 접했다. 책들은 물론 친절했지만 원본 자료들과 데이터들을 좀 더 장벽 없이 접근해 보고 싶다는 아쉬움은 있었다.


이런 상황에서 만나게 된 뉴스젤리의 책은 그래서 더욱 반가웠다. 국내 데이터 시각화 전문기업이라는 타이틀로 여러 가지 사례의 데이터 시각화에 대한 정보를 나누는 뉴스젤리에서 낸 '데이터가 한눈에 보이는 시각화'. 스터디의 첫 책 리뷰는 이것으로 정했다.



#1. 요약

1. 왜 데이터 시각화를 알아야 할까?

데이터의 시대 데이터를 어떻게 해야 잘 활용할 수 있을까?
데이터를 보고 읽고 비판할 수 있는 데이터 리터러시 역량이 필요하고, 기술적 역량이 없어도 데이터를 활용해 인사이트를 발견하고 스토리텔링 할 수 있게 돕는 데이터 시각화를 적극적으로 활용하면 된다.


데이터 리터러시 : 데이터를 보고 읽을 줄 아는 역량
데이터 수집, 관리, 가공 및 분석, 시각화, 기획 역량으로 데이터에 대한 지식을 소비하고 조리 있게 생산하고 비판적으로 생각하는 능력
데이터 시각화 : 기술적 역량 없어도 데이터를 활용해 인사이트를 발견하고 스토리텔링 할 수 있게 돕는다
(ex. 많은 양의 데이터를 시각적으로 요약)
자신이 전달하고자 하는 데이터 인사이트에 적합한 시각화 유형을 선택하고, 해석에 오류가 발생하지 않도록
시각화 차트를 만들어야 한다.
'데이터를 어떤 목적으로 보여줄 것이냐'


데이터 시각화  활용 사례 

기업, 공공, 연구(인공지능), 데이터 저널리즘, 데이터 아트 등

언론의 데이터 시각화 활용 기사 예 (데이터로 보는 신도시 30년)


2. 데이터 시각화를 위한 준비

데이터 시각화 차트는 로우 데이터의 변수를 특정한 기준으로 데이터를 조합하고 계산한 결과(통계)를 시각화 요소로 활용해 표현한 것이다.


데이터 변수 
˙수치형 변수(measure, value) 계산이 가능한 숫자 형태의 값을 가진 변수
˙범주형 변수(dimension) 데이터 값이 개별 항목(category)으로 구분 (텍스트, 지역, 날짜, 숫자)
˙데이터 변수의 선택 = 데이터를 통해 알고 싶은 것이 무엇인지를 정하는 것 (데이터 탐색 기준의 설정)
˙선택한 데이터 변수 집산(Data Aggregation)
˙범주형 변수의 데이터 집산: 전체 데이터를 선택한 변수의 항목으로 그룹 짓는 것
˙수치형 변수의 데이터 집산: 숫자 값을 합산, 평균, 중앙값, 빈도수 등 통계를 낼 때 기준으로 
                                                수학적 계산을 하는 것


데이터 시각화 유형을 분류하는 5가지 기준 
˙비교: 시각화 차트의 가장 기본적인 목적 (막대차트, 그룹 막대차트, 버블 차트 등)
˙추이: 시간 흐름에 따른 데이터의 변화를 보는 데 유용한 차트를 포함
(선 차트, 영역 차트, 타임라인(간트차트))
˙비중: 전체 데이터 중 항목별로 차지하는 구성 비중을 표현하는데 효과적인 차트 
(파이 차트, 와플 차트, 트리 맵, 100% 누적 막대 차트 등)
˙관계: 데이터 간의 관계를 확인하는 데 유용한 차트. 보통 2개 이상의 데이터 지표를 하나의 시각화로 표현해 데이터 간의 관계를 파악할 수 있게 함 (산점도, xy히트맵, 네트워크 시각화)
˙위치: 데이터가 위치 정보를 포함하고 있을 경우, 지도를 차트 배경으로 하는 지도 시각화 유형을 활용
(단계 구분도, 도형 표현도(symbol map), 흐름 지도(flow map))
다양한 데이터 시각화 유형의 예

3. 더 나은 시각화를 만드는 방법

구성 요소를 활용하고, 나누고, 인터랙션 하라

시각화 유형의 한계를 극복하는 방법 
·스몰 멀티플즈(small multiples) : 동일한 데이터 값을 기준으로 표현한 시각화 유형을 다수의 시각화 차트로 나열한 셋 
·지도 시각화 + 스몰 멀티플즈 (시점별 / 지역별 / 개별 차트를 지리 위치에 따라 배치 - tile grid map) 
·카토그램 (Cartogram) : 지도에 표현된 지역별 영역의 크기를 수치형 변수 값 기준으로 왜곡해서 표현한 인터랙티브 시각화 차트 (필터링, 하이라이팅, 애너테이팅)
데이터 시각화 대시보드
한 개 이상의 시각화 차트를 한 화면에 모아서 배치하고, 데이터를 탐색할 수 있도록 설계한 화면 (데이터 필터, 시각화 차트 간 인터랙션, 차트 간 하이라이팅)

   


데이터 시각화 대시보드를 잘 만드는 방법

·사용자 니즈 파악

- 내가 보고 싶고, 분석하고 싶은 데이터는 무엇인지 확인

- 분석 데이터가 어떤 정보를 포함하고 있는지 확인

- 내가 실제로 중요하다고 생각하는 지표(핵심 지표)가 무엇인지 확인

- 대시보드를 보고 활용할 사람이 데이터로 알고 싶은 궁금증의 답(인사이트)을 찾기 위한 대시보드 탐색 시나리오 고려


·효과적인 시각화 대시보드 구성

- 데이터 시각화 대시보드 안의 개별 시각화 차트는 데이터 특성과 활용 목적에 맞는 시각화 유형을 사용해야 한다

- 데이터 시각화 대시보드의 한 화면을 구성하는 시각화 차트 수는 최대 5개 정도로 제한하는 것이 좋다

- 모든 니즈를 만족시키기 위한 단 하나의 대시보드를 만들려고 하기보다 니즈를 나눠서 여러 개의 데이터 시각화 대시보드를 만든다

항목별 데이터 시각화 대시보드를 개별 탭으로 구분해서 제작한 사례 .서울시 소비자 피해 인포맵


4. 시각화를 활용한 데이터 분석, 시각적 분석

데이터 집산
·로우 데이터를 특정 기준으로 묶는 계산을 통해 데이터셋을 추출하는 것
·로우 데이터 중 데이터 분석 대상이 되는 범위로 데이터를 요약
·많은 양의 데이터에 포함된 구체적이고 개별적인 정보가 특정 기준에 따라 추상화(abstraction)되는 과정
·데이터 집산을 통해 다수의 시각화 차트를 만들고 서로 다른 시각적 패턴을 근거로 풍부한 데이터 인사이트를 도출할 수 있다 > 시각적 분석


시각적 집산(Visual Aggregation)
·데이터 집산 결과가 시각화 결과물 형태의 변화로 이어지는 것
·수치형 데이터 집산의 여러 기준은 분석 대상 데이터의 특징을 요약하는 역할


범주형 변수의 데이터 집산에 효과적인 시각화 유형 
·텍스트 변수  : 범주형 변수의 항목별로 시각화 요소를 그리되, 그 크기나 색을 수치형 변수의 데이터 집산 결과에 따름 (막대차트, 파이 차트, 트리 맵, 버블 차트, 워드 클라우드 등)
우울증 항우울제 처방 현황
·지역 변수 :  텍스트 변수 중에서도 지역 이름이 데이터 값인 경우 지역 변수로 구분 다양한 지도 시각화 유형으로 만드는 것이 효과적
서울시 생활 인구 시각화
·날짜 변수 : 날짜 변수를 포함한 데이터는 시간에 따라 데이터를 수집한 것 (시계열 데이터) 날짜 변수도 지역 변수처럼 그 자체로 계층적인 의미 정보를 가짐 (캘린더 차트, xy 히트맵, 방사형 선 차트, 스몰 멀티플즈)
연도별 월별 다이어트 키워드 검색량 변화
·숫자 변수 : 숫자 형태의 값을 가진 숫자 변수를 범주형 변수로 활용해서 시각화하는 경우 히스토그램 : 특정 변수의 데이터를 기준으로 구간을 나누고, 구간별 빈도수를 시각화
허리 사이즈별 미국 여성 청바지 브랜드 수


5. 사례로 알아보는 시각화의 가치

개인 데이터를 활용한 시각적 분석 기록, 결과물 데이터를 탐색, 분석 결과에 대한 비판적 사고

공공 데이터를 활용한 시각적 분석 계층형 위치 정보에 근거한 지도 시각화 인구 특성별 조건을 분석 기준으로 활용한 지도 시각화> 데이터 인사이트를 찾는 방법?

기업 데이터를 활용한 시각적 분석 데이터 시각화 대시보드
(KPI 변화 모니터링, 인사관리(부서별 성과 관리), 마케팅 부서 (마케팅 성과 측정)) 기업 내부 데이터 + 외부 데이터 함께 활용 (ex. 날씨 마케팅)


#2. 리뷰




COOL

•시각화 차트 유형과 속성에 대해 이해하기 쉽게 설명하고 있다

•실무적 활용 빈도가 높은 대시보드를 잘 만드는 법과 활용 예의 내용이 좋았다

•문제 해결을 위한 시각화의 단계별 접근이나 시각적 분석 과정에서  심층적이거나 전문적 내용은 많지 않아 아쉽다 

•시각화에 대한 가벼운 개론을 접하고 싶은 분들이 읽으면 좋을 것 같다


SSEN

•공공데이터를 바탕으로 다양한 포스팅을 했던 블로그를 기반으로  만들어진 책이라 책에서 다루는 데이터를 직접 찾아볼 수 있다는 것이 매력적이었다.

•차트나 데이터 시각화 전체의 이론 부분이나 전문적인 부분은 약하다

•타깃이나 고객에 따라 달라지는 대시보드의 디자인이나 항목들을 설명한 부분이 흥미로웠다.


★해시태그

#데이터 시각화,#뉴스젤리,#데이터 리터러시,#그래프,#대시보드...


---------------------------------------------------------------------------------------------------------

-이미지 출처

▶언론의 데이터 시각화 활용 기사 예 (데이터로 보는 신도시 30년)
(http://newtown.sisajournal-e.com/skin/page/Price01.html)


▶다양한 데이터 시각화 유형의 예 (https://datavizcatalogue.com/)


▶항목별 데이터 시각화 대시보드를 개별 탭으로 구분해서 제작한 사례,
서울시 소비자 피해 인포맵 (http://ecc.seoul.go.kr/infomap/)


▶우울증 항우울제 처방 현황 (http://project.newsjel.ly/depressed/)


▶서울시 생활 인구 시각화(https://story.pxd.co.kr/1408)


▶연도별 월별 다이어트 키워드 검색량 변화 (http://bit.ly/38XwSBs)


▶허리 사이즈별 미국 여성 청바지 브랜드 수 (http://bit.ly/2FUV4rJ)

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari