도나 M. 웡 지음, 이현경 옮김, 강규영 감수/인사이트
추천 대상 : 데이터 시각화에 대한 기본적인 원칙을 알고 싶은 사람
추천 정도 : ★ ★ ★ ★ ★
추천 사유 : 이 책은 2014년에 읽었던 책이다. 그때 당시 그래프를 굉장히 많이 그리는 회사를 다녔었는데, 그때 내 고민은 '이 데이터에 이 그래프를 쓰는 게 맞는 것인가?' 였다. 회사 내부에서도 사람마다 즐겨 쓰는 그래프 타입이라던지 패턴이 달라서 레퍼런스밖에 참고할 것이 없었는데 이 책을 통해서 기본적인 원칙을 정립하게 되었다. d3 같은 것만이 데이터 시각화가 아니라고 생각하기 때문에 읽어볼 만한 책이라고 생각한다.
재밌다고 생각했던 대목은 '색약을 고려하여 이러저러한 색상을 피하라' 라는 부분이었다. 이러한 지적은 쉽사리 찾기 어렵다고 생각한다. 뜬금 없지만 이런 부분에서 신체적 장애를 갖고 있는 사람에 대한 배려를 엿볼 수 있다고 생각해 감명 받았었다.
1장. 기본 원칙
- 효과적인 차트 작성
1) 자료 조사
2) 편집 : 핵심 메시지를 찾고 그 메시지를 드러낼 수 있는 최선의 데이터 집합을 택함
3) 구성 : 데이터 표현에 적합한 차트 유형 찾기
4) 검토 : 독자의 관점에서 차트를 보고 특이값 확인
데이터가 스스로 말하게 하자
잘 만든 차트란 어떠한 방해요소 없이 독자가 데이터를 비교 또는 대조하여 결론을 이끌어 낼 수 있도록 해야 한다
참조 대상을 설정하라
비교 대상을 주어 맥락 해석을 해석할 수 있도록 하라
숫자의 끝처리는 가장 나중에 하라
분석 단계에서 숫자를 올리거나 내리게 되면 최종 결고값이 실제와 달라지게 되어 왜곡된 해석을 할 수 있다
데이터가 무조건 많다고 좋은 것이 아니다
판단하여 편집하고 발췌하여 전체 이야기를 전하라
글꼴 가독성
볼드체와 이탤릭체를 동시에 적용하지 말 것
차트의 타이포 그래피
수직 막대 그래프의 경우 글꼴을 기울여 배치하지 않는다
이름이 긴 경우 수평 막대 차트로 표현한다
검은 바탕 위에 흰 글씨 같은 반전 효과를 주지 마라
색상
컬러 팔레트는 기본 색상과 각 색상별로 3-5가지 색조만을 포함해야 함
일단 팔레트를 선택했으면 전체 프레젠테이션에서 일관되게 사용할 것
차트의 색상
다중 막대 차트에서 다른 색상 혹은 보색을 사용하지 말 것. 한 가지 색상의 밝기를 다르게 사용하거나 색 상환에서 같은 쪽에 위치한 색상을 사용할 것
측정 단위를 설정할 때 척도의 중앙에 옅은 색과 짙은 색이 번갈아 나오지 않게 하라. 어떤 색상의 컬러스케일이든 가장 옅은 색에서 가장 짙은 색으로 가거나 그 반대가 돼야 한다
일반적으로 특정 테마를 연상시키는 색상은 피하라(크리스마스 테마)
색맹을 위한 색상 선택
명도 대비가 약하면 색맹인 사람은 사실상 차트를 읽을 수 없다
글꼴 색은 검정색으로
차트 항목은 해당 차트 바로 옆에 작성하라
반드시 명도 대비를 높여라
그레이 스케일로 변환했을 때 구분할 수 있는지 체크하라
2장 똑똑하게 차트 그리기
선 높이와 굵기
선 아래의 음영 처리는 반드시 차트의 기준선이 0인 경우에만 허용된다
기울기를 과장하지 말 것
적절한 높이는 차트의 2/3 영역을 차지
선은 주가와 주가지수처럼 시간 흐름에 따른 연속적인 데이터 흐름을 나타낼 때 가장 유용
Y축의 증가분
되도록 0에서 기준선을 시작하라
자연스러운 증가분을 채택하라
깔끔한 선, 명확한 신호
굵기와 명도를 달리하는 것이 각종 패턴이나 표시를 쓰는 것보다 선을 구분하는데 더 효과적
차트 하나에 선은 네 개 이하
데이터 집합이 4개 이상이면 개개의 차트를 통해 패턴을 보여주는 것이 낫다
범례와 항목명
항목명이 선에서 너무 멀어지지 않게 하라(바로 옆에 달아라)
설명을 달 부분은 차트에 포인트로 표시하고 설명은 차트 아래 단다
항목은 간결하고 짧은 한 문장을 넘지 않도록한다
범례는 선 마지막 끝점 순위로 배열한다. 선의 끝점이 가장 최근의 데이터 포인트이기 때문
이중축 척도
성질이 다른 것을 섞지 마라
가급적이면 이중축 척도는 사용하지 마라. 척도에 따라 두 선의 관계가 달라보일 수 있다
비교 가능한 척도
상대적인 성과가 선의 기울기를 통해 분명하게 드러나야 한다. 양쪽 차트에 있는 Y축 척도의 증감률도 같아야 한다
수직막대
형태와 음영
3차원은 완전히 잘못된 선택이다
불필요한 음영은 독자를 방해한다
막대 자체에 모든 정보를 담아라. 막대 너비는 막대 사이 간격의 약 2배로 잡는다
한 차트에 있는 모든 막대의 색과 음영은 하나로 통일한다
예상값 추정값은 실제 값과 색을 구분할 수 있다
0기준선
막대 차트는 0 기준선에서 시작하지 않으면 오해의 소지가 있다 각 막대의 전체값이 명료하지 않게 된다
예외 없이 모두 0에서 시작할 것
0 기준선을 다른 선보다 두껍고 진하게 그려라
수직 막대의 값이 0에 가까우면 항상 막대 위에 수치도 표시한다
데이터 포인트 값이 고만고만하면 차이값 또는 증감률로 차트를 구성하는 게 더 효과적일 수 있다
다중막대와 범례
옅은색 막대와 짙은 색 막대를 번갈아 배치하지 말 것
가장 옅은 색에서 가장 짙은 색을 사용할 것
막대 그룹 안의 막대는 4개 이하로 제한
막대의 순서와 범례의 순서를 일치시켜라
끊어진 막대와 특이값
끊어진 막대는 수직 막대 차트에서 특이값을 보여줄 때 사용함
이때 확인 할 것 :
데이터 출처가 특이값에 대하여 정확한 수치 제공
최소한 막대 10개가 있고 그 중 특이값은 단 한개
특이값과 특이값 다음으로 큰 값의 차이가 대략 3배 또는 그 이상이다
특이값은 메시지의 핵심이 아님
순서 매기기와 재편성하기
무작위 막대 배열은 금물. 수평 막대 차트의 중요한 특징은 동일한 속성에 따라 항목들의 순위를 매긴다는 데 있다
그리드 선과 척도는 피한다
올바른 순서대로 배열한다. 가장 큰값부터 작은 값 순을 하거나 그 역순으로 한다. 음영으로 특정 막대를 강조할 수 있다(알파벳 순서처럼 특정 순서로 배열했을 때 가독성이 높아지는 경우는 제외함)
수평막대를 시간 순으로 표현할 때는 최근 데이터를 위에 둔다
음수를 나타내는 막대
데이터 집합 내에 양수가 없다 해도 오른쪽에 막대를 배치해서는 안 된다
양방향 수평 막대를 쓰지 말 것. 반대 방향을 향하고 있는 두 세트의 막대를 비교하는 건 어렵다. 차라리 두 개의 데이터 집합을 다중 막대 차트로 그리는 게 낫다
왼쪽은 음수, 오른쪽은 양수
항목명은 기준선 옆에 붙이거나 모두 왼쪽 정렬한다
파이조각 내기
파이 차트는 파이 조각들 간의 복잡한 관계를 설명할 때 쓰면 안 된다
파이 조각은 5개 이내로 사용한다
가장 큰 파이 조각의 중요성을 강조하기 위해 12시 정각을 기준으로 오른쪽에 배치하고 두번째로 큰 조각을 12시 정각 기준으로 왼쪽에 배치한다 (비중이 비슷비슷한 경우 시계방향으로 큰 것에서 작은 순으로 배치함)
파이조각 꾸미기
한 가지의 특수 효과만 써라
3차원은 쓰지 마라
명암은 단순하게 써라
강조하고 싶은 조각은 명도를 달리 하라
조각난 파이 또 조각내기
이미 조각난 파이를 또 조각내지 마라
파이 조각 말고 분할 막대를 사용하라 (혹은 분할 막대 내에서 분할 막대를 사용하라)
그리드선
표가 작다면 한 줄 걸러 회색 음영을 주거나 선을 긋는 게 불필요함
가는 선을 3개에서 5개의 행마다 그어주면 표 안의 숫자를 따라가는 데 도움이 됨
표 안에 공간이 있다면 핵심 메시지에 해당하는 데이터를 막대 차트로 표현해 준다
숫자 맞춤과 항목 배열
여러 개의 데이터 집합이 있는 표에서 비교 대상 데이터를 가로로 배열하지 마라
정수는 오른쪽 정렬한다 (크기가 작은 숫자는 가운데 정렬도 허용된다)
항상 소수는 소수점을 기준으로 정렬한다
아이콘 선택
단순한 아이콘을 사용하라
가변적인 상황을 표현할 때는 동일한 보양의 심볼에 밝기를 달리해서 사용하라
수량 비교
데이터 포인트 값이 비슷하면 픽토그램으로 표현하지 마라
아이콘의 면적이나 높이를 기준으로 수량 정보를 차트화하지 마라
조각낸 아이콘 사용은 피한다
픽토그램의 데이터 값은 항상 표시해라(독자가 수를 세게 하지 마라)
아이콘은 5개 또는 10개 단위로 묶어 한 눈에 쉽게 셀 수 있게 하라
지도 그리기와 음영
지리와 관련 있을 때만 지도로 표현해라
제3장 차트 편람
평균값, 중앙값, 최빈값
평균값 : 단순한 평균 의미. 하나의 온전한 데이터 집합의 총체적 영향력을 측정할 때
중앙값 : 데이터를 순서대로 나열했을 때 한가운데에 위치한 값. 값의 순서를 매기는 데 유용
최빈값 : 가장 자주 나오는 값. 가장 자주 보게 되는 값을 말할 때
표준편차
표준편차는 평균값 주위로 데이터가 얼마나 촘촘하게 분포되어 있는지 보여줌. 변동성이 높은 주식은 표준편차가 크다
확률
확률 : 특정 사건이 발생할 수 있는 상대적인 빈도
첨도 : 정규분포도를 통해 예측할 수 있는 것보다 극단적인 이익이나 손실이 더 자주 발생한다는 사실을 알려줌
평균 vs. 가중평균
가중평균 : 가중평균은 중요한 데이터 포인트에 대해서는 가중치를 주어 산술평균의 단순한 한계를 극복할 있음
이동평균 : 데이터 변동성이 큰 경우 실제 추세를 파악하는 데 도움이 됨
로그 스케일
x축 로그 스케일 : x축 로그 스케일을 사용하면 차트의 짧은 기간 내 더 상세한 변화를 담을 수 있음
y축 로그 스케일 : 변화폭의 상대적 중요도를 보여줌
증감률
증감률 : (신규값-기존값) / 기존값 x 100%
기준선을 100 또는 0으로 재설정하기
증감률을 직관적으로 파악하려면 기준선이 0 또는 100인 것이 좋다
기준선을 100으로 재설정한다는 것은 100에서 데이터가 시작하도록 척도를 조정하는 것. 이때는 (현재값/초기값) x 100 으로 계산
기준선을 0으로 재설정한다는 것은 최초의 데이터 포인트로부터 증감률을 나타내겠다는 뜻. {(현재값/초기값) x 100} -100으로 계산
백분율 표현하기
두 개의 백분율 값의 차이는 퍼센트 포인트 또는 베이시스 포인트로 나타냄
기준값 : 증감률을 말할 때는 기준값을 알려주는 게 정말 중요함
절대값 vs. 증감률
규모 면에서 비교가 불가능한 두 개체의 증감률을 비교하지 마라
두 개 이상의 데이터 집합 비교할 때 최초의 데이터 포인트를 기준으로 구한 증감률에 다라 차트를 그리면 절대값을 가지고 차트를 그린 것보다 설득력이 클 수 있다
백분율의 백분율 계산
독자를 골치 아프게 하지 마라. 계산된 결과를 바로 보여줘라
A%의B% = A/100 X B%
백평율의 평균을 구하지 마라
항상 원래 데이터로 돌아가 백분율을 새롭게 계산하라
단어
회사 명이나 기관명칭을 축약하지 마라 (축약 버전이 더 대중적인 경우만 제외)
숫자
연도 : 여유 공간이 있으면 전체를 표기하고 없는 경우 첫번째 연도만 다 쓰고 나머지는 끝의 두 자리만 표기
분기 : 항상 연도 병기
정수와 소수 : 가운데 줄맞춤하거나 왼쪽 정렬하지 않는다
단위 : 해당 수에 적합한 가장 높은 단위를 사용해라
(나머지는 주식 관련 된 부분이라 임의 생략함)
4장 난감한 상황
사라진 데이터
그래도 차트로 만들 만한 가치가 있을까?
한 두 개의 데이터 포인트가 없을 때 : 막대차트일 경우 없는 부분은 비우고 각주를 달아라. 선 차트는 간격을 메우는 선을 계속 잇는다. 짧은 연속 데이터를 선 차트로 그릴 때는 간격을 메우고 데이터 포인트를 표시한다
산재한 데이터 포인트
데이터 집합 내에 빠진 데이터 포인트가 여러 개면 던잘하고나 하는 메시지와 직접 고나련된 샘플 데이터 포인트를 찾음
파이 차트는 어느 한 조각이라도 빠지면 사용하지 말라
과장하지 않고 강조하기
값의 변화 보여주기 vs. 실제 값 보여주기
데이터 포인트가 아주 많거나 값들이 서로 비슷비슷할 ㄸ대 값의 차이나 증감률로 그래프를 그리는 게 더 효과적일 수 있음
개별 수량을 나타낼 때 항상 막대 그래프 사용하라
최근 변화를 시간 흐름의 관점에서 보여주기
장기적인 시계를 나타내는 차트에서 가장 최근 데이터 포인트의 작은 변화는 포착하기 어려울 수 있음. 그런 경우 추가로 차트를 작성하거나 줌목해야 할 부분을 확대해서 차트에 삽입함
개미 vs. 코끼리
어떻게 10달러짜리와 100달러짜리 주식의 실적을 공정하게 비교할까? -> 증감률 나타내기
비교 가능한 척도 선택하기 : Y 축 최솟값과 최대값의 비율을 같에 할 것
5장 차트로 계획 세우기
그래픽 요소와 복잡도는 딱 필요한 만큼만 유지하라
(나머지는 임의 생략함)
요약
숫자에 맥락을 부여하라
독자를 대신하여 계산하라. 변화율과 절대 수치 중 무엇이 더 진실한 표현인지 결정하라
가능한 한 글꼴의 종류는 적게 사용하라. 볼드체나 이탤릭체는 다른 것들과 구분할 목적으로 사용하되 두 종류를 한꺼번에 사용하지 마라
장식 목적이 아닌 정보 전달을 위해 색을 사용하라
독자가 힘들이지 않고 차트를 읽을 수 있도록 열심히 노력하라. Y축 척도의 증가분은 자연스러운 단위를 사용하라. 모든 막대차트의 기준선은 0으로 하라. 파이차트에서 면적이 가장 큰 파이 조각은 파이차트의 꼭대기인 12시 방향에 배치한다
되도록 적은 수의 그래픽 요소만 사용하라. 복잡도는 새로운 정보가 있을 때만 추가되러야 한다
차트의 형식을 결정하기 전에 요점을 명확하고 딱 부러지게 드러낼 수 있도록 정보를 걸러내라
각 차트는 핵심 메시지 전달에 필요한 만큼의 정보만 담아라
간결하고, 간결하며, 간결하라!