‘데이터 시각화의 재구성’은 기사나 뉴스레터 등에서 볼 수 있는 잘못된 데이터 시각화 사례를 바탕으로 만드는 콘텐츠입니다. 기존 데이터 시각화의 잘못된 점을 살펴보고 올바른 데이터 시각화 차트를 제작하기 위해 고민하였습니다. 차트를 만드는 사람에 따라 디자인이 조금씩 달라질 수는 있지만, 데이터의 의미를 정확하게 전달하기 위해 지켜야 할 요소를 적용하여 재구성하였음을 알려드립니다.
이번 콘텐츠에서는 파이차트와 이중도넛차트를 재구성해 보겠습니다. 파이차트와 도넛차트는 전체에서 차지하는 비율을 한눈에 볼 수 있어 자주 사용하는 유형인데요. 사례를 보면서 어떤 오류가 있는지, 이를 어떻게 바꾸면 데이터의 의미를 효과적으로 전달할 수 있을지 함께 알아볼까요?
파이차트는 전체 데이터가 어떤 항목으로, 어떻게 구성되어 있는지 알고 싶을 때 사용합니다. 원은 전체의 데이터를 의미하고요, 조각 면적의 크기를 비교해서 각각 어느 정도를 차지하는지 비율을 확인할 수 있어요. 이때! 전체 비중의 합은 100%를 넘어서는 안 됩니다.
2021년 7월 A일보에서 발행한 기사에 들어간 데이터 시각화입니다. 이 차트에선 어떤 오류가 보이시나요? 저는 두 가지가 눈에 띄었어요.
첫 번째는 두 가지 지표를 하나의 차트에 나타냈다는 점이에요. 위의 데이터 시각화를 보면 ‘간헐적 채식을 실천하고 있다’와 ‘환경을 위해 음식・식사 습관을 바꾼 경험이 있다’는 두 가지 항목이 보이는데요, 크게는 MZ 세대의 식습관을 묻고 있지만 자세히 보면 내용이 달라요.
‘간헐적 채식을 실천하고 있다’는 응답이 나올 만 한 질문은 ‘채식을 실천하고 있나요?’일 거예요. ‘항상 채식을 실천한다’, ‘채식을 실천하지 않는다’와 같은 항목이 있었을 거고요. 그다음은 ‘환경을 위해 음식・식사 습관을 바꾼 경험이 있나요?’가 질문이 되고 ‘있다’, ‘없다’로 나뉘지 않았을까요?
하지만 위 데이터 시각화는 여러 지표 값을 하나의 차트로 표현했기 때문에 잘못된 시각화라고 할 수 있습니다.
두 번째 오류는 전체 비율이 100%를 넘는 것이에요. 차트에서 나타나는 값인 95.6%와 27.4%를 더했을 때 합계가 123%로 100%를 넘기 때문에 역시 잘못된 시각화입니다.
이 데이터를 올바르게 시각화하려면 차트를 두 개 그려야 합니다. 자료 출처와 캡션의 정보를 토대로 원본 데이터를 찾아보니 대학내일 20대연구소에서 발표한 보고서를 확인할 수 있었습니다. 이 원본 데이터를 가지고 두 개의 파이차트를 만들어보겠습니다.
‘환경을 위해 음식⋅식사 습관을 바꾼 경험이 있나요?’라는 지표와 ‘채식을 실천하고 있나요?’라는 응답에 대한 데이터를 각각 나누어 시각화하였습니다.
A일보는 데이터 시각화를 통해 ‘MZ세대는 환경오염 문제에 민감하게 반응하고, 환경을 위해 음식⋅식사 습관을 바꾸며 채식하는 비율도 높다’는 내용을 전달하고 싶었을 것입니다. 하지만 지표를 각각 나누니 채식을 시도하지 않는 비율이 62.1%로 가장 높게 나타났어요. 이런 경우 의도한 내용과 다른 의미가 전달되는 셈이니 ‘채식 실천 여부’는 시각화를 하지 않는 것이 더 나을 수 있습니다.
도넛차트는 파이차트와 비슷해요. 조각별 면적의 차이로 전체 데이터에서 차지하는 값의 크기를 비교할 수 있습니다. 비어 있는 중간 영역에 텍스트나 아이콘 등을 넣으면 핵심 내용을 강조할 수도 있고요. 특히 항목이 2~3종류일 때 유용하고 도넛의 크기나 컬러에 의해 직관적으로 그 규모를 확인할 수 있어야 한답니다.
2021년 7월 B일보에서 발행한 뉴스레터에 들어간 이중도넛차트입니다. 미국 IT 기업의 매출 비중 데이터를 시각화했어요. 이미지 하단의 캡션을 통해 2011년과 2021년의 매출 비중을 비교하고 있음을 안내하는데요. 이 차트를 보고 시간의 흐름에 따라 데이터가 어떻게 달라졌는지, 그 의미를 한눈에 이해하기는 어려웠습니다.
연도별 데이터의 차이는 같은 컬러의 면적을 비교해서 알 수 있습니다. 하지만 면적의 크기나 둘레만으로 직관적인 차이를 느낄 수는 없었어요. 결국 의미를 파악하기 위해서는 숫자(레이블)를 보아야 합니다.
도넛차트는 도넛 조각의 길이(혹은 면적)를 통해 데이터의 의미를 직관적으로 느낄 수 있어야 하는데, 이 경우 숫자를 보아야만 그 의미를 정확히 알 수 있기 때문에 좋은 시각화는 아니라고 할 수 있습니다.
또한, 2011년을 나타내는 원과 2021년을 나타내는 원의 둘레가 다른데요. 2011년에 비해 2021년의 둘레가 더 커서 마치 매출이 늘어난 것처럼 보여요. 비율을 나타내는 원의 둘레만으로는 매출이 증가했는지 감소했는지 알 수 없는데도 말이에요.
어떤 유형의 데이터 시각화가 이 데이터의 의미를 잘 전달할 수 있을까요? 이 데이터를 통해 하고 싶은 이야기는 ‘10년 전과 지금, 애플, 구글, MS, 페이스북의 매출 비중이 어떻게 달라졌는가’입니다. 이런 경우에는 가장 기본적인 막대차트를 사용하더라도 내용을 효과적으로 전달할 수 있습니다.
막대차트는 항목끼리 비교할 때 적합한 유형입니다. 막대의 길이(높이)로 데이터를 표현하기 때문에 2011년과 2021년, 각 기업의 매출이 늘어났는지 또는 줄어들었는지를 쉽게 파악할 수 있습니다.
그렇다면 앞서 본 이중도넛차트는 어떤 데이터에 적합한 유형일까요? 이중도넛차트는 범주형 변수 여러 개를 가지고 데이터 셋을 분할하는 시각화 방식입니다. 하나의 변수가 있고 그 세부 항목이 존재하는 계층형 데이터 변수를 시각화할 때 사용할 수 있어요. 그래서 내포파이차트라고 부르기도 합니다.
매출 비중을 나타내는 데이터를 예로 들어보면 애플의 매출을 차지하는 도넛 조각 내에서 아이폰, 맥, 아이패드, 웨어러블⋅홈 및 액세서리, 서비스 등 세부 내역을 포함하는 하위 그룹이 있는 경우에 이중도넛차트로 나타낼 수 있는 거죠.
위 데이터에 임의로 설정한 하위 항목을 추가하여 이중도넛차트를 만들어보았습니다. 외부의 원은 각 IT 기업의 매출 비중(하나의 변수)을, 내부의 원은 각 기업별 매출 상세 내역(2차 변수)을 나타내고 있습니다. 조각이 너무 많아질까봐 일부러 2~3가지의 하위그룹을 설정했는데도 지표가 너무 많아서 조각이 작아지고 내역도 잘 보이지 않아요. 그래서 별로 추천하고 싶지 않은 유형입니다.
지금까지 기사와 뉴스레터에 삽입된 파이차트와 이중도넛차트 사례를 통해 잘못된 점이 무엇인지 살펴보고, 올바른 데이터 시각화 차트를 제작해보았습니다.
파이나 도넛차트는 전체의 합이 100%를 넘어서는 안 된다는 점과 항목이 2~3가지일 때 데이터의 의미를 가장 효과적으로 전달할 수 있다는 점을 다시 한번 기억해주세요.
데이터와 데이터 시각화에 관해 궁금한 사항이 있거나, 잘못된 시각화 사례를 발견하셨다면 언제든 뉴스젤리에 알려주세요. 여러분의 적극적인 피드백을 기다리고 있겠습니다. 우리 다음 콘텐츠에서 또 만나요!
Editor. 브랜드 마케팅팀 귤젤리
뉴스젤리와 모비인사이드의 파트너쉽으로 제공되는 기사입니다.