일상생활에서 흔히 접할 수 있는 데이터 시각화
보통 사람들은 1초에 약 1.7MB 정도의 데이터를 만들어낸다고 합니다.
구글은 매초 10만 건에 가까운 검색 요청을 처리하고 있으며, 하루 평균 85억 건, 한 해 동안 대략 3조 건이 넘는 검색을 처리합니다.
매 분당 500시간이 넘는 엄청난 양의 영상이 유튜브에 새롭게 업로드되고 있습니다.
2023년 한 해 동안 사람들이 하루에 보낸 이메일은 약 3,473억 건에 달하며, 이러한 추세는 계속 이어져 2026년에는 하루 평균 3,925억 건까지 늘어날 것으로 보입니다.
인스타그램에서는 하루 평균 9천5백만 건에 달하는 사진과 영상이 매일같이 올라옵니다.
우리는 살아가면서 자신도 모르게 데이터 시각화 (Data Visualization)를 자주 사용합니다. 매일 보지만 제대로 인식하지 못하고 그냥 지나치는, 우리 생활 속에 깊숙이 자리 잡은 시각화 예시들을 살펴보며 이야기를 시작해 보겠습니다.
택시 호출 앱, 지하철 노선도, 버스 시간표, 자동차 계기판, 달력, 시계, 타이머, 날씨 지도, 온도계, 오디오 볼륨 조절 바, 교과서, 성적표, 체중계, 걸음 수 측정기와 같은 운동량 기록 장치, 심박수, 칼로리 소모량, 운동선수 기록, 선거 결과 등은 매일 매시간 접하는 시각화가 얼마나 간편하고 효과적인지를 잘 나타내는 예시들입니다.
데이터 시각화라는 단어를 들으면 어떤 이미지가 떠오르시나요?
많은 분들이 선 그래프, 막대그래프, 원 그래프와 같은 기본적인 차트들을 떠올릴 것입니다. 이러한 차트들은 이제 데이터 시각화의 대표적인 예시로 여겨지고 있습니다. 이런 것들이 없었던 과거를 떠올려 보면 정말 불편했을 것입니다.
데이터 시각화의 중요한 기초를 다진 인물은 스코틀랜드 엔지니어인 윌리엄 플레이페어(William Playfair)입니다. 그는 1801년에 스코틀랜드의 경제학자로서 원형 차트와 막대 차트를 처음으로 고안했습니다.
플레이페어는 시각적인 표현이 복잡한 개념을 가장 효과적으로 전달한다고 믿었으며, 이러한 그의 신념 덕분에 오늘날 우리가 사용하는 다양한 차트들이 탄생할 수 있었습니다. 이러한 업적을 고려할 때 그를 통계 그래픽스의 아버지라고 부르는 것은 당연하며, 그의 공헌은 그가 세상을 떠난 지 오랜 시간이 지난 지금까지도 큰 영향을 미치고 있습니다.
데이터를 시각적으로 표현하는 방식은 다양하며, 각각 특정한 사용 목적에 맞춰 설계되었습니다. 주요 시각화 방식들 몇 가지를 간단히 살펴보겠습니다.
데이터를 시각적으로 표현하는 데 아주 효과적인 방법이며, 각각의 종류는 특정한 용도에 적합하게 설계되었습니다.
장점:
각 데이터 그룹의 빈도수 분포를 보여줍니다.
다양한 종류의 항목들을 비교하기 위해 상대적인 크기나 비율을 보여줍니다.
대용량 데이터 묶음을 보기 좋게 정리해서 보여줍니다.
표 자체보다는 전체적인 흐름을 더 잘 보여줍니다.
핵심 수치를 빠르고 쉽게 파악할 수 있도록 예상치를 제공합니다.
계산 결과가 얼마나 정확하고 믿을 만한지를 눈으로 직접 확인할 수 있습니다.
쉽게 이해할 수 있도록 사업이나 언론 분야에서 자주 활용됩니다.
단점:
더 자세한 설명이 필요합니다.
오해를 불러일으키도록 간단하게 왜곡될 수 있습니다.
핵심적인 가정이나 원인, 결과, 혹은 경향성을 제대로 보여주지 못합니다.
시간이 흐름에 따라 데이터가 어떻게 변하는지 보여주는 데 효과적이며, 변화의 추세를 한눈에 파악할 수 있도록 돕습니다.
장점:
시간의 흐름에 따라 변하는 데이터, 예를 들어 시간에 따라 달라지는 정보를 나타낼 때 효과적입니다.
데이터에 근거하여, 관측된 범위를 벗어난 값들도 예측해 볼 수 있습니다.
데이터가 여러 점으로 연결된 선 형태로 주어졌을 때, 중간에 비어있는 데이터 값들을 짐작해 볼 수 있습니다.
두 가지 이상의 대상을 비교하여 서로 연결되어 있는지, 어떤 관계를 맺고 있는지 알아볼 수 있습니다.
단점:
그래프만 보고 특정 위치의 정확한 수치를 알아내기는 쉽지 않을 때가 있습니다.
선이 너무 많거나, 두 선의 값이 비슷비슷하면 데이터 비교가 힘들 수 있습니다.
전체에서 각 부분이 차지하는 비율을 시각적으로 잘 나타내 주기 때문에, 각 항목이 전체에서 어느 정도의 비중을 갖는지 쉽게 파악할 수 있도록 도와줍니다.
장점:
원형과 슬라이스 표기법은 이미 잘 알려져 있어서, 부분과 전체 간의 관계를 비교적 쉽게 파악할 수 있습니다.
데이터의 각 부분이 전체에서 어느 정도 비중을 차지하는지 쉽게 파악할 수 있도록 시각적으로 표현해 줍니다.
5개 이하의 비교적 적은 범주를 보여주는 데 유용합니다.
색을 적절히 고르고, 레이블을 명확하게 붙이면 보기 좋은 발표 자료를 만들 수 있습니다.
단점:
정확성 문제가 발생할 수 있습니다. 특히 데이터 조각이 많거나 조각 간의 크기 차이가 미미할 경우, 각 조각을 비교하기가 어려워질 수 있습니다. 우리 뇌는 길이를 인식하는 것보다 각도를 구분하는 데 더 어려움을 느끼기 때문입니다. (이는 막대그래프와 비교해 볼 때 알 수 있습니다.)
항목 수가 많아질수록 알아보기 힘들어진다는 단점이 있습니다. 작은 조각들을 시각적으로 구별하기 어렵고, 색상이 너무 많이 사용되면 보는 사람이 혼란스러울 수 있습니다.
데이터 시각화 요소(색상, 3차원 효과, 분리된 조각 등)를 의도적으로 조정하여 데이터를 왜곡하고 잘못된 결론을 내리도록 유도할 수 있습니다.
데이터가 복잡해질수록 사용하기 어려워집니다. 특히, 많은 양의 데이터나 시간 변화에 따른 추세, 데이터들 사이의 연관성을 보여주기에는 적합하지 않습니다.
변수들 사이의 연관성을 파악하는 데 유용하며, 데이터를 시각적으로 분석하고 이해하는 데 도움을 줍니다.
장점:
겉으로는 서로 연관성이 없어 보이는 두 가지 요소를 비교함으로써, 그 둘 사이에 숨겨진 관계를 알아낼 수 있습니다.
일반적인 통계 그래프들은 주로 선형 데이터만을 다루는 데 비해, 산점도는 곡선 형태나 불규칙한 데이터 분포도 나타낼 수 있다는 장점이 있습니다.
점을 활용하면 산점도를 더 명확하게 파악할 수 있습니다. 또한, 그래프의 가독성을 향상하기 위해 가운데에 선을 추가하여 양 또는 음의 상관관계를 시각적으로 보여줄 수 있습니다.
산점도는 비교적 간단하게 만들 수 있으며, 기본적인 원리만 이해하면 몇 분 안에 직접 제작하는 것도 어렵지 않습니다.
단점:
한 번에 분석할 수 있는 변수의 수가 두 개로 제한되어 있어, 특정 주제나 인구 집단에 대한 심층적인 분석이 어려워질 수 있습니다.
데이터를 직접 모아서 그래프를 만들려면 일일이 입력해야 해서 실수나 정확하지 않은 결과가 나올 가능성이 있습니다.
특정 변수들 사이의 관계를 산점도로 나타낼 수 있지만, 관계가 뚜렷하다고 해서 반드시 원인과 결과 관계가 있는 것은 아닙니다. 따라서 산점도를 분석할 때 성급하게 결론을 내리는 오류를 범하지 않도록 주의해야 합니다.
데이터의 강도나 흐름을 색깔로 나타내어 시각적으로 보여줍니다.
장점:
마우스 클릭 횟수, 스크롤 움직임 정도, 시선 이동 경로 등 다양한 정보를 그림이나 그래프 형태로 보기 쉽게 나타냅니다.
페이지 내에서 가장 시선을 사로잡는 부분, 또는 가장 눈길을 끄는 영역을 찾아냅니다.
다양한 디자인 변경을 시도하고, 그것이 사용자 행동에 어떤 영향을 주는지 알아봅니다.
웹페이지, 모바일 앱의 사용 편의성을 개선합니다.
히트맵은 A/B 테스트 과정을 상당히 개선하는 데 도움을 줄 수 있습니다. 예를 들어 다음과 같은 것들을 할 수 있습니다:
- 버전별로 사용자들의 행동 패턴이 어떻게 다른지 보기 쉽게 보여줍니다.
- 왜 특정 버전의 성능이 더 뛰어난지 그 이유를 알아보는데 도움을 줍니다.
- 향후 테스트를 진행할 때 참고할 만한 가설을 설정하는 데 도움이 될 만한 정보를 제공합니다.
단점:
상관관계와 인과관계를 혼동하는 경우가 많습니다. 단순히 클릭 수가 많다고 해서 항상 좋은 결과로 이어지는 것은 아닙니다. 때로는 사용자들이 어떤 이유로 인해 헷갈려서 무심코 클릭했을 수도 있다는 점을 고려해야 합니다.
페이지 디자인이 사용자 행동에 미치는 영향은 무시할 수 없습니다. 레이아웃이나 디자인 요소들이 사용자의 행동 방식이나 히트맵 결과에 영향을 주어 실제와 다른 결과를 초래할 수 있습니다.
클릭을 긍정적인 반응으로 잘못 해석하는 경우가 있습니다. 하지만 클릭은 단순한 흥미 표현이 아니라 짜증이나 별다른 생각 없이 이루어지는 행동일 수도 있습니다.
히트맵은 특정 페이지에서의 사용자 행동만 보여주기 때문에, 전체적인 사용자 경험 흐름을 파악하는 데는 한계가 있습니다.
집계된 데이터만 너무 믿으면, 전체 히트맵에서 사용자 그룹별로 중요한 차이점을 놓칠 수 있습니다.
거의 사용되지 않거나 상호작용이 없는 영역은 디자인 상의 문제점을 드러내거나, 사용자에게 별로 중요하지 않은 정보가 있을 수 있습니다.
표본 크기가 충분하지 않으면 데이터 분석 결과가 왜곡되어 잘못된 판단이나 결정을 내릴 가능성이 있습니다.
트리 맵은 계층 구조로 이루어진 데이터를 효과적으로 정리하고 보여주는 시각화 방법입니다. 이 방법은 전체와 부분 간의 관계를 이해하기 쉽도록 돕습니다. 일반적으로 트리 맵은 여러 개의 사각형으로 구성되며, 각 사각형의 넓이는 해당 데이터의 양을 나타냅니다. 따라서 복잡한 계층적 정보를 단순하고 명확하게 전달하는 데 유용합니다.
장점:
좁은 공간 안에서 사각형 형태로 데이터를 표현하기 때문에, 데이터의 크기를 비교하거나 데이터 구성의 흐름을 파악하는 데 매우 효과적이고 직관적입니다.
데이터베이스를 이루는 여러 요소들과 구조를 시각적으로 보여주기 위해 다양한 크기와 색깔의 사각형이 활용됩니다. 이 사각형들은 데이터의 중요도에 따라 크기와 색깔이 달라지는데, 중요한 변수나 속성은 더 크게, 덜 중요한 변수나 속성은 더 작게 표현하여 차이를 명확히 보여줍니다.
데이터의 위계 구조를 시각화하여, 데이터 요소들의 중요도 순위, 각 요소 간의 차이점, 그리고 전체에서 차지하는 비율을 효과적으로 보여주는 데 활용됩니다. 트리맵은 원래 계층 구조 데이터를 시각적으로 표현하기 위해 만들어졌지만, 계층 구조가 아닌 데이터도 효과적으로 보여줄 수 있습니다. 특히 트리맵은 계층 구조가 없는 데이터를 다룰 때, 전체에서 특정 부분이 차지하는 비율을 나타내는 일반적인 원형 차트를 대신하여 활용될 수 있습니다.
트리맵은 원형 차트와 다르게 많은 수의 항목을 나타낼 수 있다는 큰 장점이 있습니다. 이는 트리맵이 막대 차트의 좋은 대체재가 될 수 있다는 의미입니다. 특히 데이터가 수많은 요소로 이루어져 있어 막대 차트로 시각화하기 어려운 경우, 트리맵은 여러 개의 사각형을 사용하여 다양한 항목들을 효과적으로 보여줄 수 있습니다.
단점:
데이터의 중요한 흐름을 보여주기는 하지만, 세밀한 비교나 변수들 사이의 연관성을 명확하게 밝히는 데는 한계가 있습니다.
데이터 시각화는 어려운 정보를 사람들이 더 쉽게 이해하고 흥미를 느낄 수 있는 이야기처럼 풀어내는 작업입니다. 다양한 차트의 종류를 사용하면 데이터 안에 숨겨진 흐름을 찾아내고, 여러 가지 형태를 발견하여 더 나은 결정을 내릴 수 있도록 시각적인 결과물을 만들 수 있습니다.
핵심은 보여주고자 하는 내용을 정확히 파악하고, 이해하기 쉬운 스토리를 만드는 데 있습니다. 데이터 특성에 맞는 적절한 차트를 고르고 디자인을 간결하게 유지하는 것도 중요합니다. 색상을 효과적으로 사용하고 데이터의 의미를 설명하는 추가 정보를 제공하며, 데이터의 정확성을 유지해야 합니다. 시각화 작업을 시작하기 전에 데이터를 미리 정리하고 구조화하는 것도 잊지 말아야 할 필수 과정입니다.
디자인을 활용하여 데이터를 시각적으로 나타내는 것은 데이터 이해도를 높이는 데 매우 효과적인 방법입니다. 특히, 시각적 요소와 스토리를 함께 제시하면 데이터는 더욱 흥미롭게 다가오고 쉽게 이해할 수 있게 됩니다. 뛰어난 데이터 시각화는 예술적인 감각과 과학적인 분석 능력을 융합하여, 단순한 데이터 덩어리를 의미 있는 정보로 변환하고 새로운 영감을 불어넣습니다. 다음 이야기에서는 데이터 스토리 텔링 (Data storytelling)에 관한 글을 적어 보겠습니다.