18. 데이터의 시각적 표현 기법
1. 데이터 시각화를 학습하기 전에 알고 있으면 도움이 되는 주요 개념은 기본 통계 개념, 데이터의 유형과 형식 이해, 디자인 원칙, 스토리텔링 기법 등이 있습니다. 이러한 기초 지식이 있으면 데이터 시각화를 보다 효율적으로 학습하고 활용할 수 있습니다.
데이터 시각화를 학습하면서 알아두면 도움이 되는 주요 내용에 대하여 살펴보겠습니다.
첫 번째는 기본 통계 개념입니다.
데이터 시각화를 통해 전달하려는 메시지를 명확히 하기 위해서는 통계 및 분석 개념을 이해하는 것이 중요합니다. 이를 통해 데이터에서 필요한 통계 값이나 분석 결과를 기반으로 더 의미 있는 시각화를 할 수 있습니다.
데이터 분석에서 쓰이는 기본적인 통계 개념을 몇 가지 알아보겠습니다.
널리 쓰이고 있는 평균은 데이터의 중심값을 나타내며, 데이터를 모두 더한 뒤 데이터 수로 나눈 값입니다.
중앙값은 데이터를 크기 순서대로 정렬했을 때 중간에 위치한 값을 말합니다. 중앙값은 특히 이상치가 있는 데이터에서 평균보다 데이터의 중심을 더 잘 나타낼 수 있습니다.
최빈값은 데이터에서 가장 자주 나타나는 값으로, 범주형 데이터의 빈도를 파악하는 데 유용합니다.
분산과 표준편차는 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 것입니다. 분산은 데이터 값들이 평균에서 얼마나 떨어져 있는지를 제곱하여 계산하고, 표준편차는 분산의 제곱근으로, 데이터가 퍼져 있는 정도를 평균 기준으로 측정하는 데 사용되는 값입니다.
상관관계는 두 변수 간의 관계를 나타내며, 상관계수가 양수이면 두 변수는 함께 증가하거나 감소하고, 음수이면 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있는 것을 의미합니다.
확률분포는 데이터가 특정 값 또는 범위 내에 존재할 확률을 나타내는 함수로, 대표적인 확률분포로는 정규분포, 이항분포, 포아송 분포 등이 있습니다.
이러한 기본 통계 개념들은 데이터가 가지는 특성을 정량적으로 설명하고 예측하는 데 필수적이며, 분석과 시각화의 기초가 되는 개념입니다.
두 번째는 데이터의 유형과 형식 이해입니다.
데이터의 유형에 따라 적절한 시각화 방법이 다르므로, 데이터를 명확히 이해하고 구분하는 방법을 알아두어야 합니다. 연속형, 이산형 데이터는 각각 표현 방식이 다르기 때문에 시각화를 위해서는 데이터 유형을 정확히 아는 것이 중요합니다.
연속형 데이터는 두 값 사이에 무한히 많은 값이 존재할 수 있는 데이터로, 측정 단위가 작아지면 더욱 정밀하게 값을 나타낼 수 있는 데이터를 말합니다. 연속형 데이터는 보통 시간, 길이, 무게, 온도와 같이 측정할 수 있는 양입니다.
연속형 데이터에 적합한 시각화 방법으로는 히스토그램과 선 그래프, 연속형 데이터 범위와 중앙값을 한 눈에 보여주는 상자 수염 그림 등이 있습니다.
반면에 이산형 데이터는 특정 값들로만 이루어져 있고, 중간 값이 존재하지 않는 데이터를 의미합니다. 즉 값들이 분리되어 있고, 특정 정수 값만 존재하며, 소수점 단위로는 측정할 수 없는 데이터입니다. 이산형 데이터는 보통 개수, 횟수, 분류형 데이터처럼 셀 수 있는 값을 가지며, 정수로 나타낼 수 있는 경우가 많습니다.
이산형 데이터에 적합한 시각화 방법에는 막대그래프, 파이 차트, 점 그래프 등이 있습니다.
이와 같이 연속형과 이산형 데이터의 구분을 통해 데이터의 성격에 맞는 분석 방법과 시각화 기법을 선택할 수 있습니다.
세 번째는 디자인 원칙입니다.
시각화에서 디자인 원칙과 시각적 요소는 중요한 역할을 합니다. 색상, 간격, 비율 등은 잘못 사용하면 오히려 데이터를 왜곡하거나 혼동을 줄 수 있습니다. 따라서 데이터의 종류와 전달하고자 하는 메시지에 맞는 디자인 원칙을 학습해야 합니다.
디자인 원칙에는 명확성, 단순함, 색상 이론, 일관성, 시각적 계층구조 등이 있습니다.
명확성은 데이터를 명확하고 간결하게 전달하는 것으로, 복잡한 디자인이나 불필요한 장식은 시각화의 목적을 흐릴 수 있으므로 지양하는 것이 좋습니다. 독자가 시각화를 이해하는 데 불필요한 시간이 들지 않도록, 시각 요소와 그래프의 구성 요소는 직관적이고 이해하기 쉬워야 합니다.
디자인 원칙의 단순함은 복잡한 그래프보다는 한 번에 하나의 메시지나 아이디어에 집중한 단순한 시각화가 효과적임을 말합니다. 너무 많은 정보나 데이터 포인트를 한 그래프에 담지 말고, 필요에 따라 여러 개의 그래프로 나누는 것이 좋습니다.
디자인 원칙에서 색상은 데이터 간의 구별을 쉽게 하고, 데이터의 의미를 전달하는 데 유용합니다. 그러나 지나치게 많은 색을 사용하면 혼란을 줄 수 있으므로 주의가 필요합니다. 색상을 통해 데이터를 그룹화하거나, 특정 값을 강조하는 등의 활용을 고려하되, 색맹 사용자들을 위해 대비를 충분히 줄 수 있도록 디자인해야 합니다. 예를 들어, 고객 분포를 나타낼 때는 카테고리 구분을 위해 색상을 다양하게 사용하되, 색상 대조를 강하게 하여 각 그룹을 명확히 구분할 수 있게 해야 합니다.
디자인 원칙 중 일관성은 하나의 프로젝트나 보고서 내에서는 일관된 색상, 글꼴, 크기 등을 사용하는 것을 의미하고, 그래프나 차트의 스타일이 일관되면 데이터의 흐름을 읽기 쉬울 수 있습니다.
시각적 계층구조는 정보의 중요도와 순서를 시각적으로 배치하여 사용자가 자연스럽게 데이터를 읽고 이해할 수 있도록 돕는 디자인 원칙입니다. 시각적 계층구조를 통해 주요 정보를 쉽게 파악하고, 전체 정보를 효율적으로 전달할 수 있습니다.
시각적 계층구조를 구현하는 주요 요소에는 크기, 색상, 명암과 대비, 공간과 간격 등이 있습니다.
크기 요소에서 더 큰 요소는 작은 요소보다 눈에 더 잘 띄고, 중요한 정보를 크게 표시하여 사용자 주의를 집중시킬 수 있습니다. 예를 들어, 강조하고자 하는 데이터 포인트나 제목을 더 큰 크기로 배치해 전체적인 맥락을 전달하는 것입니다.
색상은 시각적 계층구조를 설정하는 데 매우 효과적입니다. 강렬한 색상은 주의를 끌기 때문에, 중요한 데이터는 더 선명하고 대비가 강한 색으로 표시하고, 덜 중요한 데이터는 중립적이거나 어두운 색으로 처리합니다. 예를 들어, 파란색 배경 위에 노란색 텍스트는 사용자 시선을 끌기에 좋습니다.
명암과 대비 요소에서 요소 간의 대비는 시각적 우선순위를 설정하는 데 중요합니다. 높은 대비를 주면 눈에 더 잘 띄기 때문에 중요한 정보는 더 높은 대비를 적용하는 것입니다. 이것은 데이터의 강약을 강조할 때에도 대비를 이용하여 자연스럽게 사용자 눈길을 유도할 수 있습니다.
공간과 간격 요소에서 공백은 데이터를 구성하고 정보의 순서를 설정하는 데 중요한 역할을 합니다. 요소 사이에 충분한 여백을 주면, 각 정보가 독립적이고 명확하게 인식되며, 사용자는 자연스럽게 정보의 흐름을 이해할 수 있습니다. 여백을 통해 정보가 혼잡하지 않도록 하며, 중요한 정보 주변에 여백을 주어 주의를 집중시킬 수도 있습니다.
시각적 계층구조를 통해 데이터 시각화의 전달력을 높이고, 데이터의 흐름과 중요도를 효과적으로 전달할 수 있습니다.
이러한 디자인 원칙을 적용한 데이터의 시각화는 시각화의 대상이 누구인지 고려하고, 그들의 수준에 맞춰 디자인해야 합니다. 전문 지식이 없는 사람들을 대상으로 한다면 복잡한 그래프보다는 이해하기 쉬운 시각화를 선택하는 것이 좋습니다.
데이터의 시각화에 도움이 되는 네 번째는 스토리텔링 기법입니다.
데이터 시각화는 단순히 데이터를 보여주는 것이 아니라, 데이터로 설득력 있는 이야기를 전달하는 도구입니다. 분석된 데이터를 논리적인 흐름에 따라 제시하여 청중이 시각화를 통해 데이터의 의미를 쉽게 이해하고 공감할 수 있도록 해야 합니다. 스토리텔링 기법을 잘 활용하면 데이터의 의미와 가치를 극대화할 수 있습니다.
이러한 스토리텔링의 기법을 살펴보면,
먼저 시작, 중간, 끝으로 나누는 스토리의 구조 설계가 필요합니다.
시작에서는 데이터를 설명하는 배경 정보를 제시하여 독자가 전체 맥락을 이해하도록 돕는 단계이다. 이 단계에서는 문제의식, 질문 또는 목표를 간결하게 제시하는 것이 좋습니다.
중간에서는 주요 인사이트와 통찰을 단계적으로 제시하며, 점진적으로 복잡한 데이터를 설명합니다. 차트, 그래프, 이미지 등을 통해 데이터를 시각적으로 설명하고 주요 지표나 데이터를 부각하여 스토리를 이어가는 단계입니다.
끝은 마지막으로 핵심 메시지를 강조하고, 데이터를 통해 얻은 결론이나 시사점을 제시합니다. 이때, 독자가 취할 수 있는 행동이나 다음 단계에 대한 제안을 포함하는 것도 효과적입니다.
스토리의 구조 설계 후에는 주요 포인트를 강조해야 합니다. 모든 데이터를 다 보여주기보다는 중요한 데이터 포인트를 선택해 강조합니다. 이를 통해 스토리의 흐름을 이끌고, 독자가 핵심 메시지에 집중할 수 있도록 해야 합니다. 예를 들어, 변화가 큰 시점이나 극적인 데이터 포인트를 강조하고, 해당 부분에 대해 주석을 추가하거나 색상, 크기 등으로 시각적 강조를 주는 것입니다.
또한 정보를 점진적으로 공개하여 스토리의 흐름을 따라가게 합니다. 너무 많은 정보를 한 번에 제공하면 독자가 집중하기 어려울 수 있기 때문에, 중요도나 시간 순서에 따라 단계적으로 보여주는 것입니다. 예를 들어, 데이터를 연도별로 순차적으로 나타내거나, 애니메이션을 통해 시간 흐름에 따른 변화를 보여줄 수 있습니다.
스토리텔링의 기법에서 효과적으로 제시하는 방법으로는 의문을 제시하고 해답을 주는 형식을 활용하는 것이 좋습니다. 처음부터 결론을 제시하기보다는 흥미로운 질문을 던지고, 그에 대한 해답을 데이터로 보여주는 방식입니다. 이를 통해 독자가 데이터 시각화를 하나의 탐색 과정으로 받아들이고, 답을 찾는 재미를 느낄 수 있습니다. 예를 들어, "왜 A 지역의 소비가 급격히 증가했을까?"와 같은 질문을 던지고 데이터를 통해 설명을 제시하는 방법입니다.
스토리텔링의 목표는 데이터를 통해 특정 결론이나 행동을 유도하는 것입니다. 따라서 데이터 시각화의 흐름을 결론으로 자연스럽게 이끌도록 설계하는 것이 좋습니다.
이와 같은 기초 개념을 알고 있으면 데이터 시각화를 학습할 때 훨씬 수월하며, 복잡한 데이터도 효과적으로 시각화할 수 있습니다.
2. 데이터 시각화에는 여러 가지 기법이 있으며, 각 기법은 특정한 데이터 유형이나 전달하려는 정보의 적합성에 따라 효과적으로 사용될 수 있습니다.
데이터를 시각화하는 기법은 데이터를 그래프, 차트, 맵 등 시각적 형식으로 변환하여 정보를 명확하고 직관적으로 전달하는 과정입니다.
주요 데이터 시각화 기법에 대해 알아보고 적합하게 쓰일 수 있는 적절한 예시도 살펴보겠습니다.
데이터 시각화의 첫 번째 기법은 막대 그래프(Bar Chart)입니다.
막대 그래프는 범주형 데이터나 이산형 데이터 값을 비교하는 데 사용되는 가장 일반적인 시각화 기법 중 하나로 각 범주를 나타내는 막대의 길이 또는 높이를 통해 데이터의 크기나 빈도를 쉽게 비교할 수 있습니다. 이러한 막대그래프로 데이터를 시각화하는 기법은 여러 분야에서 활용되고 있습니다. 그 활용 예시를 살펴보면, 여러 제품의 매출 비교나 연령대별 인구 수, 설문조사에서 각 항목에 대한 응답 수를 비교할 때 막대 그래프로 나타내면 한 눈에 쉽게 비교할 수 있습니다.
막대 그래프는 세로형 또는 가로형으로 데이터의 크기를 시각적으로 명확하게 보여주기 때문에 서로 다른 항목을 쉽게 비교할 수 있고, 그룹화된 막대 그래프나 누적 막대 그래프와 같은 변형도 가능하여 다양한 유형의 데이터를 표현할 수 있어 여러 상황에서 유용하게 사용되는 장점이 있습니다. 또한 각 항목 간의 차이를 명확하게 보여줄 수 있어 데이터의 우열을 빠르게 파악할 수 있고, 범주형 데이터뿐만 아니라 여러 그룹의 데이터를 한 그래프에서 비교할 수 있습니다. 하지만 너무 많은 범주를 한 그래프에 담으면 복잡성이 증가하여 가독성이 떨어질 수 있고, 아주 작은 차이를 표현하기에는 제한이 있을 수 있는 단점도 있습니다.
막대 그래프는 데이터 시각화에서 가장 기본적이면서도 강력한 도구로, 복잡한 데이터를 간단하고 명확하게 비교하는 데 큰 도움을 주는 기법입니다.
두 번째 기법은 원형 차트 (Pie Chart)입니다.
원형 차트는 마치 피자를 여러 조각으로 나누는 것처럼 전체 데이터를 조각으로 나누어 각 부분이 얼마나 큰지 쉽게 비교할 수 있게 해주는 것으로 원을 여러 조각으로 나누어 각 부분이 전체에서 차지하는 비율을 시각화하는 기법을 말합니다.
원형 차트는 각 조각이 서로 다른 색상으로 표현되어, 데이터 항목 간의 구별이 쉬워 데이터 항목이 보통 5~6개 이하의 항목을 표현할 때 가장 효과적입니다. 항목이 많아지면 원형 차트가 복잡해지고 해석하기 어려워질 수 있습니다. 또한 각 항목이 전체에서 차지하는 비율을 강조하고 싶을 때도 유용하게 활용할 수 있습니다.
원형 차트를 활용하여 한 회사의 인사, 마케팅, 개발, 운영으로 나뉘어 있는 예산을 각 부서가 전체 예산에서 얼마나 큰 부분을 차지하는지 시각적으로 쉽게 확인할 수 있습니다. 여러 회사의 시장 점유율을 나타낼 때에도 원형 차트를 사용하여 각 회사가 전체 시장에서 얼마나 큰 비중을 차지하는지 쉽게 비교할 수 있습니다. 예를 들어, 전체 시장을 100%로 보고, 회사 A가 40%, 회사 B가 30%, 회사 C가 20%, 회사 D가 10%의 시장 점유율을 갖는다면, 원형 차트에서 각각의 비율만큼 조각이 할당되고 색상으로 구분하여 원형차트로 나타낼 수 있는 것입니다.
원형 차트는 데이터를 직관적으로 보여주기 때문에, 비율이나 분포를 설명할 때 매우 유용한 시각화 기법입니다.
세 번째 기법은 선 그래프 (Line Chart)입니다.
선 그래프는 시간이 지남에 따라 데이터가 어떻게 변하는지 보여주는 데 매우 유용한 기법입니다. 예를 들어, 월별 매출액, 주간 기온 변화, 연도별 인구 증가 등을 시각화할 때 사용됩니다. 각 데이터 포인트를 점으로 표시하고, 이 점들을 선으로 연결하여 데이터가 증가하거나 감소하는 패턴을 한눈에 파악할 수 있습니다.
선 그래프를 통해 데이터의 항목이 지속적으로 증가하는지, 특정 시점에서 급격히 변하는지 등의 데이터 트렌드를 쉽게 확인할 수 있고, 하나의 그래프에 여러 개의 선을 그려서 서로 다른 항목의 변화를 비교할 수도 있습니다. 예를 들어, 여러 제품의 매출 변화를 비교하는 경우, 각각의 제품에 대해 다른 선을 그려 한눈에 비교할 수 있습니다.
선 그래프는 시간에 따른 데이터의 변화를 시각적으로 표현하는 데 매우 유용한 도구입니다. 데이터를 선으로 연결하여 추세를 쉽게 파악할 수 있고, 여러 데이터 집합을 비교하는 데도 효과적입니다. 다만, 너무 많은 데이터가 포함될 경우 가독성이 떨어질 수 있으므로 적절한 사용이 필요한 시각화 기법입니다.
네 번째 기법은 히스토그램 (Histogram)입니다.
히스토그램은 데이터 분석에서 매우 유용한 도구로, 데이터를 이해하고 분석하는 데 다양한 방법으로 활용할 수 있습니다. 빅데이터 분석에서 히스토그램은 대량의 데이터를 효과적으로 시각화하고 이해하는 데 중요한 도구로 활용됩니다.
빅데이터에서는 수많은 데이터 포인트가 존재하기 때문에, 전체 데이터를 일일이 살펴보는 것은 현실적으로 불가능합니다. 히스토그램을 사용하면 이러한 데이터를 구간별로 요약하여 분포를 쉽게 이해할 수 있습니다. 이는 데이터의 일반적인 패턴을 파악하고, 어떤 구간에 데이터가 집중되어 있는지 확인하는 데 필요한 기법입니다. 빅데이터는 일반적으로 다양한 출처에서 수집되므로, 노이즈나 이상치가 포함될 가능성이 큽니다. 히스토그램을 통해 데이터의 전반적인 변동성을 파악하고, 비정상적으로 높은 빈도의 구간을 찾아내어 이상치를 탐지할 수 있습니다. 예를 들어, 대부분의 데이터가 특정 구간에 몰려있는데 한두 개의 막대가 크게 튀어나와 있으면, 해당 구간에 이상치가 있을 가능성이 큽니다. 이를 통해 분석에 앞서 데이터를 정제하는 데 도움을 줄 수 있습니다. 이는 빅데이터의 신뢰성을 높이는 중요한 단계에서 적극 활용되고 있음을 알 수 있습니다.
다섯 번째 기법은 산점도(Scatter Plot)입니다.
산점도는 두 변수 간의 관계를 시각적으로 표현하는 그래프로, 각 데이터 포인트는 이차원 평면상에 위치하게 됩니다. 여기서 데이터 포인트란 X축과 Y축의 좌표를 기반으로 위치하게 되는 하나의 포인트로 특정 관측값에 해당하며, 이 관측값은 X와 Y 두 변수의 결합된 결과를 나타냅니다.
빅데이터 분석에서 산점도는 데이터 포인트들이 특정 영역에 집중되어 있거나 여러 군집으로 나뉘는지 확인할 수 있어 군집화 알고리즘에 적용하기 전에 데이터 구조를 이해하는데 적합한 기법입니다. 또한 데이터가 어떻게 퍼져 있는지, 즉 분산 정도를 시각적으로 파악할 수 있는 기법이 산점도입니다. 빅데이터에서는 데이터의 분산이 클수록 분석 결과의 신뢰도에 영향을 미칠 수 있기 때문에 산점도는 빅데이터 분석에 중요한 역할을 하고 있는 데이터 시각화 기법입니다.
여섯 번째 기법은 히트맵(Heatmap)입니다.
히트맵은 데이터를 색깔로 표현한 지도 같은 그래프로 빅데이터와 같은 대량의 데이터를 한눈에 파악할 수 있게 해주는 시각화 기법입니다.
히트맵은 보통 X축과 Y축에 두 가지 변수를 놓고 각 셀(네모난 칸) 안의 데이터 값을 색깔로 나타냅니다. 색깔이 진할수록 값이 크거나 많다는 뜻이고, 색깔이 옅을수록 값이 작거나 적다는 뜻입니다.
빅데이터는 정보가 너무 많아서 보기 어려울 수 있습니다. 이때 히트맵을 사용하면, 방대한 데이터를 간단하게 시각화하여 중요한 패턴이나 경향을 쉽게 발견할 수 있습니다. 히트맵은 어떤 변수들이 높거나 낮은지, 언제 특정 값들이 집중되는지 쉽게 알 수 있어 패턴을 발견하는데 유용하고, 이상하게 높은 값이나 낮은 값이 특정 위치에 나타나는지 쉽게 확인할 수 있어 문제 발견에도 적합한 시각화 기법입니다.
히트맵은 빅데이터에서 수많은 정보를 직관적으로 이해하여 중요한 인사이트를 얻는 데 매우 유용한 시각화 기법입니다.
이러한 다양한 시각화 기법들을 활용하면, 복잡한 데이터를 쉽게 이해하고 중요한 인사이트를 도출할 수 있습니다. 데이터를 효과적으로 표현하기 위해서는, 어떤 유형의 데이터에 어떤 기법이 가장 적합한지 잘 선택하는 것이 중요합니다.