brunch

You can make anything
by writing

C.S.Lewis

by Youjin Shin ㅣ 신유진 Sep 27. 2023

선 그래프의 Y축 사용법

데이터시각화 사용법

데이터시각화 사용법

선 그래프는 데이터 시각화의 한 형태로, 주로 시간에 따른 데이터의 변화를 나타내는 데 사용됩니다. 예를 들면, 월별 판매량, 연도별 기후 변화, 일별 주식 가격 등의 데이터를 선 그래프로 표현할 수 있습니다.


선 그래프는 우리에게는 다소 익숙한데요. 선 그래프는 Y축을 어떻게 사용하는지에 따라 데이터의 값을 좀 더 정확하게 표현할 수도 있고, 다른 데이터 셋을 목적에 맞게 비교도 가능합니다. 이 글에서는 선 그래프의 Y축 사용법에 대해 좀 더 자세히 다뤄보도록 하겠습니다.




꼭 0점에서 시작할 필요는 없다


우리는 바 그래프를 볼 때, 각각의 바(Bar)인 직사각형의 면적을 통해 값을 인식하게 됩니다. 때문에 바 그래프에서는 축의 기준점을 0점으로 두는 것이 매우 중요합니다. 하지만, 선 그래프는 각각의 값을 보여주기 보다는 시간에 따른 변화를 보여주는 것이기 때문에 꼭 0점에서 시작할 필요는 없습니다.


다음은 월스트리트 저널에서 발행한 차트의 한 부분입니다. 설문조사를 통해, 당시 미국이 나아가는 방향이 옳은지 잘못되었는지 질문에 대한 대답을 선그래프로 보여주고 있습니다. 최소 값이 약 20% 그리고 최대값이 약 70%인데요. 이 최소, 최대값이 Y축의 범위가 되었습니다. 선 그래프는 시간에 따른 값의 변화를 보여주는 데 목적을 두고 있기 때문에 이렇듯 데이터의 최소, 최대값이 종종 Y축 범위가 되곤 합니다.


출처: 월스트리트 저널 (https://www.pinterest.com/pin/98023729367896421/)



하지만, Y축이 0점이어야 하는 경우도 있습니다. 아래는 뉴욕타임즈에서 발행된 코로나 바이러스 확진자 그래프입니다. 자세히 보면 선 그래프 밑으로 바 그래프가 보입니다. 매일의 확인자 수가 바 그래프로 보여지고 이 확진자 수의 변화를 트렌드로 쉽게 볼 수 있게 하기 위해, 7일 동안의 평균 확진자 수를 선 그래프로 나타낸 것입니다. 이렇듯 선 그래프가 바 그래프와 함께 보여지는 경우, Y축은 0점에서 시작해야겠죠.


출처: 뉴욕타임즈 (https://www.nytimes.com/2021/08/16/us/coronavirus-briefing-what-happened-today.html)





데이터에 맞는 스케일 선택하기


간혹 데이터 값의 차이가 크게 나는 데이터를 표현해야할 때가 있습니다. 코로나 바이러스 확진자 수의 나라별 차이가 가장 대표적인 예가 아닐까 싶습니다. 아래와 같이 한국이나 일본의 확진자가 약 100명이고 미국의 확진자가 2만명일 때, 이 값들을 하나의 차트의 표현하면 한국이나 일본의 확진자 수 변화는 상대적으로 너무 작아서 차트에서 보여지지가 않습니다. 이때 우리는 로그 스케일(logarithmic scale)을 사용할 수 있습니다.


로그 스케일은 수치의 크기 차이를 로그 값의 형태로 표현하는 스케일 방식입니다. 값의 범위가 극단적인 값을 다룰 때, 로그 스케일은 이러한 값들을 작은 범위로 변환하여 그래프에 표현하기 쉽게 합니다. 파이낸셜 타임즈의 존(ohn Burn-Murdoch)은 각 나라의 확진자 수의 변화를 로그 스케일을 이용하여 아래와 같이 표현하였습니다. 이를 통해 다양한 지역에서의 코로나 확산 상황을 쉽게 비교할 수 있고, 과거의 성장률에 비해 진행이 느려지거나 빨라지는 것을 파악하기도 쉽습니다.


출처: 파이낸셜 타임즈 (https://twitter.com/jburnmurdoch/status/1245822180694212609?s=20)





데이터의 값 비교: Y축 범위를 동일하게


다음은 미국의 각 도시별 코로나 바이러스 사망자 수를 그래프로 표현한 것입니다. 뉴욕타임즈는 사망자 수가 도시별로 얼마나 차이나는지 한 눈에 확인할 수 있도록 하였습니다. 모든 그래프의 Y축 범위가 동일하기 때문에, 우리는 뉴욕이 다른 도시에 비해 사망자 수가 급격히 증가했다는 것을 쉽게 파악할 수 있습니다.

출처: 뉴욕타임즈 (https://www.nytimes.com/interactive/2020/04/28/us/coronavirus-death-toll-total.html)






데이터의 트렌드 비교: Y축 범위는 각 데이터 값에 따라


이 그래프도 역시 미국의 각 도시별 코로나 바이러스 사망자 수를 표현한 것입니다. 위의 그래프와는 다르게 각 차트별로 Y축 범위가 다 다르네요. 왜 그런 걸까요? 워싱턴 포스트는 사망자 수의 증가 및 감소를 보여주는 트렌드를 비교하고자 한 것입니다. 즉, 각 도시별로 사망자 수가 증가하는 추세인지 감소하는 추세인지를 한눈에 비교할 수 있도록 각 차트의 Y축의 범위는 그 차트에 사용된 데이터 값의 범위와 동일하게 하였습니다.


뉴욕타임즈와 워싱턴 포스트 모두 코로나 바이러스로 인한 사망자수를 표현했지만, 어떤 것을 비교하고자 했는지 그 목적에 따라 Y축 범위가 다르게 설정된 것을 알 수 있습니다.


출처: 워싱턴 포스트 (https://www.washingtonpost.com/graphics/2020/investigations/coronavirus-excess-deaths-m




Y축을 이중으로 사용하지 말기


스타트업의 데이트를 확인할 수 있는 혁신의 숲이라는 사이트가 있습니다. 관심있는 스타트업을 선택하면 그 스타트업이 개요 및, 소셜 분석, 소비자 거래 분석 등 다양한 데이터를 확인할 수 있습니다. 다음은 그 중 월급쟁이 부자들의 데이터를 보여주는 차트입니다.


차트에서 소비자 거래지수가 92인데, 10만의 값을 가지는 트래픽 보다 위에 위치하고 있습니다. 즉, 여러개의 다른 Y축 범위가 함께 있는 차트인 것입니다. 하지만, 이 값을 확인하지 않고 그래프만 본 상태에서는 소비자 거래지수가 트래픽 보다 더 많다는 잘못된 해석이 만들어집니다.


하나의 차트에서 여러개의 선 그래프가 있을 때, 우리의 뇌는 값을 상대적으로 분석합니다. 따라서, 이렇게 전혀 다른 값을 가지는 데이터를 한 차트에 사용하면 오해가 생길 확률이 높습니다. 하나의 그래프에는 한 종류의 데이터를 보여주고, 이 범위를 알려주는 하나의 Y축만이 사용되어야만 합니다.

출처: 혁신의 숲 (https://www.innoforest.co.kr/company/CP00011679)




자, 정리해 보겠습니다.

선 그래프의 Y축,

대부분 0점에서 시작할 필요는 없다

데이터에 맞는 스케일 선택하기

두 그래프의 값 비교: Y축 범위를 동일하게

두 그래프의 트렌드 비교: Y축 범위는 각 데이터 값에 따라

Y축을 이중으로 사용하지 말기


선 그래프는 우리에게는 다소 익숙하지만, Y축을 어떻게 사용하는지에 따라 데이터의 값을 좀 더 정확하게 표현할 수도 있고, 다른 데이터 셋을 목적에 맞게 비교가 가능하다는 것을 알 수 있었습니다. 데이터 시각화의 세계 재미있지 않나요? 이제 선 그래프를 보시면 Y축이 제대로 사용되었는지, Y축 사용을 잘못하여 거짓말을 하고 있지는 않는지 꼭 확인해 보세요!



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari