brunch

You can make anything
by writing

C.S.Lewis

by SSEN Oct 24. 2024

많은 데이터에서 변화를 파악하는 법

관심 없는 여러분에게 산점도를 소개하는 법

나랑은 거리가 먼 산점도?

데이터 시각화와 그래프 강의를 할 때 가장 호응이 적은 부분은 산점도입니다. 막대그래프나 꺾은선 그래프는 최소한 한 번 이상은 봤기 때문에 간략하게 데이터를 소개할 수 있다는 건 알지만 가로축과 세로축의 교차지점에 점을 찍어서 데이터의 분포를 나타내는 산점도는 실무와는 거리가 있다고 생각하는 거죠.


그런데, 사실 데이터에 대한 이야기를 하려면 산점도를 빼기 힘든데요. 여러 개의 데이터를 다뤄야 할 때 특히 그렇습니다.


우리나라의 특정 관광지에 방문한 관람객 수를 시각화한 이미지를 가지고 왔습니다. e-나라지표 사이트에서 쉽게 다운로드할 수 있는 막대그래프 형식입니다.

1998년부터 2023년까지의 데이터이기 때문에 그룹의 개수가 많죠. 자연스럽게 막대의 너비를 줄이면서 모든 그래프가 들어가긴 했습니다만, 지금의 그래프에선 딱히 얻을 수 있는 게 없어 보입니다. 각 관람객수의 변화가 있었다는 점, 외국인 관람객 수는 다른 관람객 수에 비해 적다는 점(물론 유료와 무료 관람객수에 외국인 관람객수가 들어가 있을 것이기 때문에 이것도 정확한 분석 방법은 아닙니다.)이 보입니다만 그 이상의 뭔가를 얻는 방법은 없을까요?


[외국인]과 같은 레벨의 항목 찾기

일단 데이터에서 외국인과 내국인을 비교해 보고 싶었습니다.(사실 유료와 무료 관람객보다는 흥미롭겠다는 생각을 했어요) 아직은 그 이유를 모르겠는데, 데이터에는 내국인 관람객이 없어서 전체 합계 중 외국인 관람객 수 데이터를 빼서 구하기로 했습니다.

노란색으로 표시된 셀이 수식으로 구한 내국인 값입니다.


이렇게 하면 외국인과 내국인이라는 같은 레벨의 데이터들이 구해져서 그래프로 만들기가 더 쉽죠.


산점도 그리기

데이터의 가로축을 외국인 방문객, 세로축을 내국인 방문객으로 잡고 평균과 표준편차를 구해서 표준점수를 구했습니다.(우리 포스팅에서 자세하게 다루지는 않고 같은 선상에 다시 놓아보았다. 정도로만 설명하겠습니다.) 이 데이터의 교차점을 가지고 엑셀에서 산점도를 그려봤습니다.

정확히는 기본 산점도에서 각 점의 크기를 키우고 데이터 레이블에 연도를 입력한 형태입니다. 분포를 알아보기엔 점의 개수가 많지 않으므로 연도별로 관광객 수의 차이가 어땠는지를 보는 그래프가 되었습니다.


보조도구를 추가해 봅시다

그래프 편집으로 심신이 피곤하겠지만 이것으로는 뭔가 의미 있는 흐름을 파악하기가 어렵습니다. 이 때는 그래프 위에 그림을 그린다고 생각하고 선이나 도형들을 추가해 보겠습니다.


중요한 건 보이는 대로 하는 겁니다.


두 가지 방식으로 나눠봤습니다.
각 축에 따라서 도형을 추가해 봅니다. 그래프를 네 가지로 나눠서 각 수치가 평균 이상인지, 이하인지를 나눠서 표현합니다. 점들이 모인 영역에 따라 데이터가 어떻게 변해가는지 보입니다. 대표적으로, 1998년의 데이터는 외국인은 평균 이상 방문, 내국인은 평균 이하 방문이네요. 다른 점들에 비해 똑 떨어져 있는 것 같아 눈이 갔는데 생각해 보니 그때가 한국은 IMF 사태가 있었던 때입니다.


그래프에 그려진 선은 2019년부터 2023년까지의 변화입니다. 2019년에서 2020년까지의 데이터의 급격한 변화는 코로나  팬데믹 때문인 것으로 보입니다. 그다음의 데이터들은 옹기종기 모여 있는 다른 점들에 비해 움직임이 크죠. 사건 이후의 데이터가 회복되고 있는 상황을 볼 수 있습니다.


그래프에 도형이나 선들을 추가하는 걸 특히 엑셀이나 파워포인트에서 어려워하는 경우들이 있는데 사실은 이게 가장 그래프를 판단하기 쉬운 방법입니다. 도식화는 이런 데서 활용되기도 하죠.


산점도를 이용하면 이렇게 데이터의 흩어진 정도(분산이라고 합니다.) 뿐만 아니라 가로축과 세로축의 관계, 시간에 따른 변화등 많은 것들을 알 수 있습니다. 여기에 자유롭게 선이나 도형들을 추가할 수 있다면 더 많은 방향의 현황 분석이 가능합니다. 앞으로도 비슷한 사례들을 열심히 소개해 보겠습니다.


그럼 저는 다음에도 도움 되는 콘텐츠로 찾아오겠습니다.

항상 감사합니다.

김세나 드림
P.S 매주 정보를 시각화할 수 있는 탁월한 방법을 알려드리겠습니다. 



지금 보고 있는 그래프 해석법을 남들보다 먼저 보고 싶다면?
일주일에 1-2회
, 여러분의 메일함에 그래프 레터/피피티 레터를 보내드립니다.

멈추지 말고 문서를 그리세요✏️



Copyright 2024.(KIM SENA) All pictures cannot be copied without permission



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari