산점도의 개념부터 응용 사례 해석까지 알아보기
산점도 해석, 어렵게 느껴지시나요?
수학 시간에 좌표 평면 위 X값, Y값을 찾아 점을 찍어 본 경험, 한 번쯤은 있지 않으신가요? 점들이 흩뿌려져 있다고 해서 이름 지어진 ‘산점도’는 낯설지만 어딘지 모르게 익숙한 시각화 유형입니다. 산점도는 기본적으로 X, Y 값만을 사용하기 때문에 사실 매우 단순한 차트인데요. 여러 요소를 추가하거나 변형해 응용할 수 있는 탓에, 어쩌면 차트 해석이 어렵다고 느끼셨을 수 있어요. 오늘은 ‘산점도는 어렵다’는 오해도 풀고, 여러분의 차트 활용에 도움도 드리고자 산점도에 관한 이야기를 해 보려고 합니다.
산점도는 데이터 간의 관계를 확인하고 싶을 때 자주 활용하는 시각화 차트입니다. 예를 들어, 공부 시간이 늘어나면 시험 점수가 높아지는지 알고 싶을 때, 기온이 떨어질수록 감기 환자가 늘어나는지 확인하고 싶을 때 등의 상황에서 활용할 수 있죠! 산점도의 개념을 이해하고 있다면 응용 사례 또한 쉽게 해석할 수 있는데요. 지금부터 산점도가 무엇인지부터 산점도를 응용한 시각화 사례까지 알아보겠습니다.
산점도는 2개의 수치형 변수 간 관계를 ‘관계’를 표현할 때 사용하는 시각화 유형입니다. X축, Y축, 그리고 여러 개의 점으로 구성되어 있는데요! 2개의 수치형 변수를 기준으로 X, Y축을 그리고, 차트 영역에 개별 항목별 데이터를 X값과 Y값의 위치에 맞춰 점으로 표현합니다.
산점도에 데이터를 점으로 표현하면 무엇을 알 수 있을까요? 산점도는 차트 영역에 점이 분포한 형태를 보고 데이터 간의 관계를 파악합니다. 산점도로 알 수 있는 데이터의 관계는 크게 ① 양의 상관관계, ② 음의 상관관계, ③ 상관관계 없음 총 세 가지 유형으로 나눌 수 있는데요. 각 관계를 예시 데이터를 통해 알아볼까요?
가장 먼저 산점도에서 점이 분포한 형태가 왼쪽 하단에서 오른쪽 상단으로 이어지는 대각선의 형태를 띨 경우, 양의 상관관계가 있다고 해석합니다. 두 개의 지표 중 하나가 증가하면, 다른 하나도 증가한다는 의미입니다.
2021년 기준 한국인 인체치수 조사 데이터의 키와 몸무게 변수를 활용해 산점도를 그려 보았어요. 약 4,500개의 데이터 중 50개만을 랜덤으로 뽑아 시각화하였는데요. 위 산점도에서 점들의 분포가 비교적 왼쪽 하단에서 오른쪽 상단으로 이어지는 대각선의 형태를 띠는 것을 확인할 수 있습니다. 키가 클수록 몸무게가 많이 나간다는 인사이트를 도출할 수 있어요!
데이터 간의 관계를 보다 객관적인 수치로 파악하는 방법으로써 ‘상관계수’를 구해 볼 수 있는데요. 상관계수는 두 변수 간 상관관계의 강도를 측정한 통계적 수치입니다. 여러 종류의 상관계수가 있지만 ‘피어슨 상관계수(Pearson correlation coefficient)’를 가장 보편적으로 사용해요. 피어슨 상관계수는 -1부터 1 사이의 값으로, 0은 선형 관계가 없음을 나타냅니다. 0을 기준으로 1에 가깝다면 양의 상관관계, -1에 가깝다면 음의 상관관계를 가진다고 판단할 수 있어요. 위 산점도에 사용한 변수의 상관계수를 구해 보니 0.68로 0보다 1에 가깝기 때문에, 키와 몸무게는 양의 상관관계를 가진다는 것을 수치로 정확히 확인할 수 있습니다.
반대로 산점도에서 점이 분포한 형태가 왼쪽 상단에서 오른쪽 하단으로 이어지는 대각선일 경우, 음의 상관관계가 있다고 해석합니다. 양의 상관관계와 반대로 한 지표가 증가하면, 다른 한 지표는 감소한다는 의미를 나타냅니다.
위 산점도는 2022년 보건소 모바일 헬스케어 사업의 대상자가 입력한 체성분 정보 중 근육율과 체지방율 변수를 활용한 것입니다. 이 데이터 역시 랜덤으로 50개만을 뽑아 시각화하였는데요! 점들이 왼쪽 상단에서 오른쪽 하단으로 하강하는 대각선 형태를 띠는 것을 뚜렷하게 확인할 수 있습니다. 체지방율이 증가할수록 근육율이 낮아진다는 인사이트를 도출할 수 있어요. 이 데이터 역시 상관계수를 구해 보니 -0.99로, -1에 매우 근접한 수치였는데요. 체지방율과 근육율은 명확하게 음의 상관관계를 가진다는 것을 알 수 있습니다.
점의 분포에서 아무런 패턴이 보이지 않는 경우에는 데이터 간의 상관관계가 없다고 해석합니다.
위 산점도는 2021년 기준 전세계 국가 중 랜덤 샘플링한 50개국의 GDP와 출산율 변수를 활용한 것입니다. 이전 사례와는 달리 점이 그래프 전체에 무작위로 분포한 것을 확인할 수 있어요. 따라서, GDP와 출산율 데이터 간 상관관계가 있다고 보기 어렵다고 할 수 있습니다. 국가별 출산율과 국내총생산의 상관계수를 구해 보니 -0.19였는데요! 데이터의 분야나 종류마다 상관계수를 판단하는 기준이 달라지기는 하지만, 일반적으로 상관계수가 -0.3에서 0.3 사이일 경우 상관관계가 없다고 정의하기 때문에 앞서 언급한 대로 두 지표 간에는 상관관계가 없다고 해석할 수 있습니다.
지금까지 산점도 상 점의 패턴으로 알 수 있는 데이터 관계 유형 세 가지를 알아보았는데요! 세 가지의 유형 중에서 산점도가 양의 상관관계 혹은 음의 상관관계를 가지는 경우, 점의 밀집도를 통해 관계의 강도를 파악할 수 있습니다. 위 그림에서 좌측의 산점도는 점들이 촘촘하게 모여 우상향하는 대각선을 이루고 있어요. 반면 우측의 산점도는 점들이 우상향하는 대각선을 이루고 있기는 하지만, 상대적으로 점 사이의 거리가 멀리 퍼져 있는데요! 좌측의 산점도처럼 점이 조밀하게 모여 있을 경우 강한 상관관계, 우측의 산점도처럼 퍼져 있는 경우 약한 상관관계라고 합니다.
한편, 산점도의 상관관계를 해석할 때는 주의해야 할 점이 한 가지 있는데요. 바로 상관관계가 항상 인과관계를 의미하는 것은 아니라는 점입니다. 예를 들어, 기온과 아이스크림 판매량을 시각화한 산점도에서 양의 상관관계를 파악하고, 기온이 올라가면 아이스크림 판매량이 많아진다는 인사이트를 도출했다고 가정해 볼까요? 물론 날씨가 더워지면 사람들이 아이스크림을 찾게 되기도 하지만, 아이스크림 광고에 인기 많은 연예인이 나왔을 수도 있고 큰 행사가 있어 아이스크림을 대량 구매한 기업이 있을 수도 있죠! 상관관계가 있다는 것이 원인과 결과를 나타내는 것은 아니니 정확한 인사이트 도출을 위해서는 다른 변수나 요인 또한 살펴보는 것이 좋겠습니다.
어렵게 느껴지는 시각화 유형이 있다면 다양한 사례를 해석해 보는 것이 시각화 유형을 이해하는 데 도움이 되는데요! 시각화 사례를 보다 보면, 보조적인 시각화 요소가 추가된 경우가 있어서 ‘내가 알던 차트가 아닌데?’라는 생각과 함께 멈칫하게 될 수 있어요. 하지만 기본적인 개념과 차트를 해석하는 방법을 잘 알고 있다면 응용된 차트도 어렵지 않게 해석할 수 있습니다. 산점도도 마찬가지인데요! 산점도를 활용한 다양한 시각화 사례를 해석해 볼까요?
위 산점도는 성차별적 언어의 사용이 실제 성차별적인 인식으로 이어지는지 총 25개의 언어를 분석한 차트입니다. X축은 언어의 성 고정관념이 강한 정도를 숫자로 나타내고, Y축은 해당 언어를 사용하는 사람들의 성 고정관념이 강한 정도를 숫자로 나타냈는데요! 점들이 왼쪽 하단에서 우측 상단으로 상승하는 모양을 띠고 있어 양의 상관관계를 가지는 것으로 보입니다.
위 산점도에서는 그래프의 중앙, 점들 사이에 ‘추세선’이 그려진 것이 눈에 띄는데요. 추세선은 산점도에서 데이터 간의 상관관계를 직관적으로 표시하는 데 사용됩니다. 위 그래프에서는 점들이 멀리 떨어진 형태로 약한 상관관계를 가지고 있어, 점의 분포만 보아서는 상관관계의 유무를 판단하기 어려울 수 있어요. 하지만 오른쪽으로 상승하는 추세선의 도움을 받아 양의 상관관계를 가진다는 것을 좀 더 명확하게 파악할 수 있습니다. 따라서, 성 고정관념이 강한 언어일수록 해당 언어를 사용하는 사람들의 성 고정관념이 강하다고 해석할 수 있겠어요.
또한, 추세선 주위 영역이 색칠되어 있어 데이터 중에서도 강한 상관관계를 보이는 점들이 강조되었는데요! 이를 통해 한국어, 프랑스어, 스페인어 등이 특히 언어와 언어 사용자의 성 고정관념 강도가 비례한다는 인사이트를 도출할 수 있습니다.
위 산점도는 미국의 통계 사이트 ‘파이브서티에이트(FiveThirtyEight)’에서 프리미어 리그 팀의 선수 구성이 얼마나 일관적이었는지가 경기 성과에 영향을 미치는지를 분석한 차트입니다. X축은 각 팀의 선수 구성 일관성인데요. 선수 구성을 변경하지 않을수록 100%에 가까운 점수, 선수 구성을 많이 변경할수록 0%에 가까운 점수를 나타냅니다. Y축은 경기당 예상 점수와 실제 획득 점수의 차이인데요. 중간 보조선을 기준으로 상단은 예상보다 높은 점수를 기록한 것을 뜻하고, 하단은 예상보다 낮은 점수를 기록한 것을 뜻합니다.
위 사례의 가장 큰 특징은 개별 팀 데이터가 각 팀의 로고로 표현되었다는 점이에요! 산점도를 해석할 때는 전체적인 데이터의 관계를 알기는 쉽지만, 개별 데이터의 위치를 알기는 어려울 수 있습니다. 하지만 점을 각기 다른 로고 혹은 색깔로 표현한다면 개별 데이터의 위치를 직관적으로 파악할 수 있어요.
먼저 전체적인 데이터의 분포를 보면 왼쪽 하단에서 오른쪽 상단으로 상승하는 형태로, 양의 상관관계를 가지는 것을 확인할 수 있는데요! 팀의 선수 구성이 바뀌지 않고 유지될수록 실제 경기에서 예상 점수보다 높은 점수를 기록한다고 해석할 수 있어요. 여기서 나아가 개별 팀의 성과까지 분석해 볼 수 있습니다. 우측 최상단의 로고는 아스널 팀의 로고인데요. 로고의 위치로 보아, 아스널 팀은 가장 일관된 선수 구성으로, 예상 점수보다 실제로 0.5점 이상 높은 점수를 획득했음을 알 수 있습니다.
위 산점도는 남자 대학 농구 챔피언십 감독의 실적 데이터를 분석한 것입니다. X축은 감독했던 시즌 수를 나타내고, Y축은 감독의 경기 승률을 나타냅니다. 이 그래프에서는 두 개의 보조선을 확인할 수 있는데요! 승률의 평균을 표시하는 수평선과 감독했던 시즌 수의 평균을 표시하는 수직선이 그래프 내 영역을 4개로 구분하고 있는 것을 확인할 수 있습니다. 4개의 영역은 우측 상단부터 시계 방향 순서대로 경력이 길고 승률이 높은 그룹(연두색), 경력이 길고 승률이 낮은 그룹(청록색), 경력이 짧고 승률이 낮은 그룹(빨간색), 경력이 짧고 승률이 높은 그룹(파란색)으로 구분되었어요. 구분된 그룹마다 다른 색을 사용해서 한눈에 파악할 수 있도록 군집화했습니다.
그렇다면, 이 정보를 바탕으로 산점도를 해석해 볼까요? 위 산점도의 점들은 어떠한 패턴이나 추세가 없이 무작위로 분포해 있어, 감독 경력의 길이와 경기 승률에는 상관관계가 없다는 인사이트를 도출할 수 있습니다. 두 지표 간의 유의미한 관계는 없지만, 각 감독이 어떠한 그룹에 속해 있는지 구분된 영역과 색을 통해 파악할 수 있어요! 예컨대 그래프 가장 상단 보조선에 걸쳐 있는 연두색 점은 마크 퓨(Mark Few) 감독으로, 경력이 길고 승률이 높은 그룹(More Experienced, Higher Win %)에 속하는데요. 점의 위치를 통해 마크 퓨 감독이 모든 감독의 평균과 같은 18시즌의 경력을 가졌으며 가장 높은 승률을 기록했다는 사실을 알 수 있습니다.
이번 글에서 산점도의 개념과 점의 분포로 데이터 간 상관관계를 해석하는 방법을 알아보았습니다. 점의 분포는 ① 양의 상관관계, ② 음의 상관관계, ③ 상관관계 없음 총 세 가지의 경우로 해석할 수 있었는데요! 세 가지의 상관관계를 바탕으로 추세선, 점의 모양, 보조선을 활용했을 때 도출할 수 있는 추가 인사이트까지 해석해 보았어요. 사용된 데이터와 그래프의 모양새는 조금씩 달랐지만, 상관관계의 유형만 기억하고 있다면 점의 분포를 따라 그래프를 해석할 수 있었습니다.
산점도는 막대 차트 같은 단순 비교나 데이터 테이블만으로는 알 수 없는 데이터 사이의 연관성을 확인할 수 있다는 장점이 있습니다. 표면적으로 드러나지 않는 데이터 속의 인사이트를 꺼내 볼 수 있으니, 깊이 있는 데이터 분석에 도움이 되겠죠? 어려워 보이지만, 알고 보면 단순한 산점도! 이번 글을 통해 여러분이 어떤 산점도를 마주하더라도 자신 있게 해석할 수 있기를 바랍니다.
뉴스젤리의 뉴스레터를 구독해 보세요!
데이터 시각화 전문 콘텐츠를 가장 먼저 여러분의 메일함으로 전해 드립니다. :)