brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Mar 04. 2024

컨설팅 회사의 데이터 분석 리포트_점도표

중학생 한달 용돈은 얼마일까 점도표로 알아보자

#1. 점의 시작(Beginning of dots)


중학생 한 달 용돈은 얼마일까?


최근 몇 년 사이, 물가상승으로 거의 모든 것의 가격이 올랐습니다. 어른들 뿐만 아니라, 아이들도 같은 용돈으로 소비할 수 있는 것이 줄어들었겠죠? 떡볶이, 탕후루 같은 간식부터 옷 같은 의류, 사진촬영까지 초등학생, 중학생 자녀들도 팍팍해지기는 마찬가지죠. 오늘은 중학생 딸아이가 한 달에 얼마의 용돈을 받아야 적당할 지에 대해 같이 고민해 보기로 합니다.


딸아이가 친구들의 용돈을 조사해 왔습니다. 각각 친구들의 용돈을 다음과 같았습니다.

중학생 한 달 용돈을 실제 조사한 원본 데이터(2024.3.3)

총 9명의 한 달 용돈은 다음과 같았습니다.


첫 번째 물어본 친구는 55,000원이라서 5.5라고 적었습니다.  두 번째 친구는 15,000원이라고 하네요. 너무 적죠?


이렇게 8, 9번째 친구들의 용돈 4만 원까지 조사를 완료하였습니다. 그런데 이렇게만 봐서는 얼마를 줘야 할지 모르겠네요.


그래서 다음과 같이 표로 정리해 보았습니다. 우리는 이렇게 정리한 표를 빈도표라고 합니다.


아까 보다는 좀 더 보기가 쉬워졌습니다. 언뜻 보기에 4.5만 원에서 5만 원이 좀 많아 보이네요.

빈도표 (단위 : 만원)

그런데 표는 한 칸이 0.5가 아니라 1.5 →3은 1.5만 원이나 차이가 나네요. 이것을 좀 더 정확히 이해하기 위해 간격이 같은(등간격) 그림으로 그려보겠습니다.


점도표 (단위 : 만원)


이와 같이 가로축에 숫자 선(Number line)을 긋고, 숫자값 위에 관찰된 빈도수만큼 점을 찍은 그림을 우리는 점도표(Dot Plot)이라고 합니다. 이것이 점도표의 시작입니다. 이번 시간에는 점(dot)으로 만들 수 있는 데이터 분석 기초부터 컨설팅 회사들의 분석 리포트 방법, 심화까지 알아보겠습니다.




#2. 세계 인의 점도표(The World's Dot plot)


딸의 용돈은 잠시 접어두고, 애당초 용돈을 왜 올려줘야 했나요? 바로 "물가상승" 때문이었죠. 그런데 그 물가상승에 스트레스를 받고 있는 사람들이 여기 19명 더 있습니다. 경제나 산업에 종사하고 있는 사람이라면 이제는 "점도표"라는 말만 들어도 미국 중앙은행의 기준금리를 결정하는 미국 연방 준비 위원회(FOMC , Federal Open Market Committee)가 떠오릅니다.

FOMC 점도표 Dot Plot (Dec 13, 2023)

FOMC Dot plot - Python Code는 Github 링크를 참고해 주세요.


기준금리를 결정하는 연방 준비 위원회의 위원은 19명입니다. 앞서 살펴본 '딸의 용돈 조사' Case와 마찬가지로 하나의 점은 한 명의 위원이 생각하는 적정금리의 수준을 표현한 것입니다.


여기서 차이점은 바로 축이 하나가 더 생겼다는 점입니다. 기존에는 가로축만 있었는데, 이제 숫자를 세로(Y)   축으로 이동시키고, 가로(X) 축에 연도라는 시간 개념을 가지고 왔습니다. 이렇게 시간에 따른 데이터의 변화를 보여주는 그래프를 우리는 시계열(Time Series) 데이터 라고 합니다.


이 점도표를 통해 알 수 있는 가장 명확한 사실은 무엇일까요? 바로, 금리가 낮아지는 "추세"입니다.

2023 → 2024 → 2025 → 2026으로 시간이 지날수록 금리가 점차 낮아지고 있습니다. 점도표로 "추세"를 표현할 수 있다. 그렇다면 점도표로 다른 일을 할 수도 있지 않을까요?


점도표로 무엇을 나타낼 수 있을까?


#3. 점도표 선택


사실 점으로 그릴 수 있는 그래프라고 해서 모두 점도표(Dot Plot)는 아닙니다. 점 하나를 관측치로 하여 가로(X) 축과 세로(Y) 축에 나타낸 그래프는 산점도(Scatter Plot)이라고 합니다. 산점도는 가로와 세로 2차원의 좌표계를 사용하며, X와 Y 두 개의 변수의 쌍을 나타내는 데이터에 적합합니다.


점도표와 산점도의 차이는 하나의 변수로 분포를 나타내는 것은 점도표, 둘 이상의 변수에 대한 관계 등을 나타내는 것은 산점도입니다.


예를 들어 앞선 '중학생 딸아이 용돈' 문제에서 변수는 '용돈 금액'이라는 하나의 변수 있을 때는 점도표로 표현할 수 있지만, 중학교 '학년(X)'에 따른 '용돈 금액(Y)'의 관계는 2개 변수로 산점도(Scatter Plot)로 표현할 수 있습니다.


이제 점으로 표현하는 다양한 목적의 그래프를 살펴보겠습니다. 점 그래프는 크게 비교, 분포, 추세, 관계 4가지로 분류할 수 있습니다. 아래는 4가지 점도표 유형별 시각화 샘플과 목적에 대해 정리한 표입니다.

① 가장 먼저 "비교" 유형은 관찰된 각 값들이 큰 것인지, 작은 것인지 기준을 가지고 비교할 때 쓰입니다. 가장 쉽고 많이 쓰는 목적은 목표관리 유형으로 기준에 부합한 지 여부를 판단하기 쉽습니다.

② 두 번째는 "분포" 유형입니다. 분포는 관찰된 값들을 그룹으로 묶거나 집단으로 나누어 보는 방법입니다. 새로운 값이 들어왔을 때 어떤 그룹으로 분류할지 평가할 수 있습니다.

③ 다음은 "추세" 유형입니다. 추세는 앞서 소개한 FOMC 점도표와 같이 상승, 하락, 또는 패턴을 관찰할 때 쓰입니다.

④ 마지막으로 "관계" 유형입니다. 산점도의 기본유형으로 두 변수 간의 관계의 추론, 수학적 계산을 통해 관계식을 도출하고 결과를 예측할 때 활용됩니다.


이제 각 유형의 데이터 분석 시각화를 보다 전문적인 관점에서 알아보겠습니다. 앞서 소개한 4가지 유형에 대해 세계 Top Tier 컨설팅 회사들이 어떻게 활용하는지 구체적인 예시를 통해 알아보겠습니다.




#4-1. 비교를 위한 점도표


첫 번째 유형은 "비교"입니다. 비교의 유형이 가장 많이 쓰이는 곳은 목표관리입니다.


관측된 데이터에 대해서 기준값인 목표 이상, 이하를 보는 즉시 판단할 수 있게 하는 아주 편리한 도구입니다. 그런데 이러한 비교 방법을 쓰는 조금 다른 방식이 있습니다. 바로 클리브랜드 점도표(Cleveland dot plot)라는 방식입니다.


클리브랜드 점도표는 1993년 미국의 컴퓨터 과학자, 클리브랜드 윌리엄 S라는 사람이 처음 소개했습니다. 이는 막대그래프와 유사하게 하나의 차원의 숫자(연속형 데이터)이지만, 다른 집단(범주형 데이터) 라벨을 비교할 때 쓰입니다.


예를 들면, 아래 좌측_국가별 PISA 시험의 수학과 독해 점수를 보세요. 국가별 시험 점수(연속형 데이터, 숫자)에 대해  수학과 독해 두 과목(범주형 데이터)을 비교할 때 쓰입니다.


세계적인 컨설팅 회사 맥킨지(McKinsey)의 데이터 표현 방식을 배워 보겠습니다. 직원과 경영자가 생각하는 이상적인 출근일 수, 그 사이의 현실적인 출근일 수를 비교할 때, 클리브랜드 점도표를 썼습니다. '출근일 수'라는 연속형 데이터 하나의 변수에 대해, 직원/경영자/현실 3개의 카테고리 라벨을 부여하는 방식입니다.

 

마지막으로 불량률을 산정하는 6 시그마의 X-R 관리도에서는 다양한 기준선을 제공합니다.

상한선(Max), 하한선(Min)을 기준으로 제시하고, 평균(X bar)을 한 데 비교할 수 있게 해 줍니다.


(좌) 국가별 PISA 시험의 수학과 독해 점수, (가운데) 맥킨지의 재택근무 이상/요구/현실 일수, (우) 식스 시그마 불량률




#4-2. 분포를 나타내기 위한 점도표


점을 활용한 두 번째 전문방식은 "분포" 유형입니다.


분포는 관찰된 값들을 그룹으로 묶거나 집단으로 나누어 보는 방법입니다. 새로운 값이 들어왔을 때 어떤 그룹으로 분류할지 평가할 수 있습니다.


대표적인 컨설팅 회사의 전문 리포트는 이 방법을 꽤나 많이 활용합니다.  아마 여러분들께서는 수억에 달하는 보고서 또는 신문지 상에서 다음과 같은 시각화를 본 적이 있으실 겁니다.


(좌)  맥킨지(McKinsey) 전략 맵, (우) BCG 매트릭스


첫 번째는 좌측의 맥킨지(McKinsey) 전략 맵입니다. 우선순위(Priority) 평가표라고도 합니다. 이 방법은 기업에서 실행 프로젝트나 과제의 순위를 정하거나 평가할 때 쓰입니다. 보통 X 축에 실현 가능성, Y 축에 효과성을 위치하고, 관측치 데이터 값들을 표현합니다. 이 방법을 통해 실현이 가능하면서도 효과가 좋은 시급한 과제들을 뽑아낼 때 쓰입니다. 우측 상단에 짙은 1/4 원에 해당하는 지역에 위치한 과제들이 가장 최우선적으로 실시해야 하는 일들이 되죠.


오른쪽은 BCG 매트릭스로 잘 알려져 있습니다. BCG는 미국 보스턴 컨설팅 그룹(Boston Consilting Group)의 약어로 BCG사가 개발한 기업의 전략을 결정기법입니다. 기업은 사업의 전략을 수립할 때, 시장점유율과 성장률을 고려하게 되고 이 두 개의 변수를 쌍으로 나타내어 2차원 좌표에 영역별로 구분하는 방식입니다. 이 방법은 1970년에 개발되었지만 현재까지 기업의 의사결정에 가장 많이 사용되는 데이터 분석 도구 중의 하나입니다.


업무에 필요하신 분들을 위해 아래 양식을 무료로 공유드립니다.


Priority Matrix 다운로드    

Classsification Matrix template 다운로드




노하우가 담긴 글과 코드, 양식을 한 번에 작성하다 보니 생각보다 정리하는데 시간이 오래 걸리게 되었습니다. 다음에는 ③추세와 ④ 관계를 나타내는 점도표, 그리고 중학생 딸의 용돈 문제까지 매듭짓도록 하겠습니다. 아무쪼록 데이터 분석 리포트 작성방법에 대한 고민이 해결되시는 글이 되길 바랍니다. 감사합니다.


# 다음 편 내용 요약(짤)


매거진의 이전글 데이터야, 나의 커리어 성장을 부탁해
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari