brunch

You can make anything
by writing

C.S.Lewis

by ASH May 11. 2022

마케터와 기획자에게 필요한 통계 지식 101

이렇게 쉬운 통계학에서 뽑은 125개의 핵심 파트 (1)

실무에서 데이터를 계속 보고, 데이터 관련 책을 읽다 보니 과연 '올바른 데이터를 보고 있는가', '데이터를 올바르게 해석하고 있는가', '통계적으로 유의미한 데이터를 보고 있는가' 등의 의문이 생겼다. 그래서 이 책을 집어 들었다.


제목은 '이렇게 쉬운 통계학'이지만 고등학교 때 분산을 배운 이후로 처음 통계 관련 지식을 접하다 보니, 생각보다 어려운 부분도 종종 볼 수 있었다. 아마 이 책을 한 번만 읽고 이 책에 내용을 다 이해한다면 누구나 다 통계 지식을 갖출 수 있겠지. 하지만 그런 게 아니니 이 책은 꾸준히 책상에 올려두고 필요할 때마다 보면서, 통계에 대한 반복 학습을 해야 할 것 같다.


* 직접 구매해서 읽고 쓰는 내돈내산 후기입니다. :)




쓰레기 데이터로는 쓰레기 분석밖에 나오지 않는다!


그 데이터, 믿을 수 있을까?


1. 책상에 앉아 통계학을 공부할 때는 ‘데이터의 신뢰성'에 의문을 갖지 않지만, 현장에서는 ‘어떻게 해서 만들어진 데이터인가?’에도 신경을 써야 합니다. 의미 없는 데이터는 분석해도 전혀 도움이 되지 않기 때문입니다.


2. 정확하지 않은 데이터를 입력하면 정확하지 않은 출력만 나오게 돼. 문제는 데이터가 정확하지 않아도 엑셀 등에 입력하면 ‘그럴싸한 분석 결과'가 나온다는 것이지. 그러므로 설문조사 등에서는 어떻게 해서 데이터를 얻을 것인지가 이후에도 영향을 주는 아주 중요한 출발점이야.


3. ‘데이터 분석'이라 해도 그 목적은 통계학적인 데이터 분석이 아니야. 전문가가 봤을 때 ‘응답 내용이나 데이터를 어떻게 읽어낼 것인가?’와 같은 의견이 목적이니까.


4. 데이터가 만들어질 때까지는 여러 가지 일이 생기지. 통계학을 공부할 때는 ‘데이터는 올바른가?’를 의심할 필요가 없지만, 실제 현장에서 데이터를 다룰 때는 ‘이 데이터는 어떤 질문 방식에 따라 만들어진 것인가?’, ‘조건은 명확한가?’ 등을 고려해야 해.



통계학, 어디에 쓰는 물건인고?


5. 일반인이 볼 때 통계학을 공부하는 의미는 어디에 있는 것일까요? 힘들여 통계학 책을 읽고 공부하는 이상 무언가 현실적인 도움이 되면 좋겠지요. 필자가 생각하기에 통계학을 공부했을 때의 이점은 통계학으로 ‘성공 확률을 높이는 방법'을 몸에 익힐 수 있다는 것입니다. 구체적으로 이야기하면 다음과 같습니다.  

- 추측(추리)력 향상

- 근거 있는 설명과 논의 가능


6. 통계학이란 ‘하나를 들으면 열을 아는 방법'입니다. 이것이 ‘추리력 향상'으로 이어집니다.


7. 모든 데이터(상태의 상세 정보)가 갖추어진 것은 아니지만 몇 가지 (눈앞에 있는 상태의 모습에 관한) 표본 데이터는 있습니다. 해당 데이터를 이용하여 높은 확률로 ‘이 데이터에는 어떤 특징이 있는가(상대가 어떤 사람인가)?’를 맞힐 수 있습니다. 그것도 지레짐작으로 하는 것이 아닙니다. 즉, ‘과학적인 순서를 따르면 높은 확률의 추리가 가능한(맞힐 수 있는)’ 것이 통계학(추측 통계학)의 역할입니다. 통계학을 사용하면 ‘원래의 모습(모집단)’을 적은 양의 데이터만으로도 이끌어낼 수 있습니다.


8. 추측력이나 추리력 같은 것은 분명히 오랜 기간의 경험이나 감각에서도 생깁니다. 그러나 이것만으로는 선입견이 들어갈 수도 있고 때로는 눈을 흐리게 할 수도 있습니다. 게다가 ‘감각'만으로는 다른 사람을 설득하기가 어려운 법입니다. 이럴 때 ‘수치'나 ‘확률'과 함께 설명하면 주위 사람에게도 설득력을 가질 수 있습니다. 또한 여러분의 상사로부터 “내 경험으로는 말이야~”라는 권위적인 한 마디를 듣는 경우에도 수치나 확률적인 사고를 이용하면 감정적인 충돌도 큰 어려움 없이 피할 수 있을 것입니다. 이처럼 마음 든든한 내 편이 되어주는 것이 바로 통계학입니다.


9. ‘과거의 정설'에 무조건 따르기보다는 ‘성공하는 데 가장 확률이 높은 작전은 무엇인가?’를 생각하자는 것입니다. 이를 위해서 통계학을 공부하고 그 사고방식을 이해한다면 통계학은 분명히 여러분에게 ‘업무나 일상생활을 잘해나갈 확률이 높은 방법'을 알려줄 것입니다.


10. 통계학을 배워 ‘분산'이나 ‘추정' 등의 통계 방법을 익히는 것도 물론 중요합니다만, 이것만으로는 업무에 바로 도움이 되지는 않습니다. 그보다는 많은 사람이 ‘확률적으로 사물을 생각하는 습관’에 익숙해지는 것, 이것이야말로 통계학을 배웠을 때 얻을 수 있는 선물이라고 생각합니다. 마법 램프의 요정처럼 통계학은 여러분에게 강력한 아군이 되어줄 것입니다.




급할수록 서두르자, 통계학 훑기


‘통계학 지도'를 머릿속에 넣어두기


11. 통계학은 크게 기술 통계학, 추측 통계학, 베이즈 통계학으로 다시 나눌 수 있습니다. 한 가지 더, 2개 이상의 변량을 다루는 다변량 분석이라는 것도 있습니다. 이상의 네 가지를 기초 논리 편이라고 한다면 통계분석은 실제 업무에 사용하는 응용 편이라 할 수 있습니다.


- 기술 통계학: 모든 데이터를 조사 / 그래프화 / 평균, 분산

- 다변량 분석: 2개 이상의 변량 데이터를 다룸.

   > 회귀분석, 인자분석, 주성분분석, 판별분석, 클러스터분석, 수량화이론, 기타

- 추측 통계학: 일부 표본을 이용하여 추측 / 정규분포곡선을 자주 사용 / 1) 추정, 2) 가설검정

   > 추정, 가설검정

- 베이즈 통계학: 주관적 확률 / 인간의 경험도 활용

   > 베이즈 확률, 베이즈 추론, 베이즈 결정



원시 데이터를 1개의 대푯값으로: 기술 통계학 1


12. 통계학이라 하면 우선 기술 통계학(descriptive statistics)에서 시작합니다. 기술 통계학이란 조사 대상(모집단)에 대해 전수 조사를 기본으로 하여 그 특징을 기술하는 통계학입니다.


13. 기술 통계학의 포인트는 두 가지입니다. 첫 번째는 대상이 되는 ‘집단'이 학급이나 회사와 같이 비교적 작고 전체 데이터를 모으기 쉽다는 점입니다.


14. 두 번째는 해당 데이터를 이용하여 그래프를 만들고 데이터를 시각화(기술)한다는 점입니다. 그래프로 만들면 데이터의 특성이나 규칙성 등을 쉽게 발견할 수 있습니다.


15. 그런데 ‘데이터는 많으면 많을수록 좋다.’라고 생각하기 쉬우나, 원시 데이터 그대로 모으면 모을수록 반비례하여 모집단의 경향, 문제점 등을 파악하기가 어려워집니다.


16. 하나의 데이터로 전체를 대표하는 값을 대푯값이라 부릅니다. 보통 이런 데이터는 일정 부분에 많이 모여 있으며 이를 중심으로 데이터가 아래위로 흩어져 있는데, 그 중심 경향을 나타내는 것이 대푯값입니다. 대푯값으로는 평균, 중앙값, 최빈값이 잘 알려졌습니다.


17. 데이터를 모을 때 가장 먼저 할 일의 하나는 ‘데이터 전체를 1개로 나타내는 대푯값'을 알아내는 것입니다. 앞서 이야기한 것처럼 대푯값이란 ‘데이터 전체의 중심 경향을 나타내는 값'을 말하며 다음 3가지가 유명합니다.

- 평균: 전체의 수를 더하고 이를 데이터 수로 나눈 값. 데이터 전체의 중심에 해당.

- 중앙값: 데이터를 작은 값부터 순서대로 나열했을 때 한가운데 위치에 있는 값.

- 최빈값: 데이터 중에서 가장 많이 나타나는 값.



데이터의 흩어짐 정도: 기술 통계학 2


18. 대푯값은 단 하나로 데이터 전체의 ‘중심 경향'을 나타내는 무척 편리한 지표입니다. 그럼에도 큰 문제가 있습니다. 바로 데이터 전체가 어떻게 퍼졌는지, 흩어짐은 어느 정도인지에 관해 ‘대푯값'만으로는 확실히 알 수 없다는 점입니다.


19. ‘데이터 범위는 어디부터 어디까지 인가?’를 가리키는 데이터 폭, 또는 데이터의 흩어짐 상태도 알고 싶을 것입니다. 이때 데이터의 폭이나 흩어짐 상태를 나타내는 것이 산포도(dispersion)라 불리는 다음 세 개의 값입니다.


1/ 분산(표준편차). 데이터의 흩어짐 정도를 나타내는 값 중 하나. 분산(variance)과 표준편차(standard deviation)는 원래 같은 내용이므로 거의 동의어로 사용함(값은 다름)

  - 편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것입니다.    

  - 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구합니다. 즉 차이값의 제곱의 평균입니다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더합니다.    

  - 표준 편차(standard deviation)는 분산을 제곱근한 것입니다.    


2/ 사분위 범위(interquartile range). 아래에서 셌을 때 ¼ 위치에 있는 값인 제1 사분위수(25번째 백분위수)부터 ¾ 위치에 있는 값인 제3 사분위수(75번째 백분위수)까지의 폭을 말함. 중심 근처의 데이터 흩어짐 정도를 보는 지표. 덧붙여 제2 사분위 수는 중앙값과 같음(유의어: IQR).


3/ 범위(range). 데이터가 위치하는 폭(최대-최소)을 나타내는 값.


분산

20. 분산은 ‘각 데이터와 평균의 차이(편차)’를 각각 제곱하여 모두 더한 다음, 이를 데이터 수로 나눈 것입니다. 표준편차란 단순히 이러한 분산의 제곱근을 구한 것입니다.


21. 분산 = (표준편차)^2, 표준편차 = √분산. 평균과 표준편차(혹은 분산)는 한 쌍으로 흔히 사용되는데요, 이때 표준편차는 하나의 거리(단위)와 같은 것입니다.


사분위수와 최댓값, 최솟값

- ¼ 위치에 있는 데이터 -> 제1 사분위수

- 2/4 위치에 있는 데이터 -> 제2 사분위수(중앙값)

- ¾ 위치에 있는 데이터 -> 제3 사분위수


22. 제1 사분위수부터 제3 사분위수까지의 폭이 사분위범위입니다. 또한, 최댓값부터 최솟값까지의 폭을 범위라 부릅니다. 사분위수나 최댓값, 최솟값은 분포 그래프뿐 아니라 상자수염그림(box-and-whisker plot)이라 불리는 그래프와도 함께 사용합니다.



표본으로 생각하기: 추측 통계학 1


23. 대상이 되는 모든 데이터를 통계학에서는 모집단이라 부릅니다. 그리고 모집단에서 뽑은 샘플 데이터를 표본이라 부릅니다. 이처럼, 본래는 모든 데이터를 모은 다음 그로부터 평균이나 최댓값, 최솟값 등을 구하고 싶지만, 샘플 데이터(표본)밖에 얻을 수 없을 때는 가능하면 이 샘플을 이용하여 ‘전체 모집단'을 추측하고 싶을 것입니다. 이런 희망을 이루어주는 것이 추측 통계학입니다.


24. 추측 통계학의 가장 큰 특징은 모집단이 너무 커서 표본밖에 모을 수 없을 때도 샘플 데이터로부터 전체 모집단의 성질을 추측하는 방법을 확립했다는 데 있습니다.



셜록 홈즈처럼 추리하기: 추측 통계학 2


25. 이 세상에는 모든 데이터를 다 모을 수 없는 경우가 많습니다만, 그럴 때라도 표본 데이터는 모을 수 있습니다. 문제는 소수 표본 데이터의 평균이나 분산을 계산한다 해도 이는 어디까지나 표본의 평균이나 분산으로, 전체(모집단)의 평균이나 분산과 반드시 일치하지는 않는다는 점입니다. 기본적으로 표본 데이터의 평균은 표본을 추출할 때마다 매번 달라집니다. 그러면 어떻게 해야 할까요? 합리적으로 판단하려면 다음과 같이 그 방법과 순서, 결과를 생각해야 합니다.

- (치우치지 않으려면) 어떻게 표본을 추출하면 좋을까?

- 어느 정도의 표본 수가 필요한가?

- 어떤 방법으로 표본에서 전체(모집단)를 추리할 것인가?

- 이때 오차는 어느 정도인가?


26. 추측 통계학의 기둥은 다음 두 가지입니다.

- 추정(통계적 추정): 소수의 표본 데이터에서 전체 집단(모집단)의 특징을 추측.  

- 가설검정(검증): 전체 집단에 대해, 특정 가설의 검정을 일정 확률로 검정.


27. 추측 통계학의 기둥 중 하나인 추정은 정식으로는 ‘통계적 추정'이라 부릅니다만 줄여서 ‘추정'이라고도 합니다. 구체적으로는 원래의 전체 데이터인 모집단의 대푯값(평균 등)이나 흩어짐 정도(분산, 최댓값, 최솟값 등)를 표본 데이터에서 추정해 나갑니다.



가설 세워 검증하기: 추측 통계학 3


28. 추측 통계학의 또 하나의 기둥은 가설검정으로, 줄여서 그냥 검정이라고도 부릅니다. 가설검정은 가설이 있을 때 ‘옳고 그름'을 일정한 신뢰도 기준(95%나 99%의 확률)을 이용하여 판단합니다.


29. 가설검정은 어떤 가설의 진위를 판단하고 싶을 때 다음과 같은 순서로 가설의 진위를 조사합니다. 이러한 가설검정 방법을 사용하면 ‘새로 개발한 약이 효과가 있는지 없는지 등도 검증할 수 있습니다.  

- 1/ ‘거짓'이라 생각하는 가설을 일부러 세움  

- 2/ 데이터를 이용하여 ‘거짓'이라 생각하는 가설을 판단/기각


30. 데이터 분석을 전문으로 하지 않는 일반 직장인이라도 이러한 가설검정 사고방식을 몸에 익혀두면 일상적인 업무에 많은 도움이 됩니다. 예를 들면 회의나 프레젠테이션에서 어떤 의견을 발표할 때 개인의 직감이나 경험만으로 자신의 의견을 옳다고 주장하기는 어렵습니다. 이때 해당 주장의 근거(증거)를 제시하면서 이 ‘가설검정' 원리나 논법을 사용한다면 설득력이 한층 높아질 것입니다.


31. 가설검정에서는 별난 방법을 이용합니다. 처음에 ‘A가 아닐까?’라고 생각한 A 가설을 그대로 검증(입증)하는 대신, 그와 반대인 가설 B를 ‘가설'로서 세우고 판단하는 것입니다. 가설 B는 검증 후 기각될 것을 미리 기대하고 세우므로 ‘무로 돌아간다'는 뜻의 귀무가설(null hypothesis)이라 부르며, 원래 입증하고자 했던 가설 A를 대립 가설(alternative hypothesis)이라 부릅니다. 그리고 ‘가설 B가 기각되었으므로 가설 A가 간접적으로 증명되었다.’라는 에둘러 가는 방법을 이용합니다.


32. 일반적인 통계학인 추측 통계학에서는 정규분포 등의 확률분포를 사용하여 모집단의 평균을 추정(통계적 추정)하거나 특정 가설의 타당성을 판단합니다. 그러면 판단 기준은 무엇일까요? 통계학에서는 95% 또는 99%라는 확률로 선을 긋도 그 타당성(옳음)을 판단합니다. 그러나 95% 또는 99%라는 수치는 ‘가설이 옳다고 생각했는데 아주 드문 사건이 일어났다. 이는 가설이 틀렸기 때문이다.’라는 판단의 확률 범위일 뿐입니다. 이는 신뢰도 95%의 판단으로, 절대적으로 옳다고 할 수는 없습니다. 따라서 판단이 틀릴 때도 있는데, 이 5%의 위험을 위험률이라고 부릅니다.


33. 추측 통계학에서 정규분포곡선을 이용하는 이유는 무엇일까요? 해당 표본 데이터의 분포가 ‘평균을 중심으로 좌우로 깔끔한 종 모양의 정규분포곡선을 이룰 때가 많은' 점을 이용하기 때문입니다.


34. 모든 데이터가 정규분포에 가까워지지는 않습니다. 회사의 상품별 매출 동향 등을 살펴보면 오른쪽으로 갈수록 줄어드는 그래프가 됩니다. 이를 지수분포(exponential distribution)라 부릅니다. 긴 꼬리와 같은 부분을 롱테일(long tail)이라 부르는데, 이러한 상황을 나타내는 그래프로 ‘지수분포'가 쓰입니다.


35. 주사위를 던졌을 때 나오는 눈은 1~6까지 서로 같은 ⅙ 씩의 확률을 가집니다. 이를 그래프로 그리면 일직선의 ‘균등분포'가 되므로 이 역시 종 모양의 정규분포를 만들지는 않습니다.


36. 주사위 사례(균등 분포)에서 1부터 6까지의 눈(비연속량)은 각각 ⅙ 씩의 확률로 나오고 모두 더하면 ‘1’이 되므로 ‘확률분포'라 불립니다. 또한 몸무게와 같은 연속량은 정규분포가 되지만 이 역시 비연속량과 마찬가지로 확률을 나타낸 곡선으로 생각할 수 있습니다. 즉, 이러한 확률분포 그래프와 가로축으로 감싼 면적을 모두 더하면 ‘1’이 되므로 일정 폭의 면적은 ‘확률'을 나타 낸다고 볼 수 있어 이 역시 확률분포라 할 수 있습니다.




통계 분석, 다변량 분석이란?


37. 통계학이 대상으로 하는 데이터로는 다음과 같이 다양한 사례가 있습니다.  

- 1변량/ (예) 매출의 변화, 키의 변화  

- 2변량/ (예) 키와 체중의 상관관계, 공부 시간과 성적의 상관관계  

이중 2변량(변수) 이상을 다루는 분야를 다변량분석이라 합니다. 다변량분석 중에는 ‘예측' 도구로 사용할 수 있는 것도 있습니다.


38. 서로 어느 정도 상관은 있지만 인과관계는 없을 때도 있으므로(유사상관이라고 함) 주의가 필요합니다.


39. 일반적으로 통계학이라 하면 그 범위는 명료합니다. 평균이나 분산, 나아가 추정, 가설검정 등과 같은 기술 통계학, 추측 통계학, 베이즈 통계학의 범위라 할 수 있습니다. 그리고 2변량 이상을 다루는 것이 다변량분석입니다.


40. 이러한 통계학 방법을 사용하여 다양한 데이터를 분석한 후 비즈니스 등에 도움을 주려는 것을 통계분석이라 합니다. 통계학이 통계 전반에 걸쳐 도움이 될 기초 논리를 제공하는 것이라면, 통계분석은 각 업계와 응용 분야에 도움을 주는 방법 모두를 일컫습니다.



기존 통계학 vs. 베이즈 통계학


41. 기존 통계학(빈도론)은 발생 빈도를 예측할 수 있는 경우에 사용했습니다. 거꾸로 말하면 데이터가 적거나 애초 데이터가 없다면 추측이 어렵다는 측면이 있었습니다. 이에 비해 베이즈 통계학은 표본 데이터가 적더라도 추정할 수 있는, 극단적으로는 아직 한 번도 일어난 적이 없는 사건(데이터 0)이더라도 그 발생 확률을 추정할 수 있다는 특징이 있습니다.


42. 베이즈 통계학의 또 하나의 장점은 무언가 새로운 정보가 들어올 때마다 추측하는 확률도 변해간다(정밀도가 높아진다)는 데 있습니다. 이를 베이즈 갱신이라 부릅니다.


43. 여러 가지 정보가 들어올 때마다 ‘각각의 확률도 변하는(갱신되는)’ 것이 베이즈 통계학의 특징입니다.


44. 베이즈 통계학에서는 ‘¼ 로 나눈다.’ 든가 ‘B는 확률을 반으로 하여 생각한다.’와 같이 엄밀한 수학을 적용하는 것이 아니라 경험을 통한 ‘주관적'인 부분을 허용합니다.




데이터와 그래프 처리에서 큰 실수 피하기


연속량 데이터와 비연속량 데이터?


45. 연속량이란 키(길이), 몸무게, 시간과 같이 중간에 끊어지지 않고 계속해서 이어지는 데이터를 말합니다. 비연속량(이산량)이란 서로 이어지지 않고 띄엄띄엄 흩어진 수인 이산 데이터를 말합니다.


46. 그러므로 이들 분포를 생각할 때 연속량 데이터라면 이웃한 항목과의 사이에 틈이 없는 히스토그램을 그리고, 비연속량이라면 틈이 있는 막대그래프를 그리는 게 타당할 것입니다.



척도로 데이터 분류


47. 보통 ‘데이터'라고 하면 ‘수치’라 생각하기 쉽습니다만, 통계학에서는 원래 수치가 아닌 것도 ‘데이터'로 다룰 때가 있습니다.


데이터

- 1/ 질적 데이터

   > 명목척도. 성별, 주소, 혈액형, 찬반 등. 수치 데이터를 부여하여 통계적으로 처리함. 이들 데이터 사이에는 덧셈, 뺄셈 계산을 해도 의미가 없음. 대푯값은 평균이나 중앙값이 아닌 최빈값뿐임.

   > 서열척도. 성적순, 평가 등/ ‘순서'에 의미가 있는 데이터. 순서(순위)에 따라 우열 또는 크고 작음의 순서를 알 수 있는 데이터. 단 각 순위 사이의 ‘차'는 같은 간격이 아니다 보니 평균은 계산할 수 없음. 중앙값, 최빈값에는 의미가 있음.


- 2/ 양적 데이터

   > 등간척도. 체온, 기온, 득점 등. 온도계의 온도와 같이 각각의 눈금 간격이 같은 데이터를 말함. 비율 계산은 할 수 없음. 대푯값으로는 평균(산술평균), 중앙값, 최빈값 모두를 사용할 수 있음.

   >비율척도. 키, 몸무게, 시간, 돈, 연령, 수입 등이 이에 해당. 4가지 척도 중에 가장 다루기 쉬운 데이터. 대푯값으로는 평균, 중앙값, 최빈값 모두를 사용할 수 있음.


48. 통계에서는 비율척도 > 등간척도 > 서열척도 > 명목척도 순으로 사용하기 쉬움.



명목척도는 ‘서울=1’처럼 임의로 값을 매긴 데이터


49. 명목척도는 원래 ‘수치 데이터'가 아닙니다만, 이들 정보를 문자 그대로가 아닌 수치 데이터를 부여하여 사용함으로써 쉽게 통계 처리할 수 있습니다. 여기서 중요한 것은 숫자가 수적인 대소 관계나 우열을 뜻하지는 않는다는 점입니다.


50. 명목척도는 어디까지나 ‘수치화'하기 위한 편의적인 것에 불과하고 수치도 절대적인 것이 아니야. 덧셈, 뺄셈, 곱셈, 나눗셈 등의 계산을 하더라도 ‘의미가 없는’ 것이지.



서열척도는 ‘순위' 데이터


51. 서열척도란 운동회 결과나 시험 성적 등의 순위에서 1등, 2등과 같이 순위를 매긴 것을 말합니다.



등간 척도와 비율척도?


52. 데이터끼리의 간격이 같은 것이 등간척도입니다. 이들은 처음부터 같은 간격의 수치이므로 ‘데이터 간 계산이 가능'합니다.


53. 그러면 등간척도일 때 곱셉, 나눗셈도 가능할까요? 그렇지는 않습니다. 왜냐하면 20도씨는 10도씨의 2배가 아니기 때문입니다.



퍼센트와 포인트의 구분


54. 증가분을 %로 표시하는 것은 실수의 원인.


55. 포인트 사용 방법

- 실업률이 3% 일 때 3.35%로 증가했다면 ‘0.35 포인트 실업률이 올랐다.’라고 합니다.  

- 메이저리그의 5만 경기를 조사한 바에 따르면 홈팀의 승률은 53.9% 이지만, 2시간 이상 동쪽으로 이동한 뒤에는 3.5포인트 감소하여 우위가 사라진다고 한다.  


56. 다음 두 방법으로 올바르게 전달

- Y사의 점유율은 작년과 비교하여 5포인트 늘었다.

- Y사는 작년 점유율 20%에서 올해는 25%로 5% 증가했다.



원그래프를 사용할 때 주의점


57. 원그래프는 비율(점유율)을 나타날 때 유효합니다. 흔히 저지르는 실수가 ‘다중응답을 원그래프에 사용하는' 경우입니다.


58. 원그래프와 막대그래프 관계없이 해당 설문에 실제 응답한 사람 수(응답 수)를 ‘n=100(명)’과 같이 표기하는 것도 잊지 마세요. 이때 n에는 설문조사를 보낸 수나 돌아온 수가 아니라 어디까지나 그 설문에 ‘응답'한 실제 수를 적습니다.


59. 원그래프는 비율을 이용하여 그리게 되는데, 정확성이 요구될 때는 원그래프를 입체화한 ‘3D(입체) 그래프'로 만드는 것은 가능한 한 피합니다. 입체화하면 ‘비율의 왜곡'이 일어나기 쉽기 때문입니다.


60. 원그래프를 만들 때 100%가 안 되는 이유는 반올림에 따른 오차가 계속 쌓였기 때문입니다. 이때는 ‘가장 큰 비율을 갖는 항목에서 그 오차를 (드러나지 않도록) 흡수'하는 방법을 자주 사용합니다.


61. 원그래프는 크기 비교도 안 되고 시간에 따른 변화도 나타낼 수 없으며 자의적인 조작도 들어가기 쉬운 그래프입니다. 자사 제품을 강조하는 비즈니스 현장에서도 원그래프를 자주 사용하는 일은 피하는 게 현명하다는 것이 개인적인 생각입니다.

매거진의 이전글 환경은 핑계일 뿐, 어떻게 사는지는 자신의 책임이다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari