brunch

You can make anything
by writing

C.S.Lewis

by ASH May 18. 2022

평균, 중앙값, 최빈값 제대로 이해하기

이렇게 쉬운 통계학에서 뽑은 125개의 핵심 파트 (2)

책에 나오는 통계 지식을 바로 실무에 활용하기는 어려울 수 있다. 평균, 중앙값, 분산값은 흔히 쓰지만, 정규분포만 해도 실무에 도움이 되는 방식으로 활용하기 어려울 수 있다. 특히 데이터 관련 직군이 아니면 더 그렇다.


그럼에도 데이터 직군 외 마케터, 기획자 등이 이러한 통계 지식을 알아놓으면 좋은 이유는 특정한 개념을 알고 업무를 하는 것과, 그렇지 않은 것은 정말 천지차이 이기 때문이다. 특정한 개념을 알면, 스스로에게 '내가 정확한 데이터를 보고 있나?' '내가 올바르게 해석하고 있나?'를 질문할 수 있기 때문이다. 그리고 이러한 질문을 반복하고, 이에 대한 답을 찾아나감으로써 더 수준 높은 업무를 차차 해 나갈 수 있다.



* 직접 구매해서 읽고 쓰는 내돈내산 후기입니다. :)





평균과 분산 이해하기


평균은 대푯값의 대표?


1. 대푯값은 ‘전체의 중앙', 즉, ‘보통 값'에 해당하는 데이터로 통계학에서는 평균(average), 중앙값(median), 최빈값(mode) 3가지를 대푯값으로 이용합니다.


2. 평균은 대푯값 중에서도 대표적인 요소입니다. 평균에도 단순평균(산술평균), 가중평균, 조화평균, 기하평균 등 여러 종류가 있습니다만, 별도의 조건이 없다면 평균은 단순평균(산술평균)을 뜻합니다


3. 평균 계산의 의미는 ‘평균이란 데이터 전체의 중심에 위치한다.’라는 것입니다.


4. 평균은 특잇값에 약하다는 것을 알 수 있습니다. 이는 ‘평균이 전체의 중심(큰 수의 영향을 받음)’이기 때문입니다.



특이값에 강한 ‘중앙값'


5. 중앙값이란 데이터를 작은 순서(또는 큰 순서)로 나열했을 때 ‘가장 가운데' 위치에 있는 수치를 말합니다. 따라서 극단적으로 큰 수치(혹은 작은 수치), 즉 ‘특잇값’이 있더라도 평균과 같이 크게 흔들리는 일이 없습니다. 이런 의미에서 중앙값을 강건한(robust) 대푯값이라 합니다.


6. 데이터의 수가 홀수일 때는 ‘한가운데 데이터'가 1개뿐이므로 그것이 중앙값이 됩니다. 그러나 데이터의 수가 짝수일 때는 한가운데 데이터가 2개입니다. 이럴 때는 2개 데이터의 평균을 구하여 ‘중앙값'으로 합니다.



가장 많은 데이터가 ‘최빈값'


7. 최빈값은 데이터를 몇 개의 클래스로 나누었을 때 빈도수가 가장 많은 클래스를 일컫습니다. 단, 일정 개수 이상의 데이터가 없다면 최빈값은 거의 의미가 없습니다.


8. 최빈값은 ‘가장 많은 데이터'라는 의미에서는 간단해 보입니다만, 데이터 수나 클래스를 어떻게 나눌 것인가 등 다루기 어려운 부분이 있습니다.



평균, 중앙값, 최빈값의 위치 관계는?


9. 데이터가 균형을 이룬 깔끔한 상태의 (정규분포 등) 분포 그래프일 때 평균과 중앙값, 최빈값은 거의 같은 위치에 있습니다. 이때는 평균을 대푯값으로 사용하는 것이 일반적입니다. 평균을 대푯값으로 사용하는 것이 편리한 이유는 ‘분산'과의 궁합이 아주 좋기 때문입니다.


10. 평균과 중앙값, 최빈값이 거의 일치하는 경우는 좌우 균형을 이루는 그래프일 때뿐이므로 어느 쪽으로든 길게 늘어진 일그러진 형태라면 평균은 특이값의 영향을 많이 받습니다.



산포도를 나타내는 ‘사분위수, 상자수염그림'


11. 통계학에서는 최댓값부터 최솟값까지의 넓이를 범위(range)라 합니다.


12. 데이터를 4등분 해보겠습니다. 이를 사분위수라 부릅니다. 우선 데이터의 최솟값에서부터 4분의 1위치(25%에 있는 데이터가 제 1사분위수, 아래에서 4분의 2 위치 데이터가 제2 사분위수(중앙값), 아래에서 4분의 3 위치에 있는 데이터가 제3 사분위수입니다.


13. 제1 사분위수부터 제3 사분위수까지의 넓이를 사분위범위라 부릅니다.



평균에서 ‘분산'으로


14. 평균과 각 데이터의 차이를 편차라 합니다. 이는 각각의 데이터가 평균과 어느 정도 떨어져 있는지, 한쪽으로 얼마나 치우쳐 있는지를 가리킵니다.


15. 편차 = (각) 데이터 - 평균


16. 평균과의 차이가 마이너스가 되는 것에 대해 절댓값 기호로 플러스로 변환한 다음 계산합니다. 이렇게 하면 데이터의 산포도를 측정할 수 있는 좋은 지표가 될 것입니다. 이를 평균편차(mean deviation)라 합니다.


17. 이 평균편차를 이용하면 0이 되지는 않습니다. 계산도 편하고 사고방식도 직관적입니다. 무엇보다도 ‘평균과의 차이'의 평균이므로 평균과의 멀어짐 정도(거리)를 나타냅니다.


18. 편차를 일단 제곱한 다음, 이를 모두 더하여 데이터 수로 나누면 되지 않을까라는 것입니다. 이렇게 하면 플러스 마이너스로 서로 상쇄되는 일은 없습니다. 이를 데이터 수로 나눈 것을 분산이라 부르기로 합니다. 데이터의 산포도를 나타내는 지표로 사용합니다. 분산 = (편차의 제곱)의 합계 / 데이터 수



‘분산'에서 ‘표준편차’로


단점 1/ 너무 큰 ‘분산'

19. 원래 분산은 ‘산포도를 수치화하여 살펴보는’ 것이 목적. 그러나 분산은 ‘(각) 데이터 - 평균', 즉 편차를 제곱하므로 아주 큰 수치가 된다는 점은 이미 앞 절에서도 살펴본 대로입니다. 즉, 첫 번째 분산의 문제점은 편차에 비해 아주 큰 수치가 된다는 점입니다.


단점 2/ 단위가 변하는 ‘분산'

20. 분산은 계산 과정에서 제곱이 되므로, 원래의 의미와 달라짐. 표준편차 = √분산



표준편차 계산하기


21. 표준편차 계산하기

- 1/ 평균 구하기: 평균이란 데이터가 균형을 이루는 곳, 즉 중심 위치이다.

- 2/ 편차 구하기: 편차는 각 데이터와 평균과의 차이입니다.

- 3/ 분산, 표준편차 구하기: 각 편차(각 데이터- 평균)를 제곱하고 그 합을 구하여 개수로 나누면 이것이 분산입니다. 분산은 편차를 제곱한 것이므로 표준편차를 계산하려면 분산의 제곱근(루트)을 취합니다.




정규분포 체감하기


데이터로 도수분포표 만들기


22. 정규분포로의 첫걸음은 ‘히스토그램 만들기'입니다. 데이터 수집 -> 도수분포표 만들기 -> 히스토그램 만들기.

- 1/ 데이터: 이미 처리된 2차 데이터보다 1차 데이터 사용을 권장

- 2/ 도수분포표: 원시 데이터를 이용하여 최댓값, 최솟값(범위) / 그래프 폭(계급)과 빈도 등을 통해 도수분포표 완성

- 3/ 히스토그램: 도수분포표를 이용하여 히스토그램 생성. 분포 상황을 한눈에 파악.


23. 데이터를 그래프화하여 히스토그램을 만들려면 우선 도수분포표를 만들어야 합니다. 도수분포표에 구간이 나누어진 것을 알 수 있습니다. 이를 계급이라 부릅니다. 다만, 데이터양이 적을 때 너무 많은 계급으로 구분하면 각각의 범위에 포함되는 데이터 양이 적어지므로 보기 불편해집니다.


24. 계급을 나누어보겠습니다. 순서는 다음과 같습니다.

- 1/ 데이터의 최댓값, 최솟값 조사

- 2/ 해당 범위(최댓값 - 최솟값)와 데이터 개수에 따라 6~10개로 구분


25. ‘계급값’이란 해당 계급의 한가운데 값입니다.



히스토그램에서 쌍봉형을 발견했다면?


26. 히스토그램 유형 3가지

- 1/산형(종형): 몸무게나 키와 같은 다수의 ‘연속량 데이터'에서 볼 수 있는 패턴. 산(봉)이 하나이므로 ‘단봉형'이라고도 함.

- 2/ 지수형:  이런 그래프 패턴은 제품별 판매 순위, 신제품 고장(불만)의 시간적 경위 등에서 자주 발견됨.

- 3/ 쌍봉형: 산(봉)이 2개인 쌍봉형 패턴. 이러한 쌍봉형이 나타날 경우 원래 데이터를 재확인할지 검토해야 함.



히스토그램에서 분포곡선으로


27. 정규분포곡선은 가운데 ‘평균'이 있고, 그 부근에 많은 수의 데이터가 모이며, 평균에서 멀어질수록 계측한 데이터양도 줄어드는 분포입니다.


28. 정규분포에는 무수한 패턴이 있습니다. 단, 그러한 패턴도 ‘평균'과 ‘분산(표준편차)’의 2가지 수치만으로 정해집니다.


29. 실제로 정규분포에서는 ‘평균에서 얼마나 떨어져 있는가?’로 해당 범위에 포함되는 데이터의 비율(확률)이 정해집니다. 그리고 그 거리 단위로 표준편차를 사용합니다.



정규분포 움직이기 1: 평균 변경


30. 정규분포는 좌우 대칭을 이루는 보기 좋은 그래프입니다. 형태는 무수히 많으며 배치도 조금씩 어긋납니다. 평균은 이러한 정규분포의 딱 중간에 위치하므로 평균이 달라지면(표준편차는 그대로) 정규분포의 중심축도 달라집니다. 즉, 평균이 변하면 ‘정규분포는 좌우로 움직이는’ 것입니다. 덧붙여 평균=0, 표준편차=1인 정규분포를 표준정규분포라고 합니다.



정규분포 움직이기 2: 표준편차 변경


31. 표준편차(혹은 분산) 값이 클 때는 납작한 정규분포곡선이 그려집니다. 반대로 표준편차가 작아지면 작아질수록 정규분포곡선은 점점 뾰족해집니다. 다만 평균은 그대로이므로 중심은 움직이지 않습니다.


32. 이렇게까지 형태가 바뀌어버리면 마치 전혀 다른 분포도인 듯 보이지만, 실제로는 단순히 옆으로 늘어났거나 아래위로 늘어났을 뿐 기본적으로는 같다고 할 수 있습니다.



정규분포로 확률 보기


33. 정규분포에서는 평균(평균)을 중심으로 좌우로 줄어드는 곡선을 그립니다. 이때 -1 시그마(시그마는 표준편차) 단위부터 1 시그마까지의 거리에 속하는 면적 (±1 시그마)은 68.26%가 된다고 설명했습니다. 이는 어떤 형태의 정규분포곡선에서도 마찬가지입니다.


34. 결국, 정규분포곡선에서 ‘평균±표준편차(혹은 분산)’까지의 범위는 특정 데이터가 해당 범위에 포함될 확률을 나타냅니다.


35. ±1 시그마(표준편차)의 위치는 수학에서 ‘변곡점'이라 불리는 특별한 위치임. 곡선 위에서 가장 ‘기울기가 큰' 지점으로, 이 지점을 경계로 양쪽의 기울기가 작아짐.



여러 곳에서 사용할 수 있는 표준정규분포


36. 표준점수를 계산하여 표준화했을 때 이를 나타내는 분포는 ‘평균 = 0, 표준편차 = 1인 정규분포'가 됩니다. 무수히 많은 정규분포 중에서도 이러한 특별한 정규분포를 가리켜 표준정규분포(standard normal distribution)라 부릅니다.




표본을 이용하여 모집단의 특징 추정하기


무엇을 ‘추정'할까?


37. 현대 통계학의 주류는 추측 통계학입니다. 그런 의미에서 추측 통계학을 다루는 ‘(통계학적) 추정'과 ‘가설검정'이 추측 통계학이 중심 역할이라 할 수 있습니다.

- 기술 통계학: 모든 데이터를 다루는 것이 기본

- 추측 통계학: 표본에서 원래 집단의 특징 등을 추정


38. 표본 데이터를 이용하여 원래 집단의 성질, 특징 등을 추정할 때는 도대체 무엇을 ‘추정'하는 것일까요? 이때의 추정이란 ‘원래 집단'의 평균, 분산 또는 비율 등을 일컫습니다.


39. 평균과 분산이 중요한 이유는 이 두 가지만 알면 원래 집단에 대해 어느 정도 추측할 수 있기 때문입니다.


40. 표본 데이터에서 원래 집단의 평균을 추정하는 방법에는 어림짐작이 아닌 이를 떠받치는 사고방식, 즉 이론이 필요합니다. 이것을 중심극한정리(central limit theorem)라 부릅니다. 이는 원래 집단의 평균을 추정하는 추측 통계학의 근거가 되는 중요한 정리입니다.



통계학 용어 정리


41. 여러분이 표본(샘플)의 평균을 염두에 두고 있어도 상대가 다른 것을 떠올릴 가능성이 있다면 어느 쪽의 의미로 사용하는지를 확인하면서 이야기를 진행하는 것이 좋습니다. 이를 위해서도 정확한 통계학 용어나 개념을 구분 지어 사용하며 상대와 의사소통해야 합니다.


42. 모집단에서 샘플을 통해 수집한 데이터를 표본이라 부릅니다. 모집단에는 해당 데이터의 평균, 분산, 표준편차가 있습니다. 여기에 각각 ‘모'를 붙여 모평균, 모분산, 모표준편차로 부릅니다. 아무런 설명 없이 ‘평균, 분산, 표준편차'라 한다면 이는 ‘모집단의 평균, 분산, 표준 편차'를 가리킵니다.


43. 그리고 표본에도 ‘표본'이라는 접두사를 붙여 ‘표본평균, 표본분산, 불편분산, 표본표준편차'라 하여 모집단과 구별합니다. 덧붙여 이처럼 표본을 이용하여 계산한 표본평균, 표본분산, 불편분산, 표본평균편차를 통계량이라 부릅니다. 통계량이라는 용어는 자주 사용합니다만, 모집단의 값은 통계량이라 부르지 않습니다.


44. 불편분산의 경우에는 마지막을 ‘데이터 개수'로 나누는 대신 ‘데이터 개수-1’로 나누는 거야. 이것이 불편분산이지. 표본분산은 보통의 분산(모분산)과 마찬가지로 ‘데이터 개수'로 나누어.


45. ‘표본분산'(데이터 개수 n으로 나눔)을 이용하여 모분산을 추정하면 ‘조금 작은 값'이 나온다는 것을 알고 있었지. 하지만 ‘데이터 개수-1’인 불편분산을 사용하여 추정하면 모분산과 일치한다는 거야. 불편분산이 모분산과 일치한다는 것은 수학적으로 증명은 되지만 무척 어려운 내용이야.


46. 모집단의 특징을 추정하기 위한 표본 데이터를 ‘추정값'이라 불러. 이런 의미에서 표본평균이나 불편분산은 추정값이 되지만, 표본분산은 추정값이라 할 수 없어.



‘점추정'은 맞을 수도 있다?


47. 간단한 추정 방법을 점추정이라 부릅니다. 단, 모집단이 정규분포라는 것을 알고 있다면 점추정에도 그 나름의 설명이 가능합니다만, 모집단의 분포를 전혀 알 수 없다면 점추정은 매우 어렵습니다.


48. 점추정과 달리 일정한 폭과 구간을 추정하는 방법이 있습니다. 이러한 추정 방법을 구간추정이라 부릅니다. 구간추정을 하려면 ‘중심극한정리’ 등의 준비가 필요합니다.



구간으로 나타내는 ‘구간추정'


49. 중심극한정리의 경우 ‘모집단의 분포가 어떠하든~'이라고 했으나, 만약 이 모집단이 정규분포임을 알고 있다면 ‘표본 n의 개수는 상관 없다(즉 표본 수가 적어도 됨)’라는 더 편리한 성질이 있습니다.



99% 신뢰도일 때의 구간 추정


50. 표본 인원 수가 4명, 40명, 400명으로 늘어날수록 같은 95%, 99% 확률이라도 구간은 좁아지고, 이와는 반대로 95%에서 99%로 높아지면 구간은 넓어집니다. 이러한 95%와 99% 확률을 이미 언급한 대로 신뢰도라 하며 이때의 구간은 신뢰구간이라고도 부릅니다.



t 분포, x^2 분포


51. 모평균을 모를 때는 어떻게 할까요? 이때는 ‘모집단이 정규분포'임을 안다면 ‘t분포’라는 정규분포와 많이 닮은 분포를 이용할 수 있습니다. t분포는 데이터 30개까지는 정규분포에 비해 분포도가 조금 평평하며 30개가 넘어가면 정규분포와 거의 같아집니다.


52. 정규분포나 t 분포는 좌우 대칭 분포를 그리지만 x^2 분포는 멱분포와 비슷한 모양을 그립니다.




가설을 세우고 올바른 가설인지 확률로 판단하기


가설검정이란?


53. 가설검정이란 가설 X가 올바르다고 가정했을 때, 확률적으로 일어날 수 없는 아주 희귀한 일이 일어난다면 가설 X 자체가 잘못되었을 가능성이 크다는 것으로, 최초의 가설 X를 부정하고 남은 가설 Y를 채택한다는 원리입니다. (p.243)

- 주장하고 싶은 가설 = 대립가설  

- 기각하고 싶은 가설 = 귀무가설(영가설)  


54. 중요한 점은 결국 ‘지극히 희귀한, 드문' 경우의 기준을 구체적인 수치(확률)로 사전에 정해두는 것입니다.


55. 그렇게 결정한 수치(확률) 보다 작은 확률의 일이 발생했을 때 더는 ‘우연'이라 할 수 없고 무언가의 필연적인 의미가 있을 것이라고 선을 그은 기준(확률)을 유의수준(significance level)이라 부릅니다.


56. 그리고 이 유의수준에 포함되면 ‘가설이 옳다고 가정했을 때 부자연스럽게 드문 일이 일어났다.’라고 보고 ‘최초의 가설(귀무가설)’을 버립니다. 이를 통계학에서는 기각이라 부르며, 이 기준선보다 희귀한 방향(지극히 드문 영역)을 기각역이라 합니다.


57. 기각역, 즉 유의수준은 일반적으로 5%로 설정할 때가 흔하며(반대로 말하면 95% 안에 들어가면 ‘드물다고 할 수 없음'이라 판단) 경우에 따라서는 1% 일 때도 있습니다. 그러나 5%든 1%든 잘못을 저지를 위험성이 있으므로 이를 위험률이라고도 부릅니다.


58. 통계학은 수치를 이용한 합리적인 판단 기준을 정하고 있습니다만, 항상 5%(혹은 1%) 비율로 빗나갈 위험도 있음을 명심해야 합니다.



가설검정 순서


59. 1/ 대립가설 설정 -> 2/ 귀무가설 설정 -> 3/ 귀무가설이 올바르다고 가정 -> 4/ 유의수준 설정 -> 5/ 대립가설을 고려한 기각역 설정 -> 6/ 실제 데이터로 판단 -> 7/ 기각역 안쪽: 대립가설 채택 or 기각역 범위 밖: 귀무가설 수용



검정에서 조심해야 할 두 가지 실수


참이지만 틀릴 경우

60. 가설검정은 완전무결한 것이 아니라 ‘항상 빗나갈 위험성을 숨기고 있는' 것입니다.


61. ‘귀무가설이 옳았음에도 올바르지 않다며 기각'하는, 즉 옳은(진짜) 것임에도 올바르지 않다고 잘못 판단할 경우를 제1종 오류 또는 알파 오류라 부릅니다.


거짓이지만 통과될 경우

62. 귀무가설이 올바르지 않았음에도 기각하지 못한 경우, 즉 거짓인 것을 참이라고 잘못 판단한 것으로 이를 제2종 오류 또는 베타 오류라 합니다.


유의수준 설정의 양면성

63. 통계학 검정에서는 유의수준을 ‘5%, ‘1%’ 등의 형태로 설정하고, 해당 영역에 포함되면 귀무가설을 버리고 대립가설을 채용합니다. 이때 5%의 유의수준에서 버려진 귀무가설은 실은 올바른 것이었을 수도 있습니다.


64. 유의수준 설정은 트레이드오프(trade-off) 관계에 있다는 사실입니다. ‘저쪽을 올리면 이쪽이 내려간다.’라는 것이죠. 2가지 오류를 동시에 줄일 수는 없습니다. 다만 이들의 관계가 트레이드 오프인 이상, 완전한 해결책을 찾기보다는 각각의 상황에 맞는 유의수준을 정하는 방향으로 결정해야 합니다.

매거진의 이전글 마케터와 기획자에게 필요한 통계 지식 101
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari