데이터의 중심 경향

평균(Mean), 중앙값(Median), 최빈값(Mode)

by Yimhyehwa



1. Learning Focus


첫 시간은 우리가 관측하여 얻은 표본의 중심 경향을 설명하는 데 사용할 수 있는 다양한 측정 방법에 대해서 살펴보겠습니다. 표본의 중심 경향을 나타내는 통계 개념으로는 평균(Mean), 중앙값(Median), 최빈값(Mode)이 있습니다.


2. 평균(Mean)


먼저 우리가 익히 알고 있는 평균에 대해 살펴보겠습니다. 평균은 우리가 관심을 갖고 있는 표본 값의 합계를 표본의 크기로 나눈 값입니다. 우선 아래에서 평균을 산출하는 개괄적인 수식을 보시겠습니다.


image.png


예를 들어 다섯 명의 평균 키(height)를 계산하고 싶다고 가정해 보겠습니다. 다섯 명의 키는 차례대로 160cm, 180cm, 180cm, 170cm, 175cm 입니다. 평균을 계산하려면 다섯 명의 키를 모두 더한(Sum of all sample values) 다음 표본의 크기(Size of sample)인 5로 나누어야 합니다. 모든 키의 합계는 865입니다. 이 합계를 5로 나누면 173cm라는 값을 얻게 됩니다. 따라서 다섯 명의 평균 키는 173입니다. 참고로 표본의 평균을 나타내는 기호는 'x-bar'(엑스 바)입니다. 표본 평균의 기호는 아래 방정식의 맨 왼쪽과 같습니다.


image.png


다음의 공식은 평균을 계산하는 데 일반적으로 사용됩니다. 이 공식은 통계의 다른 공식에도 많이 사용되는 전개 과정이기 때문에 반드시 이해하고 넘어가는 것이 좋습니다.


image.png


은 표본의 평균을 나타냅니다. 등호(=)를 기준으로 양변의 구조를 이루는 방정식입니다. 오른쪽에 변수의 성격을 띠는 아래첨자 i가 달려 있는 x, n 등 미지수의 값을 어떻게 정의하고 대입하는 지에 따라 왼쪽에 표본의 평균이 결정되는 계산 방식입니다. 는 표본의 크기를 나타냅니다. 은 변수 x의 아래 첨자 i형태로 개별 측정 값 또는 관측된 값을 나타냅니다. 는 시그마의 대문자(∑)를 시작으로 하는 합산 표기법으로 i는 데이터의 순서(Index)를 의미합니다. 첫 번째 관측 값부터 시작해서 마지막 n번째 관측 값까지 하나도 빠짐없이 전부 더하라는 것을 알려줍니다. 참고로 시그마의 대문자인 합계 기호는 수학에서 일련의 수열을 모두 더하라(Summation)는 연산 명령어입니다. 앞선 예시에 위 공식을 대입하면 다음과 같아집니다.


image.png


3. 중앙값(Median)


다음으로 중앙값을 살펴보겠습니다. 중앙값은 표본과 같은 관측된 Data Set의 중간값으로 생각할 수 있습니다. 중앙값을 계산하려면 먼저 데이터를 정렬(Sort of the data)해야 합니다. 그 다음 정렬된 데이터의 중간값(Fine the middle value)을 찾습니다. 이렇게 찾은 중간값은 중앙값을 나타냅니다.


다섯 명의 개인 키가 160, 180, 180, 170, 175였습니다. 이 값들을 가장 작은 값에서 가장 큰 값으로 정렬합니다. 그렇게 되면 160, 170, 175, 180, 180이 됩니다. 이제 끝에서 값을 하나씩 지워 중간값을 찾습니다. 양 끝의 160과 180을, 170과 180을 차례로 지웁니다. 따라서 5명 개인의 중앙값이 되는 키는 175cm입니다.


만약 짝수 개의 관측 값이 있는 경우, 즉 6명에 대한 키 데이터가 있는 경우에도 마찬가지의 방법으로 양쪽 끝에서 차례대로 값을 지우면 중간에 두 개의 값이 남습니다. 예를 들어 160, 180, 180, 175, 175, 190이라면 [160 175 175 180 180 190]으로 데이터를 정렬하고, 양쪽 끝에서부터 160과 190, 175과 180을 지우면 175와 180이 남게 됩니다. 이 경우 중앙값의 키를 계산하려면 175와 180의 평균을 계산합니다. 따라서 177.5cm가 됩니다.


4. 평균 or 중앙값

[대칭 분포와 치우친 분포를 중심으로]


image.png note: https://www.elearningcampus.io/blog/mean-median-mode-and-range


데이터의 분포가 대칭 분포(Symmetrical Distribution)인 경우, 평균과 중앙값은 매우 가깝거나 동일합니다. 그러나 맨 왼쪽과 맨 오른쪽의 분포와 같이 치우친 분포(Skewed Distribution)의 경우 평균은 극단값의 영향을 크게 받습니다. 오른쪽으로 꼬리가 긴 Positive Skew의 경우 높은 극단값들이 퍼져 있기 때문에 평균이 중앙값보다 더 큽니다. 반면, 왼쪽으로 꼬리가 긴 Negative Skew의 경우 낮은 극단값들이 퍼져 있기 때문에 평균이 중앙값보다 더 낮습니다. 한편, 중앙값은 Data Set의 중간값을 기반으로 하기 때문에 극단값에 덜 민감합니다. 따라서 치우친 분포의 경우에는 중앙값이 Data Set의 중심 경향을 나타내는 측정값으로서 타당합니다.


중앙값이 치우친 분포에 더 적합한 이유를 설명하기 위해 다음의 예시를 들어보겠습니다. 임직원 6명으로 구성된 회사에서 내가 받는 급여가 다른 직원들과 비교하여 괜찮은 수준인지, 아니면 낮은 수준인지 알고 싶다고 가정해 보겠습니다.


직원1: 4,500만 원

직원2: 4,650만 원

직원3: 4,700만 원

직원4: 4,800만 원

직원5: 4,950만 원

임원6: 9,500만 원


이 예에서 평균 연봉은 5,517만 원이고, 연봉의 중앙값은 4,750만 원입니다. 만약 내가 받는 급여가 4,950만 원이라면 평균 연봉보다는 567만 원이 낮기 때문에 급여가 상당히 낮다고 생각할 수 있습니다. 그러나 중앙값과 비교하면 내가 받은 급여가 200만 원이 높기 때문에 이 정도면 양호한 수준의 급여를 받고 있다고 생각할 것입니다. 이처럼 중앙값은 조직의 극단적인 급여 Data의 영향을 받지 않기 때문에 이와 유사한 연봉 분포를 갖고 있는 경우 더 나은 비교 척도가 됩니다.


5. 최빈값(Mode)

[Most often in a data set]


세 번째 중심 경향 측정값은 최빈값입니다. 최빈값은 Data Set에서 가장 자주 나타나는 값입니다. 예를 들어 관측된 값들이 [1 2 3 6 6 6 7 7 14]와 같다면, 여기서는 6이 세 개로 가장 흔한 값임을 알 수 있습니다. 즉, 최빈값은 6이 됩니다. 최빈값은 주로 범주형 데이터의 중심 경향을 나타내는 데 사용됩니다.


image.png


위와 같이 14명의 유치원 친구들에게 가장 좋아하는 산리오 캐릭터를 물어봤다고 가정해 보겠습니다. 유치원 친구들은 쿠로미, 시나몬롤, 마이멜로디, 헬로키티 중 한 친구만 골라야 하는 상황(단일 응답 조건)입니다. 이렇게 14명 아이들의 답변을 집계한 결과 쿠로미는 3명, 시나몬롤은 4명, 마이멜로디는 5명, 헬로키티는 2명의 아이들이 선호를 표현했습니다. 따라서 가장 많은 아이들의 선호를 받은 마이멜로디(5)가 최빈값이 됩니다.







월, 화, 수, 목, 금, 토, 일 연재