brunch

02. 데이터 읽기의 기초(1)

기술통계(1): 대푯값, 산포도(Range), 사분위수

by HyehwaYim






Review


안녕하세요? 지난 시간에는 "데이터와 변수"란 주제에 대해 이야기를 나눴습니다. 데이터는 관찰된 값(Fact)의 모음, 변수는 그러한 값들이 지니고 있는 속성 또는 측정의 항목으로서 구분했습니다. 통계를 기반으로 하는 HR Analytics는 숫자를 다루는 분야이지만, 우리는 숫자를 다루기 전에 데이터와 변수를 이해함으로써 보다 나은 이해를 다듬어 갈 수 있을 것입니다.


변수는 숫자가 아닌 질적 변수와 숫자로 구분되며, 수학적 연산이 가능한 양적 변수로 유형을 나눌 수 있습니다. 질적 변수에는 범주(Label)로 구분된 명목형 변수와 간격을 논할 수 없지만 순서를 갖고 있는 서열형 변수가 있습니다. 그리고 양적 변수에는 숫자로 표현되고 간격을 갖고 있지만 절대적인 0점을 정의할 수 없는 구간형 변수와, 구간형 변수의 특징을 모두 갖고 있으면서 절대적인 0점이 존재하는 비율형 변수를 살펴보았습니다.


오늘의 학습 방향


오늘은 "데이터 읽기의 기초(1)"란 주제로 이야기를 나눠 보고자 합니다. 통계학은 데이터를 읽는 방법에 대해서 크게 두 갈래를 제시하고 있습니다. 첫째는 기술통계(Descriptive Statistics), 둘째는 추론통계(Inferential Statistics)입니다. 기술통계는 일종의 '스냅숏(Snapshot)'입니다. 우리가 현재 시점에서 수집한 데이터가 보여주는 특징을 몇 가지의 통계 용어로 집약하여 설명하는 것에 초점을 둡니다. 데이터는 숫자로 이뤄져 있습니다. 그렇다면, 그러한 숫자들이 보여주는 특징이란 무엇일까요? 바로 '중심'과 '중심으로부터 퍼져 있는 정도'입니다. 이것은 어떠한 데이터 집합의 위치와 분포를 체계적으로 나타내려는 통계학의 지혜가 담겨 있습니다.


반면 추론통계는 '추론'에 관한 것입니다. 우리는 보통 관심을 갖고 있는 주제에 해당하는 대상의 전부를 알고자 합니다. 예를 들어, 내가 만약 이커머스 산업에 속해 있는 회사를 다니고 있는 HR 담당자인데, 이커머스 산업에 종사하는 직원들의 연봉 수준을 알고자 합니다. 하지만 현실에서는 이 업종에 종사하는 전체 직원들이 몇 명인지도 알 수 없고, 그들 각각의 연봉이 얼마인지도 알 수 없습니다. 이건 불가능에 가깝습니다.


다만, 우리 회사에 있는 직원들의 연봉, 그리고 우리 회사에 합류한 다른 이커머스 기업 출신의 직원들의 연봉으로부터 일부 데이터를 수집할 수 있습니다. 이렇게 수집한 일부 데이터를 '표본'(Sample)이라고 부릅니다. 추론통계는 수집된 표본을 바탕으로 우리가 알고자 하는 '이커머스 산업에 종사하는 직원들의 연봉'(모집단, Population)이 얼마인지를 추론(예측)하는 방법론에 관한 것입니다. 이때는 스냅숏을 바탕으로 다양한 가설을 검정하는 과정을 같이 병행하게 됩니다. 그래서 추론통계는 '기술통계를 바탕으로 나아가는 과정'이며, '가설검정에 관한 방법'을 별도로 수행하는 세계입니다.


지금부터 "데이터 읽기의 기초"란 주제로 기술통계를 살펴보고 이해하는 시간을 가져 보고자 합니다. 본 과정은 1편과 2편으로 나눠서 진행되겠습니다. 자, 그럼 시작하겠습니다.



기술통계(Descriptive Statistics)란 무엇인가?


세상 모든 지식을 담고 있는 나무위키(Namuwiki)는 기술통계를 "수집한 자료를 정리하여 표나 도표를 제시하거나, 자료를 요약하여 그 산포나 대푯값을 구하는 학문" 정도로 정의합니다. 이를 달리 말한다면, "숫자값으로 되어 있는 어떠한 데이터 집합이 있을 때, 그 데이터 집합을 설명하는 다양한 수치들의 모음"입니다. 다소 난해한 표현 같아 보이지만, 알고 보면 숫자로 구성되어 있는 데이터의 특징을 축약하여 나타내는 것도 결국 '어떠한 숫자값'인 것입니다.


우리가 관심을 갖고 있는 주제와 관련한 데이터 집합을 다양한 수치로 설명할 때는 가장 먼저 데이터의 중심이 무엇인지, 그리고 데이터가 이 중심값으로부터 얼마나 퍼져 있는지 변동성을 밝힙니다. 전자를 도출하는 것을 중심 경향 측정(Measures of central tendency), 후자를 도출하는 것을 산포도 측정(Measures of dispersion)이라고 합니다.


중심 경향 측정(Measures of central tendency)


우리가 수집한 데이터 집합의 중심 경향을 측정할 때는 '다양한 평균값'을 고려하게 됩니다. 이 말은 곧 어떠한 데이터 집합에서 '중심'이라는 기준을 어디에 둘 것인지에 따라 데이터를 대표하는 값이 달라질 수 있음을 의미합니다. 이러한 관점에서 데이터 집합의 중심 경향을 나타내는 값들을 살펴보면, ① 평균값(Mean), ② 중앙값(Median), ③ 최빈값(Mode)이 있습니다. 간단히 참고할 사항은 Excel에서 이 세 가지 값을 구할 때 평균값은 'Average' 함수를 씁니다. 'Mean' 함수를 쓰지 않습니다. 둘 간에 어떠한 차이가 있어서 그런 건 아닙니다. Excel이 만들어진 초기부터 평균을 나타내는 실생활의 친화적인 용어로써 'Average'란 표현을 썼을 뿐입니다.


① 평균값(Mean)


평균값은 보통 '산술평균'(Arithmetic mean)을 말합니다. 산술평균은 기초 연산 중 '더하고 나누는' 법칙만을 활용하여 평균을 구하는 것입니다. 즉, 우리가 관찰한 데이터의 합계를 관찰한 데이터의 개수로 나눈 값입니다. 만약 어떠한 데이터 집합이 있고, 각각의 값이 {5, 0.9, 0.2, 2, 1}이라면, 모든 데이터의 합계는 9.1입니다. 그리고 데이터의 개수인 5개로 나누면, 1.82가 Mean이 됩니다.


② 중앙값(Median)


중앙값은 우리가 관찰한 데이터를 가장 작은 값부터 큰 값의 순서로 배열했을 때, 이를 두 부분으로 나누는 가운데 있는 값을 말합니다. 만약에 데이터의 개수가 홀수라면, 정 가운데 있는 값이 중앙값이 됩니다. 반면, 데이터의 개수가 짝수라면 가운데 위치한 두 값을 평균한 값이 중앙값이 됩니다.


위의 예시를 가져오겠습니다. 데이터 집합의 값이 {5, 0.9, 0.2, 2, 1}입니다. 그런데 이 집합은 수의 크고 작음이 순서대로 배열되어 있지 않습니다. 중앙값을 구하기 위해 오름차순으로 정렬하면, {0.2, 0.9, 1, 2, 5}가 됩니다. 이 데이터의 개수는 5개로 홀수입니다. 따라서 중앙값은 1이 됩니다.


✨ Mean vs Median


우리는 보통 데이터 집합의 중심 경향을 나타내는 값인 '대푯값'으로 Mean을 사용합니다. 그러나 모든 경우에 있어 Mean이 데이터의 중심을 가장 잘 나타낸다고 할 수 없습니다. 때로는 평균값뿐만 아니라 중앙값을 같이 다뤄야 하는 경우도 있습니다. 예를 들어보겠습니다. 한 기업에 7명의 직원이 있고, 7명 각각의 연봉은 아래와 같다고 가정해 봅시다.



위 사례에서 Mean은 직원 1부터 직원 7까지 연봉을 모두 합산한 다음 데이터의 개수인 7개로 나눈 값입니다. 계산을 하면, 95,333,333원입니다. 반면, Median은 연봉이 가장 낮은 직원 1부터 연봉이 가장 높은 직원 7까지 순서대로 배열했을 경우, 가운데에 위치한 값입니다. 즉, 직원 4의 연봉인 34,000,000원이 Median이 됩니다.


우리는 이 간단한 사례를 통해 Mean이 극단적인 관측값(Extreme observations)에 영향을 받는다는 것을 알 수 있습니다. 반면, Median은 단순히 가운데에 위치한 값이기 때문에 극단값의 영향을 거의 받지 않는다는 것을 알 수 있습니다. 보통 임금(Salary)이나 시장 가격(Market Price) 데이터 집합에서 이러한 패턴과 차이를 발견하는 경우가 종종 있습니다.


③ 최빈값(Mode)


최빈값이란 한 데이터 집합에서 가장 자주(빈번하게) 나타나는 값을 말합니다. 즉, 가장 흔한 값이라고 할 수 있습니다. 만약 수집한 데이터가 {2, 3, 3, 5, 7, 7, 7, 9}라고 한다면, 세 번이 나온 7이 최빈값이 됩니다. 통계의 관점에서 최빈값은 가장 많이 선택된 제품, 조직에서 가장 많이 있는 직급 등 질적 변수의 특징을 살펴볼 때 유용하게 사용될 수 있습니다.




산포도 측정(Measures of dispersion)


우리나라 말로 "Dispersion"은 '분산'을 뜻합니다. 본래 분산이란 '어떠한 것이 사방으로 흩어져 있거나 퍼져 있는 정도'를 말합니다. 통계학은 산포도(散布度)라고 부릅니다. 각각의 한자를 보면, '散'은 흩어져 있다는 의미, '布'는 널리 퍼져 있다는 의미, '度'는 정도나 척도를 의미합니다. 통계학에서 산포도는 이들 한자의 뜻과 데이터에 대한 특징과 결합하여 '데이터 집합의 중심인 대푯값(평균값)으로부터 얼마나 퍼져 있는지'를 나타냅니다.


A회사와 B회사가 있다고 가정해 봅시다. 이들 각각의 회사에 근무하는 직원들의 급여를 표본으로 추출했더니 아래와 같이 나타났습니다.



Excel에서 평균값을 구하는 Average 함수와 중앙값을 구하는 Median 함수를 사용하면, 평균값은 33,500,000원, 중앙값은 33,800,000원으로 동일합니다. 그렇다면 두 회사의 표본으로 살펴본 연봉의 산포도도 같을까요? 그렇지 않습니다. 평균값과 중앙값은 데이터의 중심 경향을 나타낼 뿐이고, 그것만 가지고 데이터가 대푯값으로부터 퍼져 있는 정도를 확인할 수 없습니다. 데이터가 흩어진 정도를 직관적으로 알 수 있는 효율적인 방법가장 작은 값과 가장 큰 값의 차이, 즉 'Range'를 측정해 보는 것입니다. 각 회사의 Range는 아래와 같습니다.


A회사의 연봉 데이터 Range=36,000,000-30,700,000=5,300,000원

B회사의 연봉 데이터 Range=41,700,000-25,000,000=16,200,000원


따라서 우리는 B회사의 연봉 데이터가 A회사의 연봉 데이터보다 퍼져 있는 정도가 크다는 것을 쉽게 확인할 수 있습니다. 이를 그림으로 나타내면 다음과 같습니다.




사분위수(Quartile)


우리는 앞서 Range 측정을 통해 데이터가 퍼져 있는 전체 구간을 파악했습니다. 하지만 전체 구간을 안다고 하여 데이터의 위치와 분포에 대한 체계적인 이해를 하긴 어렵습니다. 이를 위해 유용하게 활용할 수 있는 통계의 개념이 바로 '사분위수'입니다. 사분위수는 데이터를 크기 순으로 정렬했을 때, 전체 데이터를 크게 네 개로 '등분(等分)'하는 지점을 나타내는 값입니다.


간단한 예를 들어보겠습니다. 영업 부서에 팀장 1명, 팀원 9명입니다. 회사는 매년 절대평가 방식으로 하향식 평가를 하고 있습니다. 그래서 영업 부서의 팀장은 팀원 9명에 대하여 평가 점수를 매겼습니다. 평가 점수는 {55, 60, 65, 70, 75, 80, 85, 90, 95}입니다. 그럼 이 9개의 데이터에 대한 사분위수를 구해보겠습니다.


먼저 이 데이터의 50% 위치를 차지하는 값을 찾습니다. 다시 말해, 전체 데이터에서 정 가운데 위치하는 지점의 값을 구합니다. 이것이 바로 제2사분위수(Q2), 즉 중앙값이 됩니다. 이 9개의 데이터에서 중앙값은 75입니다. 따라서 Q2=75입니다.


그럼 제2사분위수를 중심으로 같은 방식으로 제1사분위수와 제3사분위수를 구해보겠습니다. 우선 제1사분위수입니다. 제1사분위수는 제2사분위수(중앙값)를 기준으로 하위 그룹(왼쪽 영역) 데이터의 중앙값을 말합니다. 제2사분위수의 왼쪽 영역에 있는 데이터는 {55, 60, 65, 70}입니다. 이 데이터는 4개이므로, 중앙값은 (60+65)/2=62.5가 됩니다. 따라서 Q1=62.5입니다.


제3사분위수는 제2사분위수(중앙값)를 중심으로 상위 그룹(오른쪽 영역) 데이터의 중앙값을 말합니다. 제2사분위수의 오른쪽 영역에 있는 데이터는 {80, 85, 90, 95}입니다. 이 데이터는 4개이므로, 중앙값은 (85+90)/2=87.5가 됩니다. 따라서 Q3=87.5가 됩니다.


위 내용을 정리하면, 제1사분위수는 62.5, 제2사분위수(중앙값)는 75, 제3사분위수는 87.5가 되니다. 이를 간단히 그림으로 나타내면 다음과 같습니다.

위 그림을 보면, ① 제1사분위수는 데이터 하위 그룹의 중앙값으로 전체 데이터의 25% 지점, ② 제2사분위수는 전체 데이터의 50 지점, ③ 제3사분위수는 데이터 상위 그룹의 중앙값으로 전체 데이터의 75% 지점을 나타내는 값임을 알 수 있습니다.


Insights①: IQR(Interquartile Range)


사분위수와 관련하여 새로운 개념이 등장합니다. 그것은 사분범위(IQR, Interquartile Range)입니다. IQR은 제3사분위수(Q3)에서 제1사분위수(Q1)를 뺀 값으로, 중앙에 있는 50%의 데이터가 퍼져 있는 범위를 나타냅니다. Q3=87.5, Q2=50, Q1=62.5입니다. 따라서 IQR=87.5-62.5=25입니다. 즉, 중간 50%의 데이터가 87.5점에서 62.5점 사이에 분포되어 있으며, 그 범위는 25점입니다.


참고로 통계학은 경험적 법칙으로서 IQR을 활용하여 데이터의 이상치(Outlier)를 탐지하는 일련의 공식을 제시하고 있습니다. 즉, 하한선에 해당하는 기준값과 상한선에 해당하는 기준값을 구할 수 있는 공식입니다. 여기서 하한선(Lower bound)은 [Q1-1.5 ×IQR], 상한선(Upper bound)은 [Q3+1.5 ×IQR]입니다.


Insights②: 분포의 대칭 정도


사분위수는 어떠한 데이터 분포의 대칭 정도를 살펴보는 데에도 활용될 수 있습니다.


만약, 제1사분위수와 중앙값인 제2사분위수의 간격이 넓지 않고 촘촘한 반면 중앙값을 초과하는 상위 그룹의 데이터가 넓게 퍼져 있다면, 이 데이터 집합은 오른쪽으로 치우친 분포(Positive skew)를 갖고 있습니다. 이 경우, 극단값의 영향에 민감한 평균값이 중앙값보다 큰 경향이 있습니다.


반면, 중앙값인 제2사분위수와 제3사분위수의 간격이 촘촘한 반면, 중앙값 미만의 하위 그룹의 데이터가 게 퍼져 있다면, 이 데이터 집합은 왼쪽으로 치우친 분포(Negative skew)를 갖고 있습니다. 이 경우, 중앙값이 평균값보다 큰 경향이 있습니다.










keyword