데이터의 산포(1)

범위(Range) & 사분위 범위(IQR)

by Yimhyehwa



1. Learning Focus


우리는 앞서 데이터의 중심 경향을 나타내는 몇 가지 측정 방법과 개념을 살펴봤습니다. 이번에는 데이터가 퍼져 있는 정도(산포)를 설명하는 데 사용되는 범위(Range), 사분위 범위(Interquartile range, IQR), 표준편차와 분산(Standard deviation and Variance)에 대해서 알아보겠습니다. 데이터의 산포(1) 편은 그중에서 범위와 사분위 범위에 대한 파트입니다.


2. 데이터의 산포(The spread of the data)


데이터의 산포란 데이터 포인트가 서로 얼마나 가깝거나 먼지를 알려줍니다. 데이터 포인트(Data Point)란 '수집된 정보의 최소 단위' 또는 '관측되거나 측정된 값 하나하나'를 말합니다. 예를 들어, 아래와 같이 한 사람의 몸무게(Weight)를 나타내는 Data Set이 있다고 가정해 봅시다.


image.png


이 Data Set의 왼쪽은 성인, 그리고 오른쪽은 아동의 몸무게에 관한 데이터 분포입니다. 왼쪽의 데이터는 약 48kg에서 105kg까지 퍼져 있습니다. 오른쪽의 데이터는 약 16kg에서 23kg까지 퍼져 있습니다. 이들 데이터는 각각 26개의 관측값을 표본으로 하여 스트립 플롯(Strip Plot)으로 나타낸 것입니다. '스트립 플롯'은 가로축이나 세로축 하나를 기준으로 하여 점을 찍어 나타낸 것으로 수직이나 수평선 위에 개별 데이터 포인트를 점으로 툭툭 찍어 놓은 듯한 형태를 말합니다. 우리는 성인과 달리 아동의 몸무게가 데이터의 확산 정도가 작게 나타난다는 것을 직관적으로 추정할 수 있습니다.


3. 범위(Range)


데이터가 퍼져 있는 정도를 측정하는 하나의 방법으로는 범위가 있습니다. 범위는 특정한 Data Set에서 가장 큰 값과 가장 작은 값의 차이로 정의할 수 있습니다. 위에서 본 성인과 아동의 몸무게에 관한 Data Set의 범위를 표시하면 아래와 같습니다.


image.png


왼쪽의 성인에 관한 몸무게 Data Set에서 최댓값은 105kg, 최솟값은 48kg입니다. 따라서 두 값의 거리인 범위는 105-48=57입니다. 반면 오른쪽의 아동에 관한 몸무게 Data Set에서 최댓값은 23kg, 최솟값은 16kg입니다. 따라서 두 값의 거리인 범위는 23-16=7입니다. 우리는 성인의 몸무게에 관한 데이터가 아동의 몸무게에 관한 데이터보다 넓게 퍼져 있다는 것을 수치적으로도 알 수 있습니다. 즉, 아동의 몸무게 데이터가 성인의 몸무게 데이터에 비해 산포의 정도가 작다고 결론을 내릴 수 있습니다.


4. 사분위 범위(Interquartile range, IQR)


사분위 범위는 엄밀히 말하면 데이터의 퍼져 있는 정도를 측정하는 값은 아닙니다. 사분위 범위(IQR)세 번째 사분위 수(third quartile)와 첫 번째 사분위수(first quartile)의 차이를 말합니다. 사분위수는 순서가 지정된 숫자 데이터를 4 등분하는 값입니다. 아래와 같은 Data Set을 가정해 보겠습니다.


Data Set: [4 2 6 8 3 9 5 11]


이 데이터를 순서대로 정렬하면 [2 3 4 5 6 8 9 11]입니다. 우리는 여기서 데이터를 네 부분으로 나눌 수 있는 세 개의 사분위수를 식별해야 합니다. 세 개의 사분위수를 식별하려면 각 부분에 동일한 수의 데이터 포이트가 있도록 하면 됩니다. 즉, 아래와 같습니다.


image.png


위와 같이 각 식별된 부분에 두 개의 데이터가 있습니다. 하위 사분위수는 첫 번째 사분위수(Q1)으로 부르고, 상위 사분위수는 세 번째 사분위수(Q3)라고 부릅니다. 이와 같이 상위 및 하위 사분위수 값을 계산하는 방법에는 여러가지가 있는데, 가장 간단한 방법은 중앙값을 기반으로 계산하는 것입니다.먼저 두 번째 사분위수(Q2)의 값을 결정하는 것에서 시작합니다. 이는 데이터의 중앙값과 같습니다. 현재 위 Data Set는 8개의 짝수 값이 있기 때문에 중앙값은 가운데 두 값인 5와 6의 평균입니다. 즉, Q2=5.5가 됩니다.


Q1의 값은 데이터의 하위 범위(2, 3, 4, 5)에서 절반의 중앙값입니다. 여기서는 3과 4의 평균이 되기 때문에 Q1=3.5와 같습니다. Q3의 값은 데이터의 상위 범위(6, 8, 9, 11)에서 절반의 중앙값으로 8과 9의 평균이 되기 때문에 Q3=8.5와 같습니다. 이제 사분위 범위(IQR)을 계산해 보겠습니다.


image.png


IQR은 첫 번째 사분위수와 세 번째 사분위수 간의 거리입니다. 이는 Q3에서 Q1을 뺀 값을 의미합니다. 결과적으로 5의 값을 얻게 됩니다. 따라서 이 Data Set의 IQR은 5입니다. IQR은 순서가 지정되어 있는 데이터의 중간 50%에 대한 범위로서 [3.5 8.5]로 정의할 수 있습니다. IQR은 Q3에서 Q1까지의 간격으로 제시되는 것이 일반적입니다. 이러한 간격을 고려할 때, 데이터 포인트의 약 50%가 Q1과 Q3 사이에 위치한다는 것으로 해석할 수 있습니다.


5. 상자 수염 그림(Box and whisker plot)


Q1과 Q3, 그리고 IQR의 개념까지 파악하고 나면 상자 수염 그림(Box and whisker plot)에 대해 살펴볼 필요가 있습니다. 상자 수염 그림은 아래와 같습니다.


image.png


상자 수염 그림은 중앙값(Median), 사분위 범위(IQR) 및 범위(Range)를 시각화한 것입니다. 방금까지 예로 든 8개 데이터에 대하여 상자 수염 그림으로 만든 것입니다. 상자 수염 그림은 일반적으로 상자(Box)와 수염(Whiskers)으로 표현됩니다. 가장 낮은 지점에 있는 것은 Data Set의 최솟값(2)을 나타내고, 가장 높은 지점에 있는 것은 Data Set의 최댓값(11)을 나타냅니다. 따라서 이 두 값의 거리가 범위(Range)가 됩니다.


한편, 상자의 가장 낮은 부분은 가장 낮은 사분위수인 Q1(3.5)을 나타내고, 상자의 가장 윗 부분은 Q3(8.5)를 나타냅니다. 즉, 상자의 길이는 사분위 범위(IQR)가 되는 것입니다. 상자는 대략 데이터의 중간 50%의 데이터 포인트를 포함하는 범위로 해석할 수 있습니다. 상자 내부의 수평선은 중앙값을 나타내며, 이는 두 번째 사분위수(Q2=5.5)에 해당합니다.


상자 수염 그림은 데이터의 백분위수(Percentiles)와도 관련이 있습니다. 백분위수는 데이터를 100개의 동일한 부분으로 나누는 것입니다. 하지만 Data Set가 하나의 동일한 부분으로 나눌 수 있을 만큼 크지 않더라도, 백분위수는 분위수를 백분율로 표현하는 데 사용될 수 있습니다.


백분위수에서 25번째 백분위수(25th percentile) 또는 0.25 분위수(0.25 quartile)는 첫 번째 사분위수 Q1과 같습니다. 왜냐하면 Q1은 전체 데이터의 25%가 아래에 있는 값에 해당하기 때문입니다.이와 동일한 맥락에서 75번째 백분위수(75th percentile) 또는 0.75 분위수(0.75 quartile)는 세 번째 사분위수 Q3로 8.5이며 전체 데이터의 75%가 이 값의 아래에 있음을 나타냅니다.







월, 화, 수, 목, 금, 토, 일 연재