데이터의 산포(2)

표준편차와 분산

by Yimhyehwa



1. Learning Focus


데이터의 산포(1) 편에서는 데이터의 양 끝값의 거리를 나타내는 범위(Range)와 사분위 범위(IQR) 등을 통해 Data Set에 대한 전체적인 '구역'을 나누는 법을 배웠습니다. 하지만 범위와 IQR과 같은 개념만으로는 데이터 하나하나가 평균에서 얼마나 떨어져 있는지 그 세밀한 움직임을 설명하기에는 조금 부족할 것입니다. 이번 시간에는 데이터의 산포(2) 편으로 데이터가 흩어져 있는 정도를 '평균'이라는 매개의 기준점을 중심으로 수치화하는 가장 유용한 도구, 표준편차와 분산에 대해 살펴보겠습니다.


2. 표준편차(Standard deviation)


모집단과 표본에 관한 내용에서 표본의 표준편차를 'SD'(Standard deviation) 또는 's'라고 나타내고, 표본의 분산은 s의 제곱으로 표시된다고 밝혔습니다. 반면, 모집단의 분산은 시그마(σ)의 제곱으로 표시합니다. 표본의 표준편차 다음의 공식으로 계산합니다.


image.png


여기서 [변수 x와 아래첨자 i]로 표시된 값은 관측된 하나하나의 값, [x-bar]로 표시된 값은 표본의 평균, n은 우리가 가지고 있는 데이터 포인트의 수입니다. 여기서 분모를 n이 아닌 n-1로 나누는 이유는 표본의 분산 값이 모집단의 분산을 추정하는 데 있어 편향을 제거하기 위한 것입니다. 분모를 n이 아닌 n-1로 나누어 표본의 분산이 불편추정량(Unbiased estimator)을 만들려는 통계학의 접근 방법은 다음 시간에 알아보겠습니다. 마지막으로 [분자의 합산 표기법(∑)]은 개별 관측된 값과 평균 간의 차이를 제곱한 후 이를 모두 더한다는 뜻입니다. 종합적으로 표본의 표준편차를 계산하는 공식은 해당 관측값과 평균 간의 차이를 더해서 제곱을 한 후 표본의 크기에서 1을 뺀 값으로 나눈다는 것입니다.


표본의 표준편차를 구체적으로 계산하기 위해 성인의 몸무게(Weight)에 관한 9개의 Data Set을 활용해 보겠습니다. 이 9개의 데이터는 [48 52 55 58 60 62 65 67 68]입니다. 표준편차를 계산할 때는 가장 먼저 평균이라는 매개변수를 활용해야 합니다. 왜냐하면 표준편차는 평균이라는 기준점으로부터 데이터가 얼마나 퍼져 있는지 그 정도를 수치적으로 나타내는 개념이기 때문입니다. 준비한 Data Set의 평균을 계산하면 59.4kg입니다.


image.png


표본의 평균을 계산했으니 이제 앞서 확인했던 공식에 따라 개별 관측된 값과 평균과의 차이(편차)를 계산한 다음 그 값들을 제곱하여 더해보겠습니다. 아래는 편차, 편차의 제곱 및 그 합계를 정리한 표입니다.


image.png


표의 내용과 같이 개별 관측 값과 평균 간의 차이를 제곱하여 모두 더한 값은 376.2가 됩니다. 참고로 개별 관측 값과 평균과의 단순 차이를 더한 값은 0.0이 됩니다. 개별 관측 값과 평균 간의 차이인 편차를 '제곱'하게 될 경우 본래 편차의 부호와 관계없이 양수로 처리됩니다. 반면, 개별 관측 값과 평균 간의 차이인 편차를 제곱하지 않고 더할 경우에는 평균을 기준으로 왼쪽으로(혹은 낮게) 퍼져 있거나 오른쪽으로(혹은 높게) 퍼져 있기 때문에 본래 부호가 그대로 살아 있습니다. 그래서 편차를 단순 합계할 경우에는 결과적으로 0이 됩니다.


표본의 평균과 편차 제곱의 합계를 알게 되었으니 표준편차를 계산해 보겠습니다. 앞서 제시한 공식을 그대로 활용하여 분자에는 376.2, 분모에는 8(=9-1)을 대입하면 √47=6.8이 나옵니다.



결국 표본의 표준편차는 평균(Mean)을 기준으로 한 해당 관측 값 간의 거리입니다. 즉 [Mean±SD]로 간명하게 정리할 수 있습니다. 이 예에서 평균은 59.4kg이고, SD는 6.8입니다. 따라서 Data Set의 간격을 표시할 때는 [59.4±6.8]입니다. 59.4에서 6.8을 더하면 66.3, 59.4에서 6.8을 빼면 52.5입니다. 그렇기 때문에 이 Data Set의 범위에 대해 평균을 기준으로 1 표준편차 단위로 나타낸다고 한다면, [52.5 66.3]입니다.


만약 평균을 기준으로 2 표준편차 단위로 나타낸다고 한다면, [59.4±13.6]입니다. 59.4에서 13.6을 더하면 73.0, 59.4에서 13.6을 빼면 45.8입니다. 따라서 이 Data Set의 범위에 대해 평균을 기준으로 2 표준편차 단위로 나타낸다고 하면, [45.8 73.0]입니다.



위 그림은 우리가 예로 든 9개의 성인 몸무게 데이터의 분포(산포), 평균, 그리고 ±1 표준편차를 반영한 오차 막대(error bar)를 종합하여 시각화한 것입니다. 평균±1 표준편차의 범위는 [52.5 66.3]입니다. 이 범위에 속하는 데이터는 [55, 58, 60, 62, 65]로 5개입니다. 즉, 평균±1 표준편차 범위 내에서는 실제 데이터의 56%를 포함하고 있습니다. 참고로 통계학의 수많은 경험적 법칙으로서 데이터가 정규 분포를 따르게 될 경우 동일한 평균±1 표준편차 범위에서는 데이터의 약 68%를 설명할 수 있습니다.


3. 표준편차와 분산(Variance)


image.png


표본의 표준편차와 분산을 계산하는 공식을 비교해 보겠습니다. 앞서 확인한 것과 같이 표본의 표준편차는 SD 또는 s로 표현하고, s의 제곱이 분산입니다. 각 공식의 분모에서 -1을 무시할 경우 분산은 개별 관측 값과 평균 간 차이의 제곱에 대한 평균으로 볼 수 있습니다. 이와 유사하게 표준편차는 개별 관측 값과 평균 간 차이에 대한 평균의 제곱근으로 볼 수 있습니다. 표준편차와 비교할 때, 분산의 추정치는 제곱을 한 후 원래 단위(Scale)로 돌아오지 않기 때문에 단순한 해석이 어렵습니다. 그래서 분산은 이론 통계학(Theoretical statistics)에서 주로 사용되는 개념이며, 데이터의 산포를 나타내는 척도로 잘 사용되지 않습니다.


4. 비교 논의: [Mean±SD] vs Median [Q1 Q3]


데이터의 산포를 설명하는 데 있어 표준편차와 사분위 범위(IQR) 중 어떠한 측정 방법을 활용해야 할까요? 이는 매개변수(기준점)인 평균과 중앙값 중 어떠한 개념을 활용할 지에 따라 달라집니다. 일반적으로 평균은 표준편차와 함께 사용하고, 중앙값은 사분위 범위를 사용합니다. 만약 데이터가 정규 분포를 따른다고 가정하면, 평균에서 1 표준편차만큼 떨어진 곳의 범위는 전체 데이터의 약 68%를 포함합니다. 반면, IQR 사이의 간격은 전체 데이터의 중간 50% 범위를 포함합니다.


image.png







월, 화, 수, 목, 금, 토, 일 연재