분산과 표준편차
자료가 퍼져있는 경향성을 알아야 하는 이유
실무를 하거나 인터넷에서 여러 자료를 구하여 살펴보면 다양한 형태의 자료들이 있는 것을 볼 수 있다. 특정 값이 너무 많이 나온거나, 어떤 값은 아예 누락이 되어 있다거나 하는 경우이다. 집중화 경향에서 살펴본 것 처럼, 이러한 자료들은 실제 자료의 분포는 다르더라도 평균, 중앙값, 최빈값으로 요약하였을 때 같은 숫자가 나올 수 있다. 이러한 문제를 해결하기 위해 자료의 분포된 정도를 요약할 수 있는 숫자가 필요하며, 이러한 역할을 분산과 표준편차가 수행한다.
위 자료를 보면 분포1은 1, 2, 3, 4, 5가 모두 포함되어 있고, 3에 조금 더 자료가 많이 있지만, 분포2를 보면 2, 4는 자료가 아예 존재하지 않고 3에 자료가 좀 더 집중되어 있다. 자료가 분포한 형태는 다르지만 분포1과 분포2는 평균, 중앙값, 최빈값이 모두 3으로 같다.
분산과 표준편차
분산도를 나타낼 떄 가장 많이 쓰이는 것이 분산과 표준편차이다. 자료 전체의 평균을 각 값에서 빼준 편차를 기준으로 각 값들이 흩어져 있는 정도를 측정하는 것이 분산이고, 그것의 제곱근을 구한 것이 표준편차이다. 이전 포스팅에서 자료의 특성을 요약하는 숫자로 평균, 중앙값, 최빈값을 이야기 하였는데, 각 값들이 흩어져 있는 정도를 산술평균이라는 요약된 값을 활용하여 표현하고자 한 것이 분산과 표준편차이다. 편차에 대해서 제곱을 취하는 것은, 편차를 제곱하지 않고 그대로 모두 합할 경우 그 합이 0이 되기 때문이다.
그렇다면 분산을 그대로 사용하지 않고 왜 표준편차라는 제곱근 값을 사용할까? 이는 측정 단위의 문제 때문이다. 만약 한 지역 인구 몸무게의 분산도를 구한다고 하면, 분산을 활용하여 분산도를 표현할 때 분산의 단위는 kg^2가 될 것이다. 따라서 분산의 제곱근을 취하여 분산도를 표현하는 것이 합리적이라고 판단할 수 있으며, 몸무게의 예제에서 분산에 제곱근을 취하면 단위가 kg이 될 것이다.
모집단과 표본
마지막으로 모집단과 표본에 대해 간단하게 개념적으로만 짚고 넘어가보자. 일반적으로 모집단이라고 하면, 대한민국 전체의 인구, 대한민국 전체 인구의 전체 신장 등을 이야기 한다. 우리는 또한 일반적으로 전체 인구, 전체 인구의 신장을 정확하게 측정할 수 있을 것이라고 생각한다. 그런데 과연 그럴까?
인구 센서스를 생각해보면, 우리는 인구 센서스의 결과가 정확하다고 생각한다. 모든 세대를 정부 주도로 일괄적으로 측정하여 기록하기 때문이다. 그런데 인구 센서스에는 산속에 들어가서 살고 있느 자연인이나, 센서스가 끝나고 난 직후 태어난 아기, 사망한 노인, 그 사이에 이민 절차가 끝난 사람 등은 측정되지 않는다. 다시 말하면 시간과 공간적인 갭(gap)을 정확하게 반영하지는 못하는 것이다.
또한 어떤 통계적 추정을 할 때 전체 모집단을 대상으로 추정을 하기가 쉽지 않다. 이 또한 시공간적 비용이 크게 소요되기 때문이다. 그래서 사실상 우리가 하고 있는 거의 모든 통계적 추정은 표본에 대한 것이라고 할 수 있다. 그리고 표본에 대해서 분산도를 구할 때에는 이렇게 sampling된 데이터에 대한 보정작업이 필요해진다. 이를 위해 앞서 이야기 한 표본에 대한 분산의 분모에 n-1을 대입한다. 이러한 작업은 "자유도"를 고려하여 데이터에 대해 smoothing하였다고도 이해할 수 있을 것이다.