분산과 표준 편자
http://www.yes24.com/Product/Goods/91614222
수(Number)는 두 가지 특성을 가진다. 방향성과 거리다.
방향성은 음수와 양수를 의미한다. 그리고 거리는 기준점으로부터 떨어진 간격을 나타낸다.
-3은 기준에서 음의 방향으로 3만큼 떨어진 것이고 +3은 양의 방향으로 3만큼 떨어진 것이다.
평균을 기준으로 평균을 구하기 위해 활용된 각각의 값, 즉 대상 값과의 방향성과 거리를 계산해 본다.
대상이 된 값에서 평균을 빼서 확인할 수 있다.
GROUP A – 100, 90, 80, 90, 70
GROUP A의 평균은 86이므로 각 대상 값에서 평균을 빼면 다음과 같은 결과가 나오게 된다.
GROUP A – -14, -4, +6, -4, +16
이렇게 하여 각각의 대상 값들이 평균을 중심으로 음과 양의 방향으로 거리가 얼마나 떨어져 있는지 확인이 가능해진다. 이를 우리는 편차라 부른다.
그리고 편차를 모두 더하면 당연히 0이 된다. 따라서 편차의 평균도 결국 0이다.
뭔가 근사하게 방향이니 거리니 하는 용어까지 써가며 편차라는 그럴싸한 값을 뽑았는데, 편차의 합도, 평균도 결국 0이라니 허무하다.
구해진 편차가 모두 0이 아닌 이상 문제는 방향성 때문이다. 음과 양으로 구성이 되니 그 합이 0이 되는 것이다. 방향성을 무시해야겠다. 사실 생각해 보니 평균 입장에서 보면 방향성은 크게 상관이 없다.
음의 방향으로 가든 양의 방향으로 가든 평균을 기준으로 편차만큼 떨어져 있을 뿐이다.
수(Number)가 가지는 두 가지 특성에서 방향성을 제거하는 방법은 두 가지 경우가 있다.
첫 번째는 그냥 단순하게 방향성은 무시해 버리는 것이다. 거리만 인정하자는 것이다.
앞서 본 GROUP A의 편차 값들을 방향성을 무시하면 다음과 같다.
GROUP A – 14, 4, 6, 4, 16
결과를 보면 알겠지만 음인지 양인지는 모르겠고 거리만 존재한다.
이를 절댓값이라 부른다. 절댓값은 수의 방향성 없이 거리만 표현하는 것이다.
두 번째 방법은 음수에 음수를 곱하면 양수가 되는 기초적인 이론을 활용한 것이다.
각각의 편차 값에 제곱을 해주면 된다. 편차 값을 두 배로 뻥튀기하는 것이다.
GROUP A – 196, 16, 36, 16, 256
기존 편차 값의 총 합과 평균은 0이었지만 두 배로 뻥튀기된 제곱의 총합(520)은 0이 되지 않는다.
이처럼 뻥튀기된 편차의 평균(104)이 바로 분산이 되는 것이다.
그러나 분산은 기존의 값을 두 배로 부풀린 값이므로 이를 다시 축소하는 과정이 필요한데 가장 간단한 방법이 제곱근(√)을 취하는 방법이다.
이것을 다시 표준편차(10.2)라 부르는 것이다.
데이터 분석은 데이터를 통해 가치를 발견해 내는 과정이다.
이때 평균은 아주 기본적이며 기초적인 데이터 분석 방법의 하나이며 수치로 표현된 대단히 중요한 가치다.
이러한 평균을 이야기할 때는 반드시 분산과 표준편차를 짝으로 생각하고 설명해야 한다.
적어도 데이터 쟁이라면 꼭 그래야 한다.
표준편차의 값이 모두 0이 되면 평균을 구할 필요도 없어진다.
그래서 모든 데이터 분석에 있어 평균을 올리거나 내리는 노력보다 표준편차를 줄이는 작업이 훨씬 중요하다.
평균을 중심으로 편차, 절댓값, 분산 그리고 표준편차로 이어지는 관계와 이론적인 배경을 충분히 학습하고 내 것으로 만들어야 한다.
다시 한번 강조하지만 평균은 데이터 분석의 시작이다. 매우 중요하다.
평균 없는 분석은 없다고 해도 과언이 아니다.