brunch

왜 표준편차를 구할 때 제곱을 사용하는가

by gimmesilver

표준편차는 데이터가 평균에서 얼마나 흩어져 있는지를 정량적으로 구한 값입니다. 표준편차를 계산하기 위해 각 데이터와 평균 사이의 거리를 구할 때 평균보다 작은 경우 음수값이 발생하지 않도록 평균과의 차이값에 제곱을 취합니다.

표준편차공식.png

그런데 사실 음수를 양수로 바꿔주기 위해선 제곱이 아니라 절대값을 사용해도 충분합니다. 절대값을 사용하면 굳이 마지막에 제곱근을 하지 않아도 되기 때문에 계산도 더 간단해 집니다.


그럼 왜 절대값이 아닌 제곱을 하는 (그러고 나서 다시 제곱근을 취하는) 번거로운 방식을 사용할까요?


흔히 인터넷에서 접하는 많은 자료에서는 제곱을 하는 이유를 아래와 같이 설명하고 있습니다.

제곱을 하면 평균에서 더 멀리 떨어질수록 가중치가 부여되기 때문에 편차의 크기를 더 명확히 측정할 수 있다. 예를 들어 (-3, -3, +3, +3) 와 (-1, -5, +1, +5) 는 절대값을 사용해서 편차를 구하면 둘 다 3 이 되지만 표준편차 공식을 적용하면 앞에 건 3.46 이고 뒤에 건 4.16 이 되어 뒤에 데이터가 더 큰 값이 된다. 즉, (-1, -5, +1, +5)가 (-3, -3, +3, +3) 보다 더 넓게 흩어져 있다고 측정할 수 있는 것이다.


하지만 이 설명은 다소 근거가 부족합니다. 데이터가 흩어진 정도를 측정할 때 반드시 멀리 떨어진 값에 더 큰 가중치를 줘야 하는 것은 아닙니다. 가중치를 줄지 여부는 측정 목적에 따라 정하기 나름인 선택 사항이지 수학적으로 꼭 그래야 하는 것은 아닙니다.


표준편차에서 절대값이 아니라 제곱을 사용하는 진짜 이유는 표준편차 공식이 갖고 있는 수학적 성질과 관련이 있습니다. 표준편차 공식을 자세히 들여다 보면, 각 데이터를 '어떤 기준이 되는 값'으로 뺀 값의 제곱값들의 평균을 구한 뒤, 그 값에 제곱근을 취한 것입니다.

여기서 우린 그 '어떤 기준이 되는 값'이 평균이라는 것을 이미 알고 있지만 만약 모른다고 가정했을 때 이 표준편차 결과가 가장 최소가 되는 어떤 값을 알고 싶다고 가정해 보죠. 다시 말해 표준편차 공식에서 평균 대신 다양한 값들을 대입해서 표준편차를 계산해 봤을 때 이 결과가 가장 최소가 되는 값을 구해보는 것입니다. 실제로 이걸 구해보면 최소가 되는 기준값은 데이터의 '평균'이 됩니다.

즉, 우리는 보통 '표준편차는 데이터들이 평균으로부터 얼마나 흩어져 있는지를 측정한 값이다.' 라고만 배우지만 반대로 말하면 '평균은 편차를 제곱하는 방식으로 데이터들의 거리를 계산할 때 전체합이 최소가 되는 기준값이다.' 라고도 말할 수 있는 것입니다.

그럼 절대값을 사용해서 표준편차를 구할 경우 어떤 문제가 있을까요? 절대값을 이용해 평균과의 편차를 구하게 되면 계산된 결과는 거리의 총합이 최소가 되는 값이 아닙니다. 즉, 편향된 결과가 나오게 됩니다. 흩어진 정도를 공정하게 측정하려면 거리합이 최소인 지점을 기준으로 삼아야 합니다.

표준편차와평균.png

절대값을 이용해서 거리를 구한 총합이 최소가 되게 하는 '기준점'은 평균이 아니라 '중앙값'입니다. 결국 절대값 공식을 이용해서 데이터의 흩어진 정도를 구하고 싶다면 각 데이터에서 평균 대신 중앙값을 빼줘야 합니다. 그리고 이렇게 편차를 구하는 방법을 '절대편차 (absolute deviation)' 이라고 부릅니다.

정리하자면, 표준편차나 절대편차에서 기준점과 데이터 사이의 차이를 구할 때 제곱을 할지 절대값을 취할지는 기준점으로 무엇을 사용할지에 따라 결정됩니다.


이 개념은 더 나아가 선형회귀에서 사용하는 최소제곱법과도 관련이 깊습니다. 최소제곱법은 y와 y_hat 의 차이에 제곱을 한 값들의 합이 최소가 되도록 y_hat을 만들어 주는 회귀식을 찾는 방법입니다. 표준편차를 최소로 하는 기준값이 평균이었다는 점을 생각해 보면, 이 최소제곱법을 통해 구한 회귀식은 '조건부 평균'이라는 점을 유추할 수 있습니다.

또한 만약 y와 y_hat 의 차이에 절대값을 취한 값들의 합이 최소가 되도록 y_hat을 만들어 주는 회귀식을 찾게 된다면 그건 '조건부 중앙값'이 되는 것이고, 이것을 '최소 절대 편차(Least Absolute Deviation)' 혹은 'robust regression' 이라고 부릅니다.


마지막으로 이 개념은 샘플 표준 편차를 구할 때 분모에 n 대신 n-1을 사용하는 것과도 관련이 있습니다. 원래 표준편차는 모집단 평균을 기준으로 흩어진 정도를 측정해야 합니다. 하지만 샘플 데이터만 갖고 있는 상태에서는 샘플 평균만 알고 있지 모집단 평균은 모릅니다. 위에 언급한대로 주어진 샘플들만 이용해서 구한 샘플 평균은 해당 샘플에 대해서 전체 편차합을 최소로 만드는 값이기 때문에 이 샘플 평균을 기준점으로 사용해서 표준편차를 구하면 그 값은 언제나 실제 모집단 평균을 이용해서 구한 표준편차보다 조금 작은 값이 됩니다.

따라서 이렇게 실제 모집단 평균을 이용해서 계산한 표준편차보다 항상 작은 값이 계산될 수 밖에 없는 편향 문제를 완화하기 위해 분모도 n보다 작은 n-1을 사용하여 이 편향을 줄여주는 것입니다.

keyword
매거진의 이전글Bike sharing demand #2