brunch

You can make anything
by writing

C.S.Lewis

by 조영필 Zho YP Jul 25. 2016

편차, 오차 그리고 잔차

조영필

[편차(Deviation), 오차(Error) 및 잔차(residual)]

편차: 관측치가 평균으로부터의 떨어져 있는 정도, 즉 평균과의 차이

오차: 예측하기 위하여 추정된 값과 실제값의 차이, 즉 예측값이 정확하지 못한 정도

잔차: 평균이 아니라 회귀식 등으로 추정된 값과의 차이, 즉 추정된 값이 설명할 수 없어서 아직도 남아있는 편차, 잔차는 편차의 일부분
(출처 : 이훈영, [마케팅조사론], p.397.)



1. 표본으로 모집단의 모수(특히 평균)를 추정할 때, 표본의 수 n 만큼 정확도는 올라간다. 올라가는 이유는 정규분포의 가법성에 의해 표본의 표준편차가  1 / √n  만큼 작아지기 때문이다. 그런데  √n 으로 나눠져서 작아지는 표준편차는 사실은 표본의 '표준편차'가 아니고 모집단의 평균을 추정하는 표본평균의 '표준오차'이다.

2. 그리고 이처럼 표본의 수가 증가함에 따라 통계량의 '표본오차'가 작아져서 모수(평균값)의 추정 정확도가 올라가고 또 통계량의 분포가 정규분포화 되는 것이 바로 '중심극한정리'이다.

3. 분산분석에서 군간분산(Between)을 군내분산(Within)으로 나눌 때

      F = Average (SSB) / Average (SSW)

요인에 의한 효과를 확인하는 군간분산은 인자의 자유도 ( = 집단의 수 g - 1 ) 로 나누지만, 군내분산은 오차에 의한 효과를 의미하기 때문에 오차의 자유도 ( = 전체 관측치의 수 n - 집단의 수 g) 로 나눈다.

즉 군내분산인 MSW 를 제곱근하여 √MSW 하면 이것은 '표준오차'라고 할 수 있다.

4. 회귀분석에서 총제곱합은 회귀선으로 설명되는 제곱합과 회귀선으로 설명되지 않는 제곱합으로 구성된다.

     SST = SSR + SSE

그리고 검정 통계량은 다음과 같다.

     F = Average (SSR) / Average (SSE)

여기서 평균잔차제곱합 Average (SSE) = MSE 는 분명 잔차로 구성된 것임에도 √MSE 를 '표준오차'라고 하니 잔차와 오차는 개념이 혼용되고 있다.

5. 웹검색을 참조하면 오차는 모집단의 분석에서 쓰고, 잔차는 표본의 분석시 사용되는 개념이라고 한다.


웹상의 정보는 수긍하기 힘든 면이 있다.


왜냐하면, (표본)오차란 표본추출을 전제로 하여 파생되는 개념이기 때문이다. 표본집단이 모집단의 특성을 충분히 대표하지 못해서 발생하는 것이 표본오류이다. 이것은 모집단에서 표본으로 추출되지 못한 데이터의 손실에 의한 자연스러운 결과이다. 그리고 이 과정에서 발생하는 오차를 표본오차라고 한다.


그에 반해 잔차는 분석으로 단순화한 모형으로 설명되지 못한 오차이다. 그렇다면 잔차는 오히려 표본집단을 전제하지 않아도 되는 개념이다.


오차와 잔차는 여기서는 미완의 숙제로 남겨둔다. (2016. 7. 25.)



윗글을 쓴 지 근 7년이 다 되어가는 지금, 미완의 숙제를 해결하기 위해 가깝게 지내는 어떤 교수님께 문의했더니, 그 분이 챗GPT에게 질문하여 답변을 얻은 것이 아래 내용입니다.



1. 표준편차(Standard deviation, SD)는 데이터의 평균으로부터 얼마나 떨어져 있는지, 즉 분산 정도를 측정하는 지표입니다. 샘플 내 각각의 데이터 포인트가 평균에서 얼마나 벗어나 있는지를 나타내며, 표준편차가 작을수록 데이터 포인트들이 평균 주변에 모여 있고, 표준편차가 클수록 데이터 포인트들이 흩어져 있는 것을 의미합니다.


표준오차(Standard error, SE)는 샘플 평균 추정치의 정밀도를 나타내는 지표입니다. 샘플의 크기와 표준편차를 고려하여, 샘플 평균이 실제 모집단 평균에서 얼마나 벗어나게 될 가능성이 있는지를 나타냅니다. 표준오차가 작을수록 샘플 평균이 실제 모집단 평균에 가깝게 추정될 가능성이 높고, 표준오차가 클수록 샘플 평균이 실제 모집단 평균으로부터 멀리 떨어질 가능성이 높습니다.


간단히 말해서, 표준편차는 샘플 내 각각의 데이터 포인트의 가변성을 측정하는 것이고, 표준오차는 샘플 평균 추정치의 실제 모집단 평균으로부터의 정밀도를 나타내는 것입니다. 표준오차는 샘플 크기와 샘플 평균의 분산을 고려하기 때문에, 보통 표준편차보다 작은 값을 가지게 됩니다.



2. 회귀분석에서 잔차(Residuals)는 독립변수를 통해 예측한 종속변수의 값과 실제 관측값과의 차이를 의미합니다. 잔차는 관측된 데이터 점과 회귀선 상에서 예측된 값 간의 수직 거리로 정의되며, 아래와 같이 계산됩니다.


잔차 = 관측된 값 - 예측된 값


잔차는 회귀모델이 데이터에 적합한지를 평가하는 데 중요합니다. 이상적으로, 잔차는 작고 0을 중심으로 무작위로 분포해야 합니다. 만약 잔차가 크거나 패턴을 갖고 있다면, 회귀모델이 데이터에 부적합할 가능성이 있습니다.


잔차의 표준오차(Standard error of the residuals)는 회귀모델이 예측한 값의 정확성을 나타내는 지표입니다. 이 값은 잔차의 표준편차를 표본 크기의 제곱근으로 나눈 것으로 계산됩니다. 잔차의 표준오차는 표본 크기와 잔차의 분산에 기반하여, 예측한 값이 실제 값으로부터 얼마나 벗어날 가능성이 있는지를 나타냅니다.


요약하면, 잔차는 회귀분석을 통해 도출한 예측 값과 실제 관측 값 사이의 차이를 의미하며, 잔차의 표준오차는 회귀모델이 예측한 값의 정확성을 나타내는 지표입니다.



3. 회귀분석에서 "errors"와 "residuals"라는 용어는 때때로 상호교환적으로 사용되지만, 실제로는 서로 다른 의미를 갖고 있습니다.


Error term은 회귀식에 기반하여 종속변수의 예측값과 실제값 간의 차이를 의미합니다. Error term은 독립변수로 설명되지 않는 종속변수의 부분을 대표하는 이론적인 개념입니다. 이것은 평균이 0이고 일정한 분산을 가진 무작위 변수로 가정되며, 일반적으로 직접 관측되거나 측정되지 않습니다.


반면에 residual은 종속변수의 관측값과 회귀식에 기반하여 예측된 종속변수 값 간의 차이를 의미합니다. residual은 특정 데이터 포인트에 대해 회귀식이 수행한 예측의 오류를 나타내는 측정치입니다. Error term과는 달리, residual은 관측된 데이터로부터 직접 계산되는 값입니다.


요약하자면, Error term은 종속변수의 설명되지 않는 부분을 대표하는 이론적 개념이고, residual은 특정 데이터 포인트에 대한 회귀식 예측의 오류를 나타내는 측정치입니다. Error term은 직접적으로 관측되지 않지만, residual은 관측 데이터로부터 직접 계산됩니다. 이러한 용어의 차이점은 회귀모델의 가정과 결과의 해석에 대해 다른 함의를 갖기 때문에 구별하는 것이 중요합니다.

(2023. 3. 5.)


Note:

챗GPT의 답변는 예전에 제가 기술한 것과 같은 맥락으로 보입니다. 그러나 챗GPT의 설명 역시 무언가 조금 아쉽게 느껴집니다. (2023. 3. 8.)


챗GPT의 설명을 보아도 오차와 잔차의 구분은 잘 이해되지 않는다. 챗선생은 오차는 예측값과 실제값의 차이이고, 잔차는 예측값과 관측값의 차이라고 설명한다. 그렇다면 관측되지 않은 ideal한 실제값이 있다는 것일까? 오차란 개념적인 개념 속의 개념일까? 이제부터는 이 질문에서부터 생각하면 되니 챗선생에게 감사를 표해야 할까? 아니면 챗선생은 이미 답을 알려주었는데 내가 우둔하여 여전히 답을 찾아 헤매고 있는지 누가 알려주면 좋으련만~. (2023. 3. 21.)

매거진의 이전글 대변과 차변에 대하여
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari