조영필
[회귀분석]
보통 실무에서 회귀분석할 때는 먼저 산점도를 그립니다. 그 다음 상관분석을 하고, 그러고나서 본격적으로 회귀분석을 하게 되는 것입니다. 그러므로 상관분석과 회귀분석은 한 세트입니다. 그리고 이론적으로는 분산분석은 회귀분석의 특수한 형태라고 합니다.
회귀분석에서는 최소제곱법으로 회귀선을 구하게 되는 데, 최소제곱법은 가우스가 1795년에 세레스 왜행성의 궤도를 구하기 위해 처음으로 고안했다고 합니다. (공식 기록으로는 1805년 프랑스의 르장드르가 학계 최초 발표)
-----------------------------------
회귀분석의 전제조건은 정규분포, 등분산, 독립성 이며 다중회귀분석에서는 다중공선성이 존재하지 않아야 한다.
회귀분석에서 주의해야 될 것이 있는 데 그것은 유의성 검증이다.
유의성 검정 중 회귀모형에 대한 검정을 하는 데 그 통계량은 다음과 같다.
F = MSR / MSE
분모와 분자가 둘 다 분산이므로 F 분포로 분산검정을 하는 것이다. 이것이 왜 중요한가 하면, 상관관계가 낮을 때도 회귀식과 회귀선은 도출되기 때문이다. 회귀식이 나오면 회귀식이 성립되는 줄 아는 데 그것은 오산이다.
상관관계가 낮은 회귀식의 경우에는 집합 내 좌표 중 몇 개의 좌표만 누락되거나 바뀌더라도 회귀식은 (+)관계에서 (-)관계로 요동칠 수도 있다. 그러므로 회귀분석 모형의 유의성 검정에서 유의하지 않으면, 회귀분석은 더 이상 무의미하게 된다.
--------------------------------
회귀분석에서 유의성 검정이 또 있는 데 그것은 회귀계수 β 와 절편(상수) α 에 대한 검정이다.
이 때 β = Σ (x-χ)•(y-γ) / Σ (x-χ)^2 이다.
(χ 는 x bar. γ 는 y bar)
위 식은 분자는 정규분포이고, 분모는 X^2 분포이다. 이러한 성격의 분포는 t 분포이다. 따라서 회귀계수의 유의성 검정은 t 검정으로 하는 것이다.
그리고. α = γ - β•χ 이므로
(χ 는 x bar. γ 는 y bar)
결국 β와 같은 성격의 분포로 t 분포이다. 따라서 회귀상수 α 도 t 검정을 한다.
회귀상수 α 는 유의하지 않은 경우도 많은 데, 실무에서는 다른 검정과 설명력이 좋다면 크게 문제 삼지 않는 편이다.
-------------------------------------
최소제곱법으로 회귀식을 구하고 상기 두 종류의 유의성 검증을 한 후 결정계수 R^2 를 구한다.
R^2 = SSR / (SSR + SSE = SST)
설명가능한 편차제곱합이 전체 편차제곱합에서 그 비중이 얼마인가를 알아보는 것이므로 개념적으로는 가장 쉽다. 그리고 모형의 적합도 또는 설명력이라고 한다. 이 결정계수가 높다면 위의 유의성 검정에서도 당연히 유의하게 된다.
단순회귀분석의 결정계수 R^2는 (피어슨) 상관계수 ρ 를 제곱한 값과 일치한다.
---------------------------
다중회귀분석에서 다중공선성은 독립변수들 간의 상관관계가 높을 때 발생한다.
다중공선성은 독립변수 간 (단순)회귀분석을 하여 상관성을 보면 되는데 그것이 (1 - R^2) 이다. R^2 가 크면 상관성이 높은데 (1 - R^2) 은 작아진다. 반대로 (1 - R^2) 이 1 에 가까우면 상관성이 작은 것이다. 이를 공차한계라고 한다.
공차한계 (tolerance) = (1 - R^2)
분산확대지수 (VIF) = 1 / (1 - R^2)
공차한계도 1 에 가깝고 VIF 도 1 에 가까우면 다중공선성이 낮아서 회귀식의 설명력이 높아진다.
-----------------------------------
다중회귀분석에서 회귀식의 유의성이 없을 때 또는 설명력 R^2 를 높이기 위해 다중공선성이 큰 변수를 제거하여 전체 회귀모형의 설명력을 높인다.
1. 단계적 변수입력방식: 전진선택, 후진제거, 단계선택
2. 동시적 변수입력방식: 입력방식, 제거
-------------------------------------
다중회귀분석에서는 회귀계수의 종속변수에 대한 독립변수 간의 중요도(영향력)를 보기 위해 표준화계수(BETA)를 구한다.
그러나 회귀식 모형은 비표준화계수로 구성하고, 회귀계수의 유의성 검정(t 검정)도 비표준화계수로 시행한다.
-------------------------------
회귀(回歸, regress)는 옛날 상태로 돌아가는 것을 뜻합니다.
영국의 통계학자 프랜시스 골턴은 우생학에 관심이 많았는데 진화론의 다윈은 그의 사촌입니다. (골턴은 또한 '지문'의 발견자이다.) 골상학과 관련한 여러 연구 중 그는 부모의 키와 아이들의 키 사이에 선형적인 (상관) 관계가 있슴을 알아내었습니다.
그리고 조사해보니 평균보다 키가 큰 부모의 자녀는 부모보다 작고 평균보다 키가 작은 부모의 자녀는 부모보다 크더라는 것입니다. 이를 골턴은 자녀가 그의 부모보다 키가 커지거나 작아지는 것은 집단 전체의 키 평균으로 돌아가려는(회귀하는) 경향이 있기 때문이라고 생각하였습니다.
그로부터 이처럼 독립변수와 종속변수 간의 관계를 함수화하여 분석하는 방법을 "회귀분석"이라고 하게 되었습니다.