- 독립변수와 종속변수 사이의 관계를 선형의 관계로 가정 (x,y관계를 직선으로 가정)
y = a+bx+e
여기서 오차 e 는 정규분포(평균0, 표준편차1)를 따르는 랜덤한 확률변수
a,b는 미지의 모수
y는 종속변수로 독립변수 x에 따라 결정되는 값
- 독립변수의 종류
1) 양적 입력
2) 양적입력의변환 (log, 루트 등)
3) 입력변수의 다항식 (2차, 3차등)
4) 두 변수 사이의 교호작용
5) 질적인 입력을 위한 dummy variable (one-hot encoding)
ex) 100, 010, 001
단순회귀분석의 적합
- 최소제곱 계수 추정 (method of least square) => 최소제곱법
- 오차의 제곱합 D를 최소화 하는 추정량으로 추정함
- 관측값에서부터 추정된 모델상의 예측값까지의 거리의 합을 최소로 하는 값
단순회귀분석의 가정
1) 두변수 X와 Y간에는 직선관계 성립
2) 오차의 평균 0이고 분산이 시그마제곱인 정규분포
3) 오차의 분산은 시그마제곱으로 같아야함
4) 오차는 서로 독립
결정계수
적합된 회귀식이 기본가정을 만족하는지를 구하는 것,
: 데이터들의 변동 중 회귀분석에 의해 설명되는 부분
: 결정계수가 클수록, 회귀식이 관측데이터를 잘 설명하는 것 => 적합성 보증
R^2=SSR(회귀변동)/SST(총변동) (0~1)
but, 이 경우에도 잔차분석을 통해 적합성 검토할 필요.
잔차분석
가로축을 추정값 yhat, 세로축을 잔차로 하여 잔차 산점도 작서할 경우,
모델이 잘 적합될 시, 잔차는 경향성 X
결국! 결정계수가 충분히 크고 잔차의 경향성이 보이지 않을때 회귀식이 적합하다고 할 수 있음
다중회귀모형
y=a+b1x1+b2x2+bkxki+ei
- 다수의 중요인자를 독립변수가 중요할 경우, 다중회귀분석
- 여러개의 독립변수와 종속변수와의 관계를 선형으로 가정함.
다중회귀모형의 적합: 최소제곱법
: 단순회귀의 경우와 동일하나, 교호작용이나 제곱항이 포함됨.
기억해야할 것 = bhat = (X'X)^-1 X'y
추정식 yhat = Xbhat+ei
곡선회귀분석
: 독립변수가 1개일 경우, x,y의 관계가 직선보다 곡선이 더 적절하다고 판단될 경우, k차 곡선회귀모형 적합하는 것이 더 바람직함.
y=a+b1x+b2 x^2+ ... + bk x^k이고 서로 독립.
: 이 곡선회귀 분석을 다중회귀분석처럼 바꿀 수 있음. 원리는 똑같다
**회귀분석시 매우 신경써야할 문제** b/c 독립변수간 상관계수가 너무 클 수 있음. 그러면 X
다중공선성
1) 설명변수들간의 상관계수가 높을 경우, 회귀계수의 값이 매우 커짐
2) 특정 설명변수가 다른 변수들의 선형결합으로 표현되는 경우
3) 회귀변수의 변동성이 커져서 통계량과 모수가 서로 반대부호를 가질 수 있음.
4) F-통계량이 크나, t-통계량들이 작으면 의심해볼 수 있음.
분산팽창계수 : Variance InflationFactor (VIF)
-> 하나의 독립변수를 다른 독립변수(나머지)로 회귀해보는 것
VIF=1/1-R^2 가 10보다 크면 다중공선성 있을 확률이 높음
다중공선성을 없애기는 어렵다
1) 아예 없을 순 없음.! 어느정도 상관관계는 있음
2) 다중공선성을 최소화 하는 것이 낫다
- Forward / Backward Selection 사용
3) 예측이 목적인 경우에는 어느정도 허용
- Prediction, Extrapolation
다중공선성 문제의 해결방안
1) 변수선택방법 - Step-wise regression (forward, backward)
2) 변수추출방법 - 릿지리그레션 (능동회귀), 주성분회귀(PCA)
다중회귀모형의 선택
: 모형 선정 척도 = 적합 결핍 + 복잡도
=> 적합결핍, 복잡도 모두 적을수록 좋으나, 양자는 상충관계에 있음
최소제곱법의 결정적인 약점 2
- 예측정확도 :
최소제곱법은 편향은 낮지만 (적합은 잘되지만), 분산을 높게 추정하는 경향 (너무 복잡한 모형)
=> overfitting의 가능성
- 설명력 : 가장 좋은 효과를 뵈는 매우 작은 서브셋은 설명력을 저하시킴
최적 서브셋 회귀
- RSS(잔차의 합 = 비용함수 - 손실함수) 값이 가장 낮은 예측모형의 최적의 서브셋.
=> 하지만, 이 방법은 너무나 많은 계산을 해야해서 비추 !
=> 아래의 방법을 더 많이 씀, 특히 혼합단계적 선택!
서브셋 선택 방법
1) 순방향 단계적 선택 : Forward stepwise selection
- 공헌도가 높은 변수 추가
- 설명력이 높은 독립변수부터 순차적으로 모형에 추가 ( 가장 오차감소폭 큰!)
- F값이 유의하며 가장 큰 독립변수 추가
2) 역방향 단계적 선택 : Backward stepwise selection
- 공헌도가 낮은 변수 삭제
- 모든 독립변수를 이용한 후, 유의하지 않은 독립변수를 순차적으로 제외
- F값이 유의하지 않으며 가장 작은 독립변수 추가
3) 혼합 단계적 선택 (Hybrid stepwise selection)
- 추가, 삭제 병향
- Forward랑 비슷하지만,
- 변수선택이후 모형에 포함된 나머지 변수에 대해 유의성검정을 해서 유의하지 않은 변수를 제거.
- + - + - 반복가능
AIC, F-test에 기반하여 결정,
Forward stagewise regresssion= 잔차상관관계가 가장 높은 예측모형 선택