brunch

You can make anything
by writing

C.S.Lewis

by 이유민 Aug 23. 2021

3. 선형회귀분석2

과적합과 과소적합


일반화 (generalization)

- 머신러닝 알고리즘들은 학습과정을 통하여 점차 학습 데이터에 대하여 오차('학습오차)를 감소시켜나감.

- 그러나, 우리가 도메인에서 주어진 임의에 데이터에 대하여 성능이 뛰어난 모델,

 " 일반화 오차 (generalization error) 가 작은 모델을 원함.

- 따라서 모델의 성능 평가시, 테스트 데이터에서 성능평가해야함.

- MSE


과적합 (overfitting)

- 때로는 모델의 학습이 지나치게 학습데이터에 맞춰짐, 일반화 성능은 오히려 떨어지느 경우

- 이 경우를 과적합 이라고 함.


과소적합 (underfitting)

- 이와 반대로 학습데이터에 대해 제대로 학습되지 않아 모델의 성능이 떨어지는 경우도 존재

- 이를 '과소적합(underfitting)'이라고 함


=> 회귀분석과 분류에서 모두 적용될 수 있는 것


(참고그림)


선형회귀분석의 과적합

1) 다중회귀 : 지나치게 많은 독립변수 사용

2) 곡선회귀 : 지나치게 돞은 차원의 사용

3) 해결방법 : 독립변수의 선택, 정규화(regularization)


정규화 - Shrinkage Method


1) Ridge regression - L2norm

- 잔차제곱합+회귀계수의 제곱합(베타값의합: 파라미터(회귀계수)의 제곱을 더해준것)

- 이 식에서, 회귀계수의 제곱합즉, 회귀계수의 제곱 합을 조절해 주는 것 => 람다 값,

- 기존보다 더 작은 계수를 추정하게 됨

- 람다값이 크면 클수록 회귀계수 줄어듦. 람다값이 0일때는 패널티항의 효과가 없게 되는 것


2) Lasso regression - L1norm

- 잔차제곱합+회귀계수의 절댓값 합

- 이식에서, 회귀계수의 절댓값 합을 조절해주는 것 => 라쏘 값

- 릿지리그레션이랑 다른 것은, 랏쏘는 (0.0)이 되어서 변수선택 효과가 존재함.


L_qnorm regularization

- q가 1보다 작거나 같으면 변수선택 O

- q가 1보다 크면 변수선택 X


엘라스틱넷도 변수선택의 한 방법


회귀분석의 확률적 해석


우도함수 (likelihood function)

- 우도란 : 어떤 관측값이 관측되었을때, 이것이 어떤 확률분포에서 왔을지에 대한 확률

            :우리가 알고 있는 데이터들이 그 모수를 따르는 분포로부터 나올 가능성

- 데이터n개가 모수 B0,B1을 가질 확률


로그우도 함수


최우도함수 = 우도함수가 최대가 되는 B0, B1의 값

=> 오차제곱합이 최소화

- 오차가 정규분포임을 가정할때, 최우도추정 동일


=> 최우도 추정을 통해 얻은 최적회귀계수는 최소제곱법을 통해 얻게된 최적회귀계수와 동일함


매거진의 이전글 2. 선형회귀분석1
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari