일반화 (generalization)
- 머신러닝 알고리즘들은 학습과정을 통하여 점차 학습 데이터에 대하여 오차('학습오차)를 감소시켜나감.
- 그러나, 우리가 도메인에서 주어진 임의에 데이터에 대하여 성능이 뛰어난 모델,
" 일반화 오차 (generalization error) 가 작은 모델을 원함.
- 따라서 모델의 성능 평가시, 테스트 데이터에서 성능평가해야함.
- MSE
과적합 (overfitting)
- 때로는 모델의 학습이 지나치게 학습데이터에 맞춰짐, 일반화 성능은 오히려 떨어지느 경우
- 이 경우를 과적합 이라고 함.
과소적합 (underfitting)
- 이와 반대로 학습데이터에 대해 제대로 학습되지 않아 모델의 성능이 떨어지는 경우도 존재
- 이를 '과소적합(underfitting)'이라고 함
=> 회귀분석과 분류에서 모두 적용될 수 있는 것
(참고그림)
선형회귀분석의 과적합
1) 다중회귀 : 지나치게 많은 독립변수 사용
2) 곡선회귀 : 지나치게 돞은 차원의 사용
3) 해결방법 : 독립변수의 선택, 정규화(regularization)
1) Ridge regression - L2norm
- 잔차제곱합+회귀계수의 제곱합(베타값의합: 파라미터(회귀계수)의 제곱을 더해준것)
- 이 식에서, 회귀계수의 제곱합즉, 회귀계수의 제곱 합을 조절해 주는 것 => 람다 값,
- 기존보다 더 작은 계수를 추정하게 됨
- 람다값이 크면 클수록 회귀계수 줄어듦. 람다값이 0일때는 패널티항의 효과가 없게 되는 것
2) Lasso regression - L1norm
- 잔차제곱합+회귀계수의 절댓값 합
- 이식에서, 회귀계수의 절댓값 합을 조절해주는 것 => 라쏘 값
- 릿지리그레션이랑 다른 것은, 랏쏘는 (0.0)이 되어서 변수선택 효과가 존재함.
L_qnorm regularization
- q가 1보다 작거나 같으면 변수선택 O
- q가 1보다 크면 변수선택 X
엘라스틱넷도 변수선택의 한 방법
우도함수 (likelihood function)
- 우도란 : 어떤 관측값이 관측되었을때, 이것이 어떤 확률분포에서 왔을지에 대한 확률
:우리가 알고 있는 데이터들이 그 모수를 따르는 분포로부터 나올 가능성
- 데이터n개가 모수 B0,B1을 가질 확률
로그우도 함수
최우도함수 = 우도함수가 최대가 되는 B0, B1의 값
=> 오차제곱합이 최소화
- 오차가 정규분포임을 가정할때, 최우도추정 동일
=> 최우도 추정을 통해 얻은 최적회귀계수는 최소제곱법을 통해 얻게된 최적회귀계수와 동일함