brunch

손실함수의 정규화(Regularization)

by 노다해


머신러닝에서의 학습은 손실함수를 최소화하는 방향으로 이루어진다. 이 때 이 손실함수에 Lp norm 항을 추가하여 과적합을 방지하는 방법을 손실함수의 정규화(Regularization)이라고 부른다. 참고로 Lp norm을 1로 만드는 과정 역시 정규화(Normalization)이라 옮긴다.



(Lp norm에 대해서는 아래 글을 참조)

https://brunch.co.kr/@dahaeroh/132



이에 혼동을 피하기 위해 Regularization을 한국어로 규제(Regulation)이라고 옮기기도 한다. 하지만 Regulation과 Regularization은 그 의미가 다르므로 여전히 혼동의 여지는 남아있다. 다만 Regulation을 규제라고 옮긴다면, 모델을 안정화하거나 일반화 성능을 높이기 위해 제약을 준다는 맥락으로 이해할 수 있다.


%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-18_%EC%98%A4%ED%9B%84_9.50.58.png?type=w1



* L2 정규화/규제 (Ridge 규제, Weight Decay)



%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-18_%EC%98%A4%ED%9B%84_9.51.39.png?type=w1


1970년대 Hoerl & Kennard (1970) 논문 "Ridge Regression: Biased Estimation for Nonorthogonal Problems" 에서 처음 제안.


손실함수의 타원형 등고선과 L2 규제 구가 맞닿아 해가 능선(ridge)처럼 안정적으로 형성된다는 기하학적 비유


편향은 늘지만 분산을 감소시켜 일반화에 유리(편향–분산 절충)



(편향과 분산은 아래 글 참고)

https://brunch.co.kr/@dahaeroh/135





* L1 정규화/규제 (Lasso 규제)




%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-18_%EC%98%A4%ED%9B%84_9.52.00.png?type=w1


Robert Tibshirani (1996) 논문 "Regression Shrinkage and Selection via the Lasso" 에서 제안.


L1 규제는 계수들을 절댓값만큼 수축(shrinkage) 시켜 일부를 0으로 만듦 → 변수 선택(selection) 기능.


이를 공식적으로 Least Absolute Shrinkage and Selection Operator라고 부르고, 앞글자를 따서 LASSO 라는 이름을 붙임.


동시에, “lasso(올가미, 밧줄)”라는 영어 단어처럼 계수들을 묶어 당긴다는 비유적 의미도 담겨 있음.



L2와 마찬가지로 편향은 늘어나지만 분산은 줄어드는 효과


다만, L2 Ridge가 모든 계수를 조금씩 줄여서 Bias가 균일하게 증가한다면,



L1 Lasso는 일부 계수를 아예 0으로 만들어 변수 선택의 효과가 있음


따라서 L1에서 Bias는 크게 늘 수 있지만, Variance 역시 확연하게 감소할 수 있음.





* Elastic Net (L1 & L2 혼합)




%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-18_%EC%98%A4%ED%9B%84_9.52.22.png?type=w1


Zou & Hastie (2005) 논문 "Regularization and variable selection via the elastic net" 에서 제안.


L1 규제(Lasso)는 변수 선택에 강하지만 불안정하고, L2 규제(Ridge)는 안정적이지만 변수 선택은 못함.


마치 고무줄(elastic net) 처럼, 두 가지를 탄성적으로 섞어준다는 아이디어에서 이름이 붙음.








keyword
매거진의 이전글학습 모델의 평가, 편향과 분산