brunch

회귀 분석, Penalty Term에 대해서 알아보기

출퇴근길에 공부하는 머신러닝

by 별똥별 shooting star


들어가며

앞선 편에서 살펴본 전통적인 Feature Selection은 변수가 많아질수록 계산 시간이 매우 오래 걸리게 된다. 그리고 Forward Selection, Backward Elimination, Stepwise Selection 방법을 사용할 때에는 최적의 변수 부분 집합을 찾기 어려다. 즉, 계산 효율성이 떨어진다는 것이다. 그렇기 때문에 이번 편에서는 전통적인 방법에서 벗어나 보다 더 효율적인 Feature Selection인 Penalty Term에 대해서 살펴보자 한다.



Penalty Term의 등장

이는 전통적인 Feature Selection 방법의 한계를 극복하기 위해 등장한 개념이다. Penalty Term의 기본 사상은 축구에서 반칙 시 부여되는 "벌"의 개념과 유사하다. 모델에서는 불필요한 변수에 "벌"을 부여하여 그 변수를 학습에서 배제하거나 영향력을 줄이게 된다.



Feature Selection의 접근법들

Filter Method: 변수 X와 Y 사이의 상관관계, 카이제곱 검정, 분산 분석 (ANOVA), 분산 팽창 요인 (VIF) 등을 사용하여 변수를 필터링하는 방법이다.

Wrapper Method: Forward Selection, Backward Elimination, Stepwise Selection과 같은 방법을 통해 변수를 선택한다.

Embedded Method: 이 방법은 Regularization 기법을 활용하여 모델이 자동으로 변수 선택을 수행한다. 이 방법의 주요 장점은 Wrapper Method와 같이 변수 간의 상호작용을 고려하면서, 상대적으로 빠른 시간 내에 변수의 부분 집합을 찾을 수 있다는 점이다.



마치며

모델의 복잡성을 줄이기 위해 필요 없는 변수의 계수(β)에 Penalty를 부여하여 준다. 이는 모델이 overfitting 되는 것을 방지해 주고, 불필요한 변수의 영향력을 줄이는 데 도움을 준다. 앞선 편에서는 Filter Method과 Wrapper Method에 대해서 살펴보았고, 다음 편에서는 Embedded Method 대해서 살펴보고자 한다. 조금 더 정확하게는 Regularization 기법인 Ridge, Lasso, ElasticNet에 대해서 살펴볼 예정이다.

keyword
매거진의 이전글회귀 분석, 꼭 모든 Feature가 필요한 걸까?