brunch

You can make anything
by writing

C.S.Lewis

by myner Nov 20. 2020

피처 엔지니어링 / 선택하기

feat. 머신러닝

필자는 최근 머신러닝을 이용한 프로젝트를 진행하고 있는데 공부할 때도 느끼고 플젝 진행할때도 느끼고 또 느끼는 부분이 있다.


바로 '피처 엔지니어링' 그리고 '피처 선택'이 핵심기능의 일부로 고려되어야 한다는 점이다.

흔히들 말하는 '쓰레기가 들어가면 쓰레기가 나온다' 라는 것과 비슷한 맥락이다.


피처 엔지니어링에서는 새로운 피처를 생성하는 것도 포함이며, 피처 엔지니어링은 머신러닝 학습 알고리즘이 데이터셋으로부터 강력한 시그널을 추출할 수 있도록 도와준다. 


피처 선택은 훈련을 위한 상세 피처들을 선택하는 것과 관련성이 떨어지는 일부 피처를 효과적으로 제거하는 것을 모두 포함한다. 이렇게하면 데이터셋의 노이즈에 오버피팅 되는 것을 방지 할 수 있다.


잘하지 못하고 아직도 잘 모르고 계속 공부하며 진행하는 프로젝트이기도 하지만 이것이 참 중요한 부분인듯하다. 


그냥 주저리 해보았다.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari