brunch

You can make anything
by writing

C.S.Lewis

by 별똥별 shooting star Oct 17. 2023

앙상블 모델, LightGBM 편

출퇴근길에 공부하는 머신러닝


들어가며

LightGBM은 Gradient Boosting 알고리즘을 기반으로 한 트리 기반 학습 알고리즘이다. 전통적인 GBM 계열의 알고리즘은 모든 피처와 데이터에 대해 정보 획득량(Information Gain)을 계산하는데, LightGBM은 이러한 계산을 최적화하여 학습 속도와 메모리 사용량을 크게 개선했다.



LightGBM의 핵심 기술

Gradient-based One-sided Sampling(GOSS)

각 데이터에 대한 그래디언트 값을 계산하고 정렬한다. 그래디언트 값이 큰 데이터는 유지하고, 그래디언트 값이 작은 데이터는 무작위로 제거한다. 이 방식은 중요한 데이터를 중심으로 학습을 진행함으로써 학습 속도를 빠르게 한다.


Exclusive Feature Bundling(EFB)

데이터에서 독립적인 피처들을 하나로 묶는 기술이다. 특히 원-핫 인코딩된 피처에서 많은 값이 0인 경우, 이러한 피처들을 묶어서 새로운 피처로 만든다. 이러한 EFB는 두 단계로 이루어지는데 첫 번째로 Greedy Bundling로 어떤 피처들을 하나로 묶을지 경정한다. 두 번째로는 Merge Exclusive Features로 독립적인 피처들을 하나로 합쳐 새로운 피처를 생성한다.



LightGBM의 장점

GOSS와 EFB 기술 덕분에 LightGBM은 대용량 데이터에서도 빠르게 학습이 가능하다. 그리고 피처를 묶는 EFB 기술로 인해 메모리 사용량이 크게 줄어든다. 또한 GOSS로 중요한 데이터를 중심으로 학습하기 때문에 높은 예측 정확도를 보인다. 즉, 빠른 학습 속도, 메모리 효율, 높은 정확도를 자랑하는 것이다.



마치며

LightGBM은 그래디언트 부스팅 알고리즘의 한계를 극복하기 위해 탄생한 알고리즘으로, 빠른 학습 속도와 높은 예측 정확도로 많은 인기를 얻고 있다. 특히 대규모 데이터셋에서 더욱 빛을 발한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari