brunch

You can make anything
by writing

C.S.Lewis

by 루나 Apr 01. 2020

의사결정트리 알고리즘의 역사, 랜덤포레스트와 XGB까지

[야만인] 인공지능 탄생의 뒷이야기

로스 퀸란이 만든 알고리즘은 반복이진분류법인 ID3(Iterative Dichotomizer 3)이며,

이후 C4.5에서 C5.0으로 발전합니다.


이 알고리즘들은 집합을 분류할 때 엔트로피 Entropy라는 '집합의 불확실성 정도'로 판단합니다.

이 엔트로피의 개념은 클로드 섀의 정보엔트로피에서 가져온 것입니다.

이런 집합의 분류법은 엔트로피 외에도 더 있습니다.


존 하티건 J. A. Hartigan이 만든 CHAID(Chi-squared Automatic Intersection Detection)에서는

카이제곱 χ2을 썼고,

레오 브라이먼 Leo Breiman의 CART(Classification And Regression Trees) 알고리즘에서는

지니계수(Gini Index)를 썼습니다.


지니계수란 이탈리아 통계학자이자 경제학자인 코라도 지니 Corrado Gini가 만든 불평등지수로서

같은 모집단에서 무작위로 선택된 두 항목들이 같은 집합에 있을 확률을 나타냅니다.

가장 분류가 잘 안될 경우는 50:50으로 분류된 경우가 됩니다.

이 CART 알고리즘이 발전하여 선풍적인 인기를 가져온 것이                         

Random Forest (2001) 입니다.                                                                                                                                    

이 알고리즘은 레오 브라이먼과 그의 제자 아델 커틀러 Adele Cutler가 만들었습니다.

랜덤 포레스트는 성능측면으로도 매우 뛰어나 활용이 많이 되고 있는 알고리즘입니다.

또 Sample Data를 조정하여 정확성을 더욱 높인                               

Boosting 알고리즘이 등장합니다.(1997)                                                                                                                 

이 알고리즘은 AdaBoost (Adaptive Boosting)이라고 하며,                     

요하브 프룬드 Yoav Freund와 로버트 사파이어 Robert Schapire가 만들었습니다.

최근에는 여러 개의 의사결정트리를 조합하여 사용하는

앙상블 Ensemble 알고리즘으로 XGBoost (eXtreme Gradient Boosting)가 인기입니다.


앙상블이란 프랑스어로 각 부분의 총체로서 전체적 효과를 나타내는 것을 의미하는 부사입니다.

인공지능에서는 Bagging과 Boosting을 조합하여

하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법을 말합니다.


이 XGBoost는 중국의 진천기 陳天奇 Tiangi Chen이 만들었습니다.

이 의사결정트리 알고리즘의 기원을 따라가보니

결국 '인공지능'이라는 용어를 처음 세상에 내놓은 1956년 Dartmouth AI Project까지 올라가네요.


마빈 민스키 Marvin Minsky나 존 메카시 John McCathy로부터 시작된 기호주의가

현재까지 맹활약을 하고 있다고 봐야겠습니다.

(출처)

https://en.wikipedia.org/wiki/ID3_algorithm

https://en.wikipedia.org/wiki/Decision_tree_learning

https://en.wikipedia.org/wiki/Random_forest

https://xgboost.readthedocs.io/en/latest/tutorials/model.html


적송 권건우 redpine71@wedatalab.com
http://blog.naver.com/redpine71

공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.
前 삼성SDS technical architect
現 위데이터랩 대표이사
現 디랩아카데미 원장
現 성균관대, 한양대 겸임교수
現 세계진소왕태극권총회 서울분회장
#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권

루나 허령
https://brunch.co.kr/@hvnpoet

컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.
#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari