의사결정트리 알고리즘의 역사, 랜덤포레스트와 XGB까지

[야만인] 인공지능 탄생의 뒷이야기

Apr 1. 2020

로스 퀸란이 만든 알고리즘은 반복이진분류법인 ID3(Iterative Dichotomizer 3)이며,

이후 C4.5에서 C5.0으로 발전합니다.

이 알고리즘들은 집합을 분류할 때 엔트로피 Entropy라는 '집합의 불확실성 정도'로 판단합니다.

이 엔트로피의 개념은 클로드 섀넌의 정보엔트로피에서 가져온 것입니다.

이런 집합의 분류법은 엔트로피 외에도 더 있습니다.

존 하티건 J. A. Hartigan이 만든 CHAID(Chi-squared Automatic Intersection Detection)에서는

카이제곱 χ2을 썼고,

레오 브라이먼 Leo Breiman의 CART(Classification And Regression Trees) 알고리즘에서는

지니계수(Gini Index)를 썼습니다.

지니계수란 이탈리아 통계학자이자 경제학자인 코라도 지니 Corrado Gini가 만든 불평등지수로서

같은 모집단에서 무작위로 선택된 두 항목들이 같은 집합에 있을 확률을 나타냅니다.

가장 분류가 잘 안될 경우는 50:50으로 분류된 경우가 됩니다.

이 CART 알고리즘이 발전하여 선풍적인 인기를 가져온 것이

Random Forest (2001) 입니다.

이 알고리즘은 레오 브라이먼과 그의 제자 아델 커틀러 Adele Cutler가 만들었습니다.

랜덤 포레스트는 성능측면으로도 매우 뛰어나 활용이 많이 되고 있는 알고리즘입니다.

또 Sample Data를 조정하여 정확성을 더욱 높인

Boosting 알고리즘이 등장합니다.(1997)

이 알고리즘은 AdaBoost (Adaptive Boosting)이라고 하며,

요하브 프룬드 Yoav Freund와 로버트 사파이어 Robert Schapire가 만들었습니다.

최근에는 여러 개의 의사결정트리를 조합하여 사용하는

앙상블 Ensemble 알고리즘으로 XGBoost (eXtreme Gradient Boosting)가 인기입니다.

앙상블이란 프랑스어로 각 부분의 총체로서 전체적 효과를 나타내는 것을 의미하는 부사입니다.

인공지능에서는 Bagging과 Boosting을 조합하여

하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법을 말합니다.

이 XGBoost는 중국의 진천기 陳天奇 Tiangi Chen이 만들었습니다.

이 의사결정트리 알고리즘의 기원을 따라가보니

결국 '인공지능'이라는 용어를 처음 세상에 내놓은 1956년 Dartmouth AI Project까지 올라가네요.

마빈 민스키 Marvin Minsky나 존 메카시 John McCathy로부터 시작된 기호주의가

현재까지 맹활약을 하고 있다고 봐야겠습니다.

(출처)

https://en.wikipedia.org/wiki/ID3_algorithm

ID3 algorithm - Wikipedia

https://en.wikipedia.org/wiki/ID3_algorithm

https://en.wikipedia.org/wiki/Decision_tree_learning

Decision tree learning - Wikipedia

https://en.wikipedia.org/wiki/Decision_tree_learning

https://en.wikipedia.org/wiki/Random_forest

Random forest - Wikipedia

https://en.wikipedia.org/wiki/Random_forest

https://xgboost.readthedocs.io/en/latest/tutorials/model.html

Introduction to Boosted Trees — xgboost 1.1.0-SNAPSHOT documentation

https://xgboost.readthedocs.io/en/latest/tutorials/model.html

적송 권건우 redpine71@wedatalab.com
http://blog.naver.com/redpine71

적송 숲에서 한가로이 거닐다 : 네이버 블로그

동서문명 탐구의 기난긴 여정

https://blog.naver.com/redpine71

공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.
前 삼성SDS technical architect
現 위데이터랩 대표이사
現 디랩아카데미 원장
現 성균관대, 한양대 겸임교수
現 세계진소왕태극권총회 서울분회장
#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권

루나 허령
https://brunch.co.kr/@hvnpoet

루나의 브런치

야만인이야기 만화가 | 마음공부하는 천상시인 루나의 브런치입니다. #마음공부 #모델링 #마인드맵 #서예 #진소왕태극권 #천상병 #서울데이터과학연구회 #물질이개벽되니정신을개벽하자 #곳곳이부처님일마다불공

https://brunch.co.kr/@hvnpoet

컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.
#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병

keyword