brunch

You can make anything
by writing

C.S.Lewis

by Raphael Lee Mar 05. 2018

의사결정 나무 (Decision Tree)

삼남매 아빠 = 애국자

분석이란 걸 위한 통계 완전 기초

Chapter 1. 통계 기본 함수

Chapter 2. 표준화/정규화

Chapter 3. 데이터 전처리 - Part II (part I 참조)

Break #1. 통계 실습을 위한 환경 구축 - Part I

Break #2. 통계 실습을 위한 환경 구축 - Part II

Chapter 4. 클러스터링, 장바구니 - Part I (장바구니 분석)

Chapter 4. 클러스터링, 장바구니 - Part II (클러스터링)

Chapter 5. Decision Tree, Regression, Neural Network - Part I 기법 선택 및 변수 선정

Chapter 5. Decision Tree, Regression, Neural Network - Part II 회귀 분석 (Regression)

Chapter 5. Decision Tree, Regression, Neural Network - Part III 의사결정 나무 (Decision Tree)

Chapter 6. 모형 평가, WoE


0. 들어가며

- 최근 H/W의 발전으로 연산속도 및 저장용량이 증가함에 따라 재조명받는 것들이 왕왕 있는데, 의사결정 나무(Decision Tree, 이하 DT)도 그중 하나입니다.

 단일 Tree 모형에서 Random Forest로 숲을 만들더니 요즘에는 그 숲의 나무들을 잘 조정하여 사용하기까지 하는 추세이며 그 조정은 회귀분석을 이용하여 합니다.

 즉, "다수의 Tree를 복합(Ensemble)시켜서 숲(Forest)을 만들되, 회귀분석을 사용하여 각각의 모형에 대한 비중을 조정한다."입니다.

- DT에 대해서는 여기저기 자료가 있지만, 직접 만들 생각이 아니라면 특정 프로그래밍 언어(예: R, Python)의 라이브러리와 그 언어에서 지원하는 값들에 대한 판단을 할 수 있으면 사용하는데 불편함은 없습니다.


1. Decision Tree (이하 DT)는 왜 사용하는가?

- Tree 자체가 일선에서 자주 사용되는 이유는 직관성에 있습니다.

 통계를, 분석기법을 몰라도 결과를 해석하는데 전혀 지장이 없기 때문이죠.

 보고서에서 사용하기 위해 인공신경망 기법과 크게 결과가 차이 나지 않으면, DT로 모형을 만드는 경우도 종종 발생합니다. 보고서에 사용하기 좋다는 것이 어떤 의미인지 보고를 몇 번이라도 해보신 분이라면 그 가치를 충분히 느끼시리라 생각됩니다.

간단한 트리 예시 (출처: 위키피디아)


2. 언제, 어떤 상황에서, 어떻게 사용하는가?

- 정확히 정해진 상황이나 시점이 있는 것은 아니지만, 데이터의 구조가 비선형 성격을 가질 때 종종 사용합니다. 즉, 연속형 변수보다는 범주형 변수 및 이벤트 탐지에 유리합니다.

- 다만, 입력 데이터의 크기가 작은 경우 예측이 불안정할 가능성이 높습니다.

 또한, 실제 프로그래밍 시 옵션의 영향을 많이 받으니 다양한 옵션으로 모형을 검증할 것을 권장합니다.

- 대략의 절차는 다음과 같습니다.

  1. 주제를 설정하고, 입력 데이터를 정의하며, 평가에 대한 기준을 설정한다.

  2. 입력 데이터를 정제한다.

  3. Training set으로 옵션을 다양하게 조정하여 학습시키고, 그 모형에 대해 Validation set으로 평가를 반복하면서 최적의 옵션을 찾는다.

  4. 생성된 모형으로 일정 시간 실제 데이터에 적용하여 모니터링한다.

  5. 일정 수준 이상의 예측력을 가지면 적용한다.

  6. 예측력이 일정 수준 이하로 내려가면 1번부터 다시 반복한다.


3. 마치며

- DT는 쉽습니다. 그리고, DT는 어렵습니다. 하지만 DT는 직관적입니다.

 DT를 사용할 이유로는 이 정도면 충분하다 생각됩니다.

- 여기까지 의사결정 나무(Decisioin Tree)에 대한 정리를 마치며 다음에는 인공신경망(Neural Network) 분석에 대해 이야기하겠습니다.

* 현재 쓰려고 구상 중인 다소 무겁고 주요한 글이 있어 후다다닥 정리해 나갈 예정입니다.


매거진의 이전글 회귀 분석 (Regression)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari