매거진 출퇴근길에 공부하는 머신러닝

분류(Classification)문제와 의사 결정 나무

출퇴근길에 공부하는 머신러닝

by 별똥별 shooting star

Oct 5. 2023

들어가며

분류(Classification)란 다양한 데이터를 특정 기준에 따라 여러 그룹으로 나누는 작업이다. 이러한 분류 작업에는 여러 가지 알고리즘이 사용될 수 있으며, 여기서는 그 중에서도 의사 결정 나무(Decision Tree) 알고리즘에 대해 논의하고자 한다. 분류의 목표는 주어진 데이터를 정확하게 분류하여 모델의 성능을 향상시키는 것이다.

분류 문제와 손실 함수(Loss Function)

분류 문제에서는 정답과 오답 두 가지로 나눌 수 있지만, 각 클래스의 개수는 두 개 이상일 수 있다. 이러한 분류 문제에서는 회귀 문제와는 달리 예측값과 실제값의 차이를 바탕으로 Loss Function을 계산한다.

회귀 손실 함수(Regression Loss Function)

회귀 문제에서는 예측값과 실제값의 차이, 즉 오차(Error)의 크기를 측정할 수 있다. 대표적으로 Mean Squared Error가 있다.

분류 손실 함수(Classification Loss Function)

분류 문제의 Loss Function은 예측된 클래스 확률과 실제 클래스 레이블 간의 차이를 측정한다. 대표적으로 Cross-Entropy Loss가 사용된다.

의사 결정 나무(Decision Tree)

의사 결정 나무는 분류와 회귀 문제 모두에 사용될 수 있는 모델이다. 이 모델의 원리는 간단하다. 가장 정보가 풍부한 특성으로 데이터를 나눈다. 이렇게 나눈 데이터의 순도(Homogeneity)를 높이고 불순도(Impurity)를 줄이는 것이 목표이다.

정보 획득(Information Gain): 의사 결정 나무에서는 트리의 각 분할에서 정보 획득을 최대화하는 특성과 임계값을 찾는다.

가지치기(Pruning): 오버피팅을 방지하기 위해, 모든 터미널 노드가 순도 100%, 불순도 0%인 상태를 만든 후, 적절한 수준에서 가지를 친다.

마치며

의사 결정 나무는 이해하기 쉽고 해석력이 높다는 장점이 있다. 그러나 복잡한 모델은 해석이 어려울 수 있으며, 정확도도 다른 고급 모델에 비해 낮을 수 있다. 이러한 모델의 특성을 이해하고 적절한 상황에 사용하는 것이 중요하다.

용어 설명

분류(Classification): 데이터를 여러 그룹으로 나누는 작업.

의사 결정 나무(Decision Tree): 데이터를 여러 조건으로 분류하여 예측하는 모델.

손실 함수(Loss Function): 모델의 예측이 얼마나 정확한지를 측정하는 함수.

순도(Homogeneity): 한 그룹의 데이터가 얼마나 동질적인지를 나타내는 척도.

불순도(Impurity): 한 그룹의 데이터가 얼마나 이질적인지를 나타내는 척도.

오버피팅(Overfitting): 모델이 훈련 데이터에 지나치게 최적화되어, 새로운 데이터에 대한 예측 성능이 떨어지는 현상.

keyword

별똥별 shooting star 직업 개발자

세상을 새롭게 정의하는, 편집자입니다.

매거진의 이전글회귀 분석, 정규화(Regularized)모델 알아보기분류 모델은 어떻게 평가를 할까?매거진의 다음글