의사 결정 나무 알고리즘을 활용한 실습
현업 관점에서 데이터 분석이란 목표변수(Y) 값의 차이를 설명하는 일이고 차이는 본질적인 차이와 우발적인 차이의 합으로 구성된다.
전국의 개별 대리점들이 나타내는 순이익률의 차이는 대리점에 내재된 본질적 성과(기량) 차이의 반영일 수도 있고 단순히 운이 좋아 장사가 잘(안)된 것의 반영일 수도 있다.
본질적인, 그래서 일반화할 수 있는 차이를 Signal이라 하고 우연(Chance)에 의해 유발된 차이를 Noise라 했을 때 Signal과 Noise를 어떻게 구분할 수 있을까? (우발적이거나 허구적 서열에 근거한 차이를 본질적 차이라고 주장한 것이 차별의 역사이기도 하다.)
참고로 안정된 시스템일수록, 시스템을 구성하는 개별 구성요소들의 기량의 차이가 적어진게 된다. 이것은 구성요소들(예, 개별 대리점)이 best practice를 서로 서로 학습한 결과 돈버는 기량이 서로 비슷해지게 되어, 결국 이익의 차이(변량) 역시 작아지기 때문이다. 이렇게 기량의 차이가 적은 구성요소들로 구성된 시스템에서는 개별 구성요소들의 성과 차이에 미치는 운의 영향력이 상대적으로 커지게 되는데 이런 현상을 기량의 역설(Paradox of Skill)이라고 한다.
이번달에 대리점 A 주변에 큰 국제 행사가 열려 대리점 A의 이익이 예외적으로 높았다고 하자. 대리점 A의 이익은 다음달에는 아마도 다시 평균(평범함)으로 회귀하게 될 것이다. (Regression to Mean/Mediocirity)
하지만, 지난 2년 동안 꾸준히 높은 이익률을 낸 대리점은 운(우발적 사건) 때문이 아니라 매장에 내재된 본질적인 기량이 이익의 차이로 나타난 것이라 생각할 수 있다. (반대로 꾸준히 장사 못하는 대리점의 경우도 마찬가지)
어떤 특성(이익)의 양극단(예, 이익률 상/하위 20% 대리점; 성과점수 3년 평균 상/하위 20%인 직원)에 위치한 대상을 비교하면 스펙트럼의 중간에 위치한 판단하기 애매한 애들(운과 기량이 골고루 섞여 있는 애들)이 분석 대상에서 제거되어 주어진 특성(이익) 차이를 가져오는 보다 본질적인 요인(패턴, Signal)을 찾을 수 있다.
서로 다른 두 집단의 두드러진 차이를 통하여 두 집단을, 완벽하게는 아닐지라도 최대한, 끼리끼리 모이도록 구분(Classification)하는 규칙을 찾는 대표적인 분석 알고리즘이 의사결정트리(Decision Tree)이다.
예를 들면, 장기근속자(A)와 조기퇴사자라(B)는 서로 다른 두 집단을 구분하는 논리적 규칙을 의사결정트리 알고리즘을 통해 아래와 같이 찾을 수 있다.
장기근속자 분류규칙: [나이 >= 27] & [채용경로=신문광고]인 경우 90% 확률로 장기근속자
조기퇴사자 분류규칙: [나이 < 27] & [학력=석사 or 박사]인 경우 93% 확률로 조기퇴사
HeartCount에서는 [마이크로세그멘테이션] 메뉴를 통해 Decision Tree 알고리즘을 구현하였다.
아래 동영상을 통해 대형매장 매출 데이터에서 가구(Furniture) 제품군에 속한 매출 레코드 중 이익 기준으로 Top 20%인 매출과 Bottom 20%인 매출을 비교 분석하여 양극단의 두 집단(Top 20% vs. Bottom 20%)를 분류하는 규칙을 찾아보겠다.
동영상을 유심히 보면 알 수 있지만 가구의 경우 이익 기준 Top 20% 매출건의 60%가 [운송비용 < 29$]인 매출건들이었다. 달리 말하면 (가벼운) 소형 가구들이 돈을 벌어주고 있다는 이야기가 된다.
실무자를 위한 데이터 자동 분석 솔루션, 하트카운트 사용해보기
여기를 클릭해주세요.
하트카운트 뉴스레터 구독하기는 여기를 클릭해주세요.
하트카운트 도입, 견적 및 구축 문의는 여기를 클릭해주세요.
(협업 문의는 support@idk2.co.kr로 부탁드립니다.)
하트카운트 데모 비디오는 여기를 클릭해주세요.
여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로'에 참여하세요.