출퇴근길에 공부하는 머신러닝
오늘은 클러스터링편의 마지막인 성능 평가하기에 대해서 여러분에게 소개할려고 한다. 클러스터링이란 비슷한 특성을 가진 데이터끼리 그룹으로 묶는 비지도 학습 기법이다. 이러한 클러스터링이 잘 이루어졌는지, 그리고 얼마나 많은 클러스터가 존재해야 하는지 평가하는 것은 까다로운 일이다. 오늘은 이를 평가하는 다양한 지표들에 대해 알아보도록 하겠다.
클러스터링은 레이블이 없는 데이터에 대해 수행되기 때문에, 정확한 정답을 비교하기 어렵다. 따라서 클러스터링의 결과를 평가하는 지표는 클러스터 내의 동질성과 클러스터 간의 이질성을 측정한다. 이를 통해 우리는 클러스터링이 얼마나 잘 이루어졌는지, 데이터가 얼마나 잘 구분되었는지를 알 수 있을 것이다.
클러스터링 결과를 평가하는 지표는 크게 세 가지로 나눌 수 있다.
External 지표: 미리 알고 있는 정답과 클러스터링 결과를 비교한다. 하지만 대부분의 비지도 학습 상황에서는 이러한 정답이 없다.
Internal 지표: 클러스터 내의 밀도와 클러스터 간의 분리도를 평가하여 클러스터링의 품질을 측정한다.
Relative 지표: 서로 다른 클러스터링 방식이나 클러스터 수를 비교하여 상대적으로 최적의 모델을 선택한다.
Dunn Index는 클러스터 간 거리의 최소값과 클러스터 내 요소 간 거리의 최대값의 비율로 계산된다. 이 지표는 클러스터 간 거리가 멀고 클러스터 내 분산이 작을수록 값이 높아지며, 이는 좋은 클러스터링 결과를 의미한다.
Silhouette Score는 각 데이터 포인트의 클러스터 적합도를 개별적으로 측정한다. 값이 1에 가까울수록 해당 데이터 포인트가 자신이 속한 클러스터 내에서 잘 맞는 것으로 해석된다. 이 점수는 클러스터 내의 응집도와 클러스터 간의 분리도를 모두 반영하여, 클러스터링의 질을 종합적으로 평가한다.
위의 지표들을 활용하여 다양한 클러스터 수에 대한 클러스터링 모델의 성능을 평가할 수 있다. 'Elbow Method'는 클러스터 수를 늘려가며 각각의 클러스터링 결과에 대한 위 지표들의 값을 그래프로 그려보는 방법이다. 그래프에서 팔꿈치처럼 꺾이는 지점이 최적의 클러스터 수를 나타내는 지점으로 해석될 수 있다.