brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Dec 14. 2021

분류와 군집 그리고 거리

저는 우열반이 존재하던 시절에 학창시절을 보냈습니다.

그리 풍족하지 않았던 저의 어린 시절을 돌아보면 우등반과 열등반으로 나뉘던 학교처럼 많은 부분이 분리된 삶을 살았습니다.

지금 우리 아이들의 학교에서는 부모님의 학벌도 소득 수준도 재산 정도도 조사하지 않습니다.

많은 것이 사라졌다고 하지만 우리 사회에서 특정 기준에 따라 분류하는 행위가 완전히 없어졌다고 볼 수는 없겠죠?

아이러니하게도 우리가 다루는 데이터 분석에서는 특징 또는 속성에 따른 분류와 분리, 그룹화가 매우 중요한 기법으로 쓰이고 있습니다.


분류와 군집은 의미가 명백히 다른데, 두 용어를혼동해 사용하는 경우가 의외로 많습니다.

이 두 용어를 이해하려면 데이터 분석에서 두 용어의 차이를 정확히 이해하는 것이 중요합니다.

분류는 새로운 데이터를 이미 정해진 체계(속성 또는 기준)에 따라 구분해 가장 유사한 그룹에 배치하는 것을 말합니다.

반면 군집은 체계(속성 또는 기준)가 정해지지 않은 상태에서 체계를 정립하고 새 데이터를 가장 유사한(근접한) 속성끼리 묶어 그룹을 구성하는 것이죠.


분류란 이미 설정된 체계와 규칙 또는 조건에 따라 데이터를 분리하는 것입니다.

군집은 이와는 반대로 전체 데이터를 보고 유사한 성질과 특성 또는 규칙에 따라 데이터를 묶는 작업을 의미합니다.

따라서분류는 이미 개수가 정해져 있지만, 군집은 최종 개수를 사전에 알 수없습니다.

그래서 분류는 정해진 기준을 대상에 ‘적용’해 나누는 것이고, 군집은 기준을 ‘탐사’하고 대상을 나누는 것입니다.



군집화는 개체 간 속성을 분석해 유사한 속성을 가진 개체끼리 묶는 작업입니다.

여기서 개체는 분석 대상이며, 속성은 분석 대상의 특성입니다.

그러면 이제 유사한 속성이 무엇인가란 것만 남았습니다.

유사성, 다른 말로 유사도similarity라고도 하는데, 과연 어떤 원리로 구하는 것일까요?


데이터 분석은 수학을 기반으로 한 확률이고, 수학은 수를 다루는 학문입니다.

군집화 분석을 위해 유사도를 측정해야 한다면, 유사도 역시 수로 표현돼야 할 것입니다.

무지개를 생각해 보겠습니다.

색상을 수로 표현하는 것이 데이터 분석의 기본이므로 빨강색부터 보라색까지 순차로 1에서 7까지의 수를 임의로 부여합니다.


이제 무지개 색상을 부를 때 오로지 숫자만을 말하기로 하겠습니다.

즉, 빨강은 1, 파랑은 5라 부르는 식입니다.

무지개에서 가장 중앙에 위치한 4와 가장 근접한 3과 5는 유사도가 얼마일까요?

우리는 색상을 이미 숫자로 바꿨으므로 4를 기준으로 두 수의 차이를 구하면 됩니다.

3과 4의 차이는 +1, 4와 5의 차이는 –1이죠.

추가로 4와 7의 차이는 –3, 4와 2와의 차이는 +2입니다.


오! 뭔가 조금씩 감이 오긴 하는데, +, -가 섞여 나오니 혼란스럽습니다.

그래서 부호를 절대값을 취하려고 합니다.

절대값은 무엇일까요? 

일반적으로 수가 가질 수 있는 속성 중에는 방향과 거리가 있습니다.

그래서 양수와 음수로 수를 표현하는 것은 방향을 나타냅니다.

+3은 정방향으로 3칸, -3은 역방향으로 3칸 떨어진 것이죠.

즉, 0을 기준으로 정방향이든 역방향이든 모두 3칸 떨어졌단 의미입니다.

이 방향성을 뺀 값을 ‘거리’라 하고, 그 값을 절대값이라고 부릅니다.

거리란 개념을 이용해 무지개의 색상 간 거리를 표로 정리하면 다음과 같습니다.


색상을 숫자로 표현해 거리를 확인해 보니 빨간색과 보라색의 거리가 가장 멀죠.

무지개의 색을 ‘빨주노초파남보’라고 부를 때 빨간색이 처음이고 보라색이 마지막인데, 숫자로도 그 거리를 계산할 수 있음을 확인했습니다.


그러면 거리는 군집과 어떤 관계가 있을까요?

앞부분에서 유사도를 언급했는데, 바로 이 유사도를 측정할 때 거리가 가장 훌륭한 조력자가 됩니다.

지구 온난화로 무지개에 새로운 색이 포함됐다고 가정해 보겠습니다.

새로운 색상의 숫자는 4.5입니다.

4.5를 무지개 색에 대입해 보니 4와 5에서 거리가 0.5입니다.

그러므로 새로운 색상 4.5는 4와 5 사이에 추가합니다.


이렇듯 거리는 데이터의 속성을 파악해 분류하고 군집하는 유사도 측정에 가장 많이 활용하는 기법입니다.

거리를 계산하고 인접한 거리로 묶어주는 것이 군집화의 가장 기본 원리죠.

매거진의 이전글 크루스칼-왈리스 검정 2
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari