brunch

You can make anything
by writing

C.S.Lewis

by Peter Dec 21. 2021

군집분석(Clustering)부터 분류까지

정확한 분류를 위해 군집을 다시 정의해보자

'데이터를 활용하는 조직' 혹은 '디지털 트랜스포메이션'... 어떤 단어든 대부분의 조직에서 지향하는 바는 판단의 기준이 사람 몇 명이 아닌 컴퓨터가 하도록 만든다는 것일 겁니다. 사람의 판단이 주는 명확한 이점이 과거에는 있었지만 시간이 지날수록 정보의 복잡성과 다른 패턴들의 발견은 사람의 경험과 판단이라는 것의 효용을 줄어들게 만들었습니다. 데이터는 이 시기에 모든 로그가 데이터로 적재되는 산업이 확장하면서 생긴 당연한 변화입니다. 감이 아닌 데이터를 말로만 하는 조직도 코로나 이후 하는 수 없이 돈을 쓰면서 데이터로 일하는 데 더 많은 관심을 갖게 되었습니다.



그런데 경험은 여전히 무섭습니다. 경험이 데이터를 활용하는 방식조차 엉망으로 만드는 일이 잦기 때문입니다. 데이터를 통해 판단한다고 하지만 알게 모르게 사람의 생각이 깊이 관여된 로직을 검증과 피드백 없이 만들고 마치 데이터가 이런 결과를 판단한다고 말하는 사람, 믿는 조직이 적지 않은 걸 쉽게 발견할 수 있습니다.



대표적인 것이 분류(Classification)와 군집(Clustering)입니다. Raw-data에 라벨(Label)이 이미 달려있는 것을 지도 학습(라벨과 개체의 과거 데이터를 학습시켜서 새로운 개체를 넣었을 때 과거 학습 결과에 따라 어떤 라벨을 붙여야 하는지 확률을 알려주는 방식) 시켜서 특정 라벨이라고 알려주는 분류와 Raw-data에 라벨이 없이 개체의 속성에 따라 컴퓨터가 비지도 학습을 통해 일정한 묶음으로 나눠주는 군집 분석은 데이터가 판단하게 하는 일하는 방식을 처음 도입할 때 많이 찾는 과제입니다. 이미 있는 데이터를 어떻게 구분할 것인가에 대한 기준을 정하는 것이죠. 제품의 카테고리를 정하는 것이나 초기 고객 분석에서 고객을 어떻게 몇 개의 세그먼트로 구분할 것인지 등이 데이터로 처음 뭔가 만들어 보려는 조직에서 많이 하는 과제입니다. 과거에 몇 년 혹은 몇십 년간 고민 없이 하던 대로 분류하던 것을 이제 컴퓨터로 해 보자는 것이죠. 




그중에서도 군집은 라벨이 있는 데이터를 갖고 있지 못한 대부분의 조직에서 초기에 활용하는 분석 과제입니다. 군집의 기준은 기존 일하는 방식에서 관점의 전복을 의미합니다. 익숙한 기획과 실행, 피드백의 고리를 재배열해서 전혀 다른 관리 포인트를 만들겠다는 것이죠. 2000CC 자동차를 중형으로 분류하는 것, 평일 점심 전후로 구매금액이 높은 고객들을 하나의 세그먼트로 만드는 것 등을 부정하고 다른 기준으로 다른 분류 체계를 만드는 것은 자동차 생산 라인업과 관리 조직의 재조직화를, 마케팅 예산 집행 방식과 고객 접점에서의 콘텐츠를 전혀 다르게 만들어야 함을 의미하며 초기에 관성을 이기기 위한 조직 안팎의 많은 저항과 만날 수밖에 없습니다.




그럼에도 불구하고 군집을 통해 데이터를 바라보는 것은 아주 소중한 첫걸음입니다. 기업에서 기존 데이터에 설령 라벨이 있다고 해도 그 자체를 다시 정의해야 하는 필요가 있습니다. 군집 분석을 통해 있는 라벨을 사용하지 않고 라벨의 기준 자체를 처음부터 정할 수 있습니다. 기존 라벨 자체에 대한 타당성을 검증하지 않으면 분류 모델을 활용할 때 잘못된 학습을 통해 데이터를 흘려보내도 잘못된 결과만 쏟아낼 수밖에 없기 때문이죠. 유통점에서 MD를 할 때 같은 고객군이 구매할 브랜드를 일정한 장소에 모아두는 것으로 점포 배치를 했을 때 그 점포를 몇 개의 구역으로 분류하는 기준 자체가 고객의 구분 기준과는 다를 수 있는 것이죠. 주방 가전과 생활 가전의 경계가 실제로는 모호하다거나 미취학 어린이 옷과 취학 어린이가 아동복을 구분하는 기준이 아닐 수 있으니까요.




사람의 연역적 사고에서 아직 벗어나지 않은 조직은 여전히 라벨 자체를 사람이 기존 관념대로 만들고 있습니다. 그것도 학습을 위해 많은 비용을 들여가면서 말이죠. 그렇게 만든 정보가 알려주는 집계한 숫자의 기준과 각 KPI의 단기간 미래의 예측 값이 정말 의미가 있을지는 사실 아무도 검증할 수 없습니다. 연속적인 세상에서 인위적으로 범주로 만들 때는 주기적인 검증 프로세스를 거쳐야 하지만 때로는 설득하기 쉽다는 이유로 필터 하나 없이 조직 하나를 통과해 가기도 합니다. 알았지만 몰랐던 무서운 일이죠.


    

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari