brunch

You can make anything
by writing

C.S.Lewis

by 경민 Oct 11. 2023

분류 분석, 무엇을 선택할까

분석가의 일


들어가면서


사느냐, 죽느냐 그것이 문제로다. - 셰익스피어


비즈니스에서 예측만큼 중요한 것이 의사결정 문제라고 볼 수 있습니다. 의사결정에서도 특히 중요한 것 중 하나가 분류를 하는 것입니다. 예를 들면, 명품 업체에서 고객에게 판매하는 제품의 진품과 가품을 구별하는 일이나, 또는 특정 고객이 우리에게 가치있는 고객인지 아니면 체리피커인지 구분하는 것 등이 대표적입니다.


비즈니스 분석 및 머신러닝에서 이것을 분류 Classification 문제라고 말한다. 혹 데이터 분석 경진대회인 캐글 튜토리얼을 경험한 사람이라면, '타이타닉의 생존자 구별' 문제를 봤을 것이다. 이런 구별 문제가 바로 분류 문제다. 기존의 데이터를 통해서 패턴을 발견하거나, 그룹화를 통해서 새로운 데이터에 대해 판별하는 것이다.



분류 분석은

대부분 머신러닝을 통해 진행된다


최근 이 문제는 비즈니스 분석가에게 매우 중요한 업무로 자리잡고 있습니다. 앞서 말한 것처럼 한정된 자원을 어디에 투입할 것인가에 대한 문제, 또한 한정된 자원이 남용되지 않도록 하는 문제 때문입니다. 여기에 분류 분석의 기본 방식이 머신러닝을 기반으로 이루어진다는 점 때문에 분석가의 역할이 되고 있습니다.


많은 공수가 들어가는 이유는 분류 분석이 보통 지도 학습(Supervised Learning)으로 이루어진다는 점이다. 지도 학습은 간단하게 설명하면, 문제와 정답지가 있는 교재로 학습을 한 다음, 이를 토대로 정답지가 없는 문제들을 풀어나가는 방식이다. 이때 정답지를 보통 레이블을 단다고 표현하는데, 이 작업이 적지 않은 공수가 들어간다. 자금력이 좋은 회사라면 이런 'AI 시대의 인형 눈 붙이기' 작업을 외부에 맡기기도 하지만, 작은 규모의 데이터 조직에서는 어느 정도 분석팀이 직접 하기도 한다.


앞서 언급한 예측 분석과 차이를 조금 구분하면, 결과값이 연속형 속성인가 범주형 속성 인가로 구분할 수 있다. 연속형 속성은 특성에 따라 범주로 구분하여 측정된 자료로 이탈 여부(이탈이냐 아니냐), 신용 평가(부적격/위험/안전)가 대표적이다. 반면 연속형은 수치적인 의미가 있는 것으로 거래액, 가입자 수 등과 같은 것이 대표적이다. 분류 분석은 범주형 속성을 결과값으로 가져오게 된다.




정상이 아닌 것 같은데?

사기, 결함을 감지한다


실제 비즈니스에서 운영 Operation 업무의 중요성과 난이도는 매우 높습니다. 아무리 뛰어난 기획자가 촘촘한 그물을 만들어도, 그 그물을 삐집고 이런저런 이슈들이 튀어나옵니다. 대표적인 것이, 사용자가 미묘한 허점을 파고 들어서 부정행위를 저지르는 것입니다. 대표적으로 아래와 같은 것들이 있습니다.


허위 매출을 발생시키고 카드사로부터 판매 대금을 지급받는 경우

소셜 미디어에서 진짜 팔로워가 아닌, 구매한 팔로워가 대부분인 인플루언서를 구분하는 경우

배송 지연이 발생했을 때, 교통체증 등 어쩔 수 없는 상황인지 기사님의 태만인지 구분하는 경우

서비스 내 회원탈퇴는 없지만, 실질적인 이탈인지 구분하는 경우

서비스에 가입한 회원이 실제 서비스 이용목적이 있는 사람인지 아니면 어뷰징성 계정인지 구분하는 경우


이처럼 모든 운영 업무에서는 진짜와 가짜를 구분하는 문제가 발생합니다. 만약 어떤 것이 허위거래인지, 어떤 인플루언서가 '진짜' 팔로워를 보유한 인플루언서인지 등을 구분할 수 있다면, 그것만으로도 비즈니스의 의사결정의 질은 한 단계 높아진다고 볼 수 있습니다.



고객을 어떻게 구별할 것인가?

RFM분석, 이탈 예측


또한 고객을 세그먼트를 구별할 때도 이런 분류 분석이 활용됩니다. 고객 행동을 분석하는 데 효과적인 방법 중 하나는 RFM 분석입니다. RFM은 최신성(Recency), 빈도(Frequency), 금전적 가치(Monetary value)를 의미합니다. 


RFM은 크게 2가지 측면에서 활용됩니다. 하나는 RFM의 기준이 높은 고객과 낮은 고객을 구분해서, RFM이 높은 고객의 특성을 파악해보는 것입니다. 예를 들어서, 특성이 유사한 고객군 중 RFM이 높은 고객은 어떤 상품을, 어떤 주기로 주로 구매하는지 등을 파악합니다. 그리고 RFM이 낮은 고객이 그와 비슷한 구매 액션이 나올 수 있도록, CRM 활동을 통해서 구매를 유도하게 됩니다. 


또 다른 측면은 비정상적인 거래를 감지하는 것입니다. 예를 들어서, RFM이 비정상적으로 튀는 경우가 간혹 생깁니다. 예전에 마케팅 SAAS에 대한 지표를 볼 때, 특정 고객이 다른 사용자보다 지나치게 데이터 다운로드 수가 많다는 것을 확인했고, 이를 토대로 계정 공유 내역을 발견했던 적이 있습니다. 이처럼 RFM 수치가 특이한 수준일 때, 이를 발견할 수 있습니다.


더 나아가 이탈 분석에도 활용할 수 있습니다. 고객 이탈은 많은 기업에게 큰 문제입니다. 분류 분석을 사용하여 어떤 고객이 이탈할 가능성이 높은지 예측할 수 있으며, 사전에 대응하여 이탈을 방지할 수 있습니다. 이탈한 고객과 유사한 특징이 있는 고객의 행동을 감지해서, 이탈을 하기 전에 미리 다른 액션을 취해서 이탈을 방지할 수 있습니다.




끝으로


분류 문제는 운영상 겪는 어려움을 해소해 주는 측면도 있지만, 장기적으로 데이터의 무결성을 높이는 것에도 필요합니다. 예를 들어보면, 다음 분기 회원가입 예측치를 산출한다고 가정해 보자. 만약 어뷰징 가입자가 최근에 많이 늘어난 것을 감지하지 못한다면, 우리는 시계열상 상승세에 있다고 판단하고 잘못된 예측치를 산출하게 됩니다. 이처럼 예측 분석을 포함한 다른 분석에 활용하기 위해서라도, 우리는 데이터에 가비지가 최대한 없도록 해야 한다. 분류 분석이 이런 것에서 활용될 수 있습니다.


이런 이유에서 분류 분석 문제는 비즈니스 분석가가 꼭 해야하는 중요한 업무가 되어가고 있습니다. 분류 분석을 통해서, 데이터의 홍수에서 진짜 가치있는 고객 정보, 운영 정보를 뽑아내는 것이 필요할 것입니다.

이전 12화 예측 분석, 틀려도 해야 하는 이유
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari