brunch

You can make anything
by writing

C.S.Lewis

by 남성준 Jul 22. 2016

머신러닝, 고객 재활성화 예측 사례

85% 고객이 동면상태이다. 활동 고객에 집중 전략

한 온라인 증권사의 고민이다. 85% 고객이 전혀 주식 거래가 없다. 주식을 사고팔지 않으니 수수료 수익도 전혀 없다. 이들 고객 중 일부만 활성 고객으로 만들 수만 있으면 매출과 수익에 큰 도움이 될 것이다. 그러나 한정된 예산으로 모든 고객에게 마케팅 역량을 쏟아부을 수는 없다. 어떻게 하면 가장 활성 고객이 될 확률이 큰 고객군을 찾아낼 수 있을까? 이들에게 집중하여 고객 재활성화 마케팅을 할 수 있을 것이다. 이번 글에서 머신러닝을 활용한 케이스 스터디를 살펴보고자 한다.


아래의 그래프는 고객의 총 자산 가치를 나타낸 분포(히스토그램)이다. 총 자산가치에 로그 함수를 적용하였다. 그렇지 않으면 너무 큰  숫자에 압도되어 그래프가 거의 0에 가깝게 L자로 나온다. 로그 함수는 큰 숫자는 작게 작은 숫자는 키워 비교가 쉽게 만든다. 붉은색은 비활동 고객, 녹색은 활동 고객이다. 자산 가치가 높을수록 활동 고객이 많지만 중간에 활동 고객과 비활동 고객 사이의 중첩 부분이 상당하다. 이 중첩 부분은 고객 자산 가치로는 누가 활동 고객일지 비활동 고객일지 예측이 매우 힘들다. 그리고 상위 자산 고객에서도 상당수 고객이 전혀 거래가 없는 비활동 고객이다. 이런 동면 고객 중에 활동 고객이 될 가능성이 큰 고객을 예측하는 머신 러닝 알로리즘을 적용하였다.


활동 비활동 고객의 고객 자산 가치 (로그 함수 적용)

아래 그래프는 박스 그래프로 얼마나 머신러닝으로 예측이 잘 되었는지를 나타낸다. Y 축은 활동 고객이 될 확률을 나타내고 X축은 실제 활동 비활동 고객인지를 나타낸다. 실제 활동 고객은 예측치 중간값이 60%에 달하고 비활동 고객은 예측치가 0%에 가깝다.

머신 러닝을 활용한 고객 재활성화 예측 결과

머신러닝을 활용한 활동 고객 예측 확률과 고객 자산 가치를 2차원 평면에 나타내면 다음과 같다. 그래프에서 보듯이 그래프가 상하 좌우 퍼져있다. 즉 같은 자산을 가진 고객일지라도 활동 고객 확률이 크게 다를 수 있으며 이를 머신러닝이 예측해 내고 있다. y축 값이 높아질수록 파락색 비율이 더 많아 짐을 볼 수 있는데 이는 예측이 잘 된다는 의미이다.

고객 순자산, 활성고객예측치 및 실제활성 고객 비교 (머신러닝)


기존의 일반적인 통계 모델 (로지스틱 회귀분석)로 같은 데이터를 예측해 보았는데 성능이 이에 훨씬 못 미쳤다. 이유는 기존 통계 모델은 모델이 선형 모델을 상당 부분 가정하고 있는데 고객 재활성화는 선형 모델이 한계가 많기 때문이다. 고객 자산이 많더라도 나이가 많거나 여성이면 매일 주식 거래를 하기 힘들 것이다. 반대로 남자이고 상대적으로 젊으면 주식 거래를 할 에너지와 관심이 더 많을 수 있다. 주식 거래할 확률이 꼭 나이에 따라 비례적으로 또는 자산 가치에 따라 비례하지 않기 때문에 비선형적인 영향이 많고 그런 케이스에는 전통적인 통계 모델이 잘 맞지 않는다.

일봔  통계 모델 (로지스틱 회귀분석)을 활용한 고객 재활성화 예측

일반 통계 모델을 활용한 활동 고객 예측 확률과 고객 자산 가치를 2차원 평면에 나타내면 다음과 같다. y축 값이 높아질수록 파락색 비율이 더 많아지기는 하지만 그 차이가 앞의 그래프에 비해 훨씬 그 정도가 작다. 이는 예측이 잘 안된다는 의미이다. 

고객 순자산, 활성고객예측치 및 실제활성 고객 비교 (일반 통계 로지스틱 모델)

그럼 기존 통계 모델에 비선형성을 잘 모델하면 예측 성능이 좋아질까? 답은 그렇다. 입력단에 들어가는 데이터를 비선형 함수로 가공처리했더니 아래와 같이 예측 성능이 훨씬 좋아졌다. 문제는 이런 비선형적인 특성이 데이터마다 다르고 기존 통계 모델은 사람이 일일이 여러가지 비선형적 모델을 테스트해보아야 한다는 점이다. 

고객순자산과 활성고객확률 비교 (일반 통계 로지스틱 모델 + 비선형성 모델링)



최근 마케팅에 활용되는 소셜 미디어, 고객과의 서비스 센터 대화 기록 같은 비정형 데이터들은 과거에 비해 훨씬 다양하며 비선형적 특성을 가져 일반 통계 모델을 적용하기가 갈수록 한계를 가지게 되었다. 머신러닝은 이런 변화무쌍한 데이터들을 컴퓨터가 알아서 비선형적으로 잘 모델링을 하기에 실제 마케팅에 적용시 그 정확도가 높아 실전 활용가능성이 높다. 


이제 어떤 고객이 다시 활성 고객이 될지 예측이 되면 이제 상위 예측 확률을 가진 고객을 뽑아내야 한다. 아래는 예측치의 분포도이다. 대부분 고객은 활성 확률이 0에 가깝다. 오른쪽에 위치한 고객들에 한정하여 이들에게 주식 거래를 활성화할 마케팅 전략을 짜서 실행하면 큰 예산이 들이지 않고도 매출과 수익을 높일 수 있을 것이다.

활동 고객이 될 확률 분포

넘버애널리틱스 (Number Analytics LLC), 문의 이메일: korea@numberanalytics.com

홈페이지: https://www.numberanalytics.com



작가의 이전글 최저임금: 월마트 vs 한국 자영업

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari