마케팅에 데이터 사이언스를 적용하는 방법

Dec 10. 2020

파이썬을 활용한 데이터 분석이나 머신러닝 등 데이터 사이언스를 마케팅에 어떻게 적용할 수 있을까? 일반적인 데이터 사이언스가 데이터를 가지고 회사 차원의 새로운 가치 창출을 목표로 한다면 마케팅 데이터 사이언스는 데이터를 가지고 고객을 유치하고, 관계를 유지하고, 매출을 올리는 일에 좀 더 집중하는 것이라 할 수 있을 것이다.

캐글에는 마케팅과 관련한 프로젝트나 데이터셋도 올라와 있는데 이 가운데서 몇 가지 대표적인 사례를 소개하고자 한다.

1) 2020 DIGIX Advertisement CTR Prediction

모바일 광고의 클릭률(CRT)을 예측하는 알고리즘을 만드는 프로젝트이다. 사용자, 퍼블리셔, 앱 정보와 함께 임프레션, 클릭 등 기본적인 광고 정보를 제공하고 이를 바탕으로 모델링해 테스트 데이터에 있는 샘플 광고의 클릭률을 예측해야 한다.

얼마전까지 화웨이에서 진행한 데이터 경진대회의 데이터를 캐글로 옮긴 것이라고 한다.

2020 DIGIX Advertisement CTR Prediction

HUAWEI DIGIX Global Challenge Competiton A

https://kaggle.com/louischen7/2020-digix-advertisement-ctr-prediction

2) Outbrain Click Prediction

각 유저가 가장 클릭할 확률이 높은 콘텐츠는 무엇일까? 제휴 사이트에 콘텐츠(제휴 광고)를 공급하는 콘텐츠 디스커버리 플랫폼 Outbrain에서 유저가 클릭할 확률이 높은 콘텐츠를 추천해주는 알고리즘을 만들고자 한다.

페이지뷰, 클릭, 퍼블리셔 정보, 콘텐츠 정보 등의 데이터를 제공하고 유저가 클릭할 확률이 높은 콘텐츠를 추천해주는 알고리즘을 만드는 프로젝트이다.

Outbrain Click Prediction

Can you predict which recommended content each user will click?

https://kaggle.com/c/outbrain-click-prediction

3) High value Customers Identification

온라인 쇼핑몰에서 구매 금액에 따라 고객을 세분화하고 VIP 고객에게는 로열티 프로그램을 제공하고자 한다. 고객 번호, 상품코드, 단위가격, 인보이스 번호, 인보이스 날짜, 구매금액 등 약 8 종류의 1년 치 데이터를 제공하고, 클러스터링 알고리즘을 활용해 고객을 세그멘테이션 하는 것이 목표다.

UK-High value Customers Identification

A UK-based Online Retail Store

https://kaggle.com/vik2012kvs/high-value-customers-identification

4) IBM Watson Marketing Customer Value Data

IBM에서 제공한 데이터라고 하는데 자동차 보험회사의 약 24가지 종류의 고객 데이터를 제공한다. 딱히 분석 목표가 나와 있지 않지만 약 1만 여명의 고객의 고객생애가치(LTV) 데이터가 나와 있어 고객 LTV 예측 알고리즘을 만들 수 있을 것 같다. 또한, 고객을 데모와 행동 패턴에 따라 세그먼테이션하고 그에 맞는 리텐션 프로그램을 개발할 수도 있을 것이다.

IBM Watson Marketing Customer Value Data

IBM Watson Analytics

https://kaggle.com/pankajjsh06/ibm-watson-marketing-customer-value-data

실제로 나는 LTV와 각 변인들과의 상관관계를 분석한 후 연관성이 높다고 판단한 피처항목에 갓 공부한 디시전 트리, 랜덤 포레스트, XGBoost 등 세 가지 머신러닝 알고리즘을 적용해 LTV를 예측해 보았다. 결론적으로는 랜덤 포레스트(with n_estimators=50) 모델이 평균 절대오차(MAE, Mean Absolute Error)가 1,518달러로 가장 작았다. 이 회사의 고객 평균 LTV가 8,004달러임을 감안하면 약 19% 정도의 오차다.

랜덤 포레스트 모델을 적용했을 때 예측 LTV와 실제 LTV의 오차가 가장 작았다.

자세한 내용은 아래 캐글 노트북에서 볼 수 있다. 아직 파이썬 스킬이나 알고리즘에 대한 이해는 부족하지만 일단 캐글 온라인 코스에서 공부한 대로 해보았다.

https://www.kaggle.com/kyungapark/ltv-lifetime-value-prediction

LTV (Lifetime Value) Prediction

Explore and run machine learning code with Kaggle Notebooks | Using data from IBM Watson Marketing Customer Value Data

https://kaggle.com/kyungapark/ltv-lifetime-value-prediction

5) Facebook Ad Campaign

페이스북 캠페인 데이터 세트도 올라와 있는데 캠페인 ID 및 광고 ID, 이용자의 나이, 성별, 관심사, 노출, 클릭, 컨버전(전환) 등 15 종류의 데이터가 제공되어 있다. 역시 별다른 분석 목표가 나와 있지 않지만 주어진 데이터들을 활용해 캠페인의 전환(approved conversion) 여부를 로지스틱 회귀 모델로 예측하는 노트북 등이 올라와 있었다.

페이스북 광고 인사이트 API에서 가져온 데이터인 것 같은데 자사 앱이나 광고에 대한 데이터를 API로 가져올 수 있는 만큼 앞으로 이 데이터들을 사용해서 마케팅 가치를 연구해 보는 것도 재미있을 것 같다.

Facebook Ad Campaign

Simple Facebook Ad Campaign Dataset

https://kaggle.com/madislemsalu/facebook-ad-campaign

그 외에도 마케터가 마주하는 데이터에는 회사의 웹사이트 혹은 앱 데이터, 내부 CRM, 소셜 미디어 리포트 혹은 소셜 미디어에서 크롤링한 데이터, 외부 판매채널 데이터, 광고 집행 데이터 등이 있을 것이다. 이제 원석인 이들 데이터를 활용해 어떤 혹은 어떻게 가치를 만들건인가가 마케터의 고민거리이자 역량이 되지 않을까?

keyword

매거진의 이전글캐글 참여기 - (3) 결론 도출1. 파이썬은 왜 데이터 분석에 많이 쓰일까?매거진의 다음글