데이터로 문제 해결하기
상품을 구매한 후 취소율을 낮추기 위해서는 먼저 어떤 상황에서 취소율이 높아지는지에 대한 파악이 필요합니다.
본 포스트에서는 취소율이 높아지는 요인을 파악하기 위한 데이터 분석을 시행하였습니다. 분석 대상으로는 '홈쇼핑 데이터'를 이용하였습니다. 다양한 방면에서 데이터를 분석해 볼 수 있지만 이번에는 시계열 데이터를 중심으로 분석을 진행해 보았습니다.
시계열 데이터는 일정한 간격으로 시간에 따라 관측, 수집된 데이터를 뜻합니다. 시계열 모델 개발이 아니라 탐험적 분석(EDA) 또는 의사결정을 위한 실무적 관점에서 시계열 데이터를 분석하는 주요 목표는 날짜 변수에 내재된 주기적 특성이 매출과 같은 다른 주요 변수에 어떠한 영향을 주었는지 이해하는 것입니다.
EDA 관점에서 날짜(시간) 데이터와 목표 변수 간의 관계를 살펴볼 때 고려할 사항은 아래와 같습니다.
- 추세(Trend): 시간(분기, 월, 날짜)의 흐름에 따라 상승, 하강하는 경향성
- 주기적/순환적 특성(Cyclic Pattern): 시간대, 요일, 주, 월, 분기/계절에 따른 패턴이 매 사이클마다 반복해서 나타나는 경향
간단하게 오늘 다루어 볼 시계열 데이터란 무엇인지에 대한 설명을 해 드렸습니다.
이제 분석을 진행해 볼까요? 오늘 분석의 주 질문은 '어떤 주기적 특성이 취소율에 영향을 주는가?'이며, 분석에 사용된 툴은 HEARTCOUNT입니다.
• 데이터셋은 제품이 판매된 날짜와 시간, 해당 상품의 취소율 등으로 아래처럼 구성
• KPI는 '상품 취소율' 변수로 설정
• 하트카운트는 EDA 및 자동 분석의 결과를 풍부하고 쓸모있게 하기 위해 원시 변수에서 파생 변수를 자동으로 생성
• 날짜 변수의 경우, 아래 그림처럼 분기 별/월 별/주 별/요인 별/요일 유형(주중, 주말), 시간대 별 주기 변수를 자동으로 생성하여 시각화 및 필터링에 사용 가능
•아래 이미지는 자동 생성된 시간 별 주기 파생변수로 특정 상품의 시간대 별 취소율을 시각화한 것
•KPI로 설정한 '상품 취소율'에 대한 요인 분석 진행
•'판매 일시 - 월 별 주기'를 클릭하여, KPI에 구체적으로 어떤 영향을 주었는지 시각화
▶︎ R2 값을 통해서 '상품 취소율'에 대한 나머지 변수들의 설명력 파악하여 변수 간 관계 확인 가능
▶︎ 분석 결과가 우연일 확률을 나타내는 P-Value 값을 통해서 정확도 검토
(일반적으로, P-Value값이 0.05 이하이면 통계적으로 유의미하다고 판단)
▶︎ 시각화 결과를 보니, 여름과 겨울 시즌에 상품 취소율이 유독 상승하는 것을 확인
▶︎ 추가 분석을 통해 여름과 겨울에 취소율을 높인 상품을 발견하여 판매 시기를 조정하는 등 해결 방안 모색 가능
이 결과는 분석에 사용한 데이터셋의 결과라는 점을 고려해 주세요. 자사에 쌓인 데이터를 이용해서 취소율을 다방면에서 분석해 보고 원인을 발견하는 것이 중요합니다. 본 포스팅은 어떤 데이터셋을 가지고 어떤 분석을 진행해 볼 수 있는지를 보여드리는 예시라고 아시면 됩니다.
더 많은 데이터 분석 사례를 보고 싶으시다면 하트카운트 서포트 페이지에서 확인 가능합니다. :-)
실무자를 위한 데이터 자동 분석 솔루션, 하트카운트
지금 사용해보기
하트카운트 뉴스레터 구독하기는 여기를 클릭해주세요.
하트카운트 도입/구축/협업 문의는 여기를 클릭해주세요.
여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로'에 참여하세요.