매일 매일 쌓이는 데이터를 어떻게 읽을 것인가?
앞서 살펴본 A/B Test의 경우 일정기간의 고객의 선호나 취향에 대한 조사를 진행해서 의사결정을 하는데 필요한 통계 분석 방법이었다고 하면, 매일 매일 고객행동이 쌓여서 시간의 흐름에 따른 시계열적 행동 데이터를 분석할 필요가 있을 때가 있습니다.
예를 들어, 온라인 마케터는 온라인에서 판매를 하거나 혹은 고객 유입추이를 모니터링하며 일자별로 어떤 활동을 했을 때 당일 매출의 평균대비 증대여부 등을 파악하고 싶어질 수 있습니다. 왜냐하면 이런 활동의 반응이 일시적인지 아니면 장기적인 효과를 만들어 낼 수 있는 것인지를 분석하고 향후 적용하는 기획을 할 때 축적된 지식으로 사용할 수 있기 때문입니다.
디지털 환경에서 고객의 행동은 유입부터 이탈까지 다양한 경로를 따라 움직입니다. 이 과정을 분석하기 위해 가장 먼저 해야 할 일은 고객의 행동 흐름을 정의하고, 그 흐름을 정량적으로 측정할 수 있는 데이터를 확보하는 것입니다. 고객이 광고를 클릭한 뒤 어떤 경로로 상품을 탐색하고, 어떤 이유로 장바구니를 포기하며, 다시 방문하게 되는지 등의 모든 이벤트를 추적하는 것이 핵심입니다.
대표적인 데이터 수집 방식으로는 이벤트 트래킹, 페이지뷰 기반 로그, 쿠키 및 세션 데이터, 사용자 식별을 위한 UTM 파라미터(URL에 붙여 캠페인 소스, 매체, 키워드, 콘텐츠 등을 파라미터로 설정함으로써 사용자의 유입 경로를 정확하게 추적할 수 있는 태그. 예: utm_source=google&utm_medium=cpc) 등이 있습니다. Google Analytics(GA4, 구글이 제공하는 웹사이트 및 앱 통합 분석 도구로, 이벤트 기반 데이터 구조를 통해 사용자 여정을 더 정밀하게 추적하고, 플랫폼 간 전환 분석도 가능한 차세대 애널리틱스), Mixpanel(사용자의 특정 행동 이벤트를 추적하여 퍼널, 리텐션, A/B 테스트 결과 등을 실시간으로 시각화해주는 고성능 분석 도구. 특히 모바일 앱 및 SaaS 플랫폼에서 널리 활용됨), Amplitude(사용자 세분화와 행동 기반 분석에 특화된 데이터 분석 플랫폼으로, 코호트 분석, 경로 분석, 전환 흐름 등을 통해 제품 개선과 사용자 유지 전략 수립에 활용) 같은 툴을 사용하면 행동 기반 데이터를 구조적으로 수집하고, 시계열 흐름이나 전환 흐름을 손쉽게 파악할 수 있습니다.
온라인 마케팅을 하시는 분들이라면 UTM코드를 사용하시거나 Google Analytics를 사용하셔야 하는건 기본입니다. 물론 무료이기도 하구요 하지만 그 이외에 다른 툴들은 비용이 발생하기 때문에 막상 사용하는데 어려움이 있기도 합니다.
우리가 원하는 것은 가능하면 무료로 저렴하지만 명확하게 분석하는 방법을 찾는 것이므로, 최대한 엑셀의 통계분석툴을 활용하는 것을 중심으로로 설명드리도록 하겠습니다.
일반적으로 쇼핑몰을 운영하신다는 가정하에, 그 쇼핑몰에 어드민을 보시면 기본적인 통계자료(유입수, 카테고리별 구매현황, 평균구매단가, 회원수 추이 등등)을 제공합니다. 그 다양한 자료가 어떻게 사용될 수있는 지를 개별적으로 모두 설명드리는 것은 어려울 수 있겠지만 대부분이 분/시간/일/주/월/연 등의 시계열을 기준으로 제공되는 변수의 추이의 변화를 제공하는 것이 일반적입니다.
그럼, 이런 시계열적 Trend를 어떻게 분석하면 좋을지가 어쩌면 통계적인 부분에서 의미가 있는 부분이고, 이 부분을 분석하는 방법을 말씀드리는 것이 중요하다고 생각되었습니다.
그럼, 어떤 데이터들을 보시고 어떤 분석방법을 사용하실 지 다음부터 고민해 보시죠.
어드민에서 얻을 수 있는 데이터는 굉장히 많은데, 이 자료를 그냥 감각적으로 살펴보는 것 만으로는 좀 부족한 부분이 있습니다. 절대적인 숫자의 차이가 통계적으로 의미있는 실질적인 차이가 아니라는 점은 앞서A/B Test를 설명드릴 때 충분히 설명드린것 같으므로 더 설명은 드리지 않겠습니다.
어드민 통계에는 너무 많은 자료가 있으므로 대표적인 제공 자료들을 중심으로 설명드리도록 하겠습니다.
(1) CRM Data
소비자의 행동을 중심으로 한 유입수, 재방분고객수, 신규유입고객수, 구매자수, 멤버쉽가입수, 현재멤버쉽수, 구매자평균 구매액, 제품별구매액, 제품별 구매갯수, 평균가격, 사이트 체류시간, 구매 Funnel자료, 멤버쉽별 평균구매, 인구통계학적 구매구분(남/여, 지역별, 연령별) 등이 CRM Data로 제공가능합니다.
하지만, 이러한 자료는 자사몰의 경우에만 CRM 데이터로 활용이 가능하고 네이버나 쿠팡 기타 다른 플랫폼을 사용할 때에는 세부적인 고객정보에 접근이 어렵도록 되어 있습니다.
네이버의 경우 개별고객의 자세한 정보를 제공하지 않고, 전체적인 관접에서의 유입수, 재방문고객수, 신규고객수, 평균구매금액, 제품별구매금액 등이 제공됩니다.
이러한 자료들의 특성은 대부분이 시계열적인 특성을 가지고 있다는 점입니다. 한 시점의 자료가 의미를 갖는다기 보다는 시간의 흐름에 따른 트렌드 분석이 중요하고 그 트렌드에 영향을 미치는 이벤트 들을 분석해 내는 것이 중요한 의미를 갖는 다고 보시면 됩니다.
간단한 고객 유입자료를 한번 보실까요?
보통 여러분이 출근하시면 보실 수 있는 데이터는 이런 형태의 것입니다. 물론 더 많은 자료를 보실 것이라고 생각됩니다만, 우리가 알고 싶은 것은 이런 형태의 자료분석을 어떻게 하는 지를 아는것이 중요한 것이므로 이런 형태의 자료 분석방법을 배우시고나면 앞으로는 이러한 형식의 어떤 자료라도 동일한 방법으로 필요하신 분석을 하실 수 있습니다.
그럼 이 자료를 한번 그래프로 볼까요?
이런 자료를 보시면 어떤 생각이 드실까요? 전체적으로는 재방문 고객이 늘어나고 있고 신규고객도 잘 들어오고 있어서 긍정적인 그래프로 보이실 것 같습니다.
이럴때는 어떤 부분이 궁금하실까요? 그렇다면 재방문 고객이 꾸준히 늘어나는 것은 신규고객이 들어왔다가 또 들어오는 반복에 의해서 진행되는 것이라면, 신규고객의 증대되는 시점에는 어떤 일이 있었던 것일까? 라는 궁금증이 생길 수 있습니다.
어떨때, 신규고객의 유입이 늘어나고 어떨때 신규고객의 유입이 줄어들까요? 여기에서 한단계 더 세부적인 조사와 그에 따른 Data가 필요합니다. (과연 그 때 어떤 일이 있었던 것일까? 라는 조사이죠 여기에서 앞서 말씀드렸던 측정과 척도를 생각해 보셔야 합니다.)
보통 신규회원이 증대되는 이유로는 프로모션이 있겠습니다. 이벤트나 광고가 포함되어 있을 수도 있겠죠. 이런 이벤트나 광고를 통해서 신규고객이 증대되고 구매금액이 늘어나는 것에 대한 실제 영향을 주고 있는지 만약에 영향을 주고 있다면 어느정도의 강도로 주고 있는지 등의 분석을 할 수 있습니다.
말씀드린대로 이런 분석의 결론은 영향이 있는가?에 그치는 것이 아니라 영향이 어느정도 미치는 지까지 분석이 되고 여러영향요인의 복합적인 부분에 대한 검토가 가능합니다. 이러한 검토를 할 수 있게 해주는 것은 회귀분석이라는 도구 입니다. 이 도구의 중요한 장점중의 하나는 미래를 추정할 수 있는 도구로서의 역할을 한다는 점입니다.
(2) Performance Data
이와 비슷한 데이터로 우리가 매일 사이트를 운영하면서 얻게되는 자료로 온라인 광고등을 집행하면서 얻게되는 퍼포먼스 데이터가 있습니다.
이 퍼포먼스 데이터는 Paid Ad의 경우에 광고 어드민에서 제공되는 경우(네이버나 구글, 메타 등)에 매일매일 연속적인 자료를 얻을 수 있고 이 자료의 트랙킹을 통해서 앞서 살펴보았던 CRM데이터와 마찬가지로 어떤 마케팅행동에 따른 종속변수의 영향을 살펴볼 수 있게 됩니다.
퍼포먼스 데이터를 받게 되면 보시게 되는 자료를 간단하게 보여드리면 다음과 같습니다.
보통은 가장 영향이 큰 Searching Ads.의 지표를 보여줍니다. 다음으로는 Display Ads.의 지표를 보통 연달아서 보여줍니다. 여기에서 PC/MO는 PC와 Mobile의 구분이 필요하기 때문에(소비자의 반응과 구매전환율의 차이가 있습니다) 구분해서 보통은 보여줍니다. 주로 최근에는 PC보다는 MO의 영향이 훨씬 크다고 생각하시면 되겠습니다.
이렇게 제공되는 일자별 자료와 더불어서 지금까지의 누적자료도 제공되지만 사실 이런 트렌드자료를 사용하기에는 일자별 자료가 가장 일반적인 자료이고, 시간별자료나 주별자료, 월별자료 등도 함께 사용이 가능합니다. 퍼포먼스 Data의 일반적인 주간단위, 일자별 자료를 보여드리도록 하겠습니다.
몰론 지금 보여드리는 이 자료들은 기본적으로 더 세분화된 세부자료와 함께 제공됩니다. 이 자료들을 디바이스별로 구분하거나, 브랜드별로구분, 광고매체별로 구분하는 등의 세분화된 자료가 제공될 수 있습니다. 하지만 분석의 방법은 대동 소이 하므로 이 부분에 대한 분석을 위한 기본 자료로서는 큰 차이가 없다는 점을 말씀 드립니다.
(3) Data분석 방법
우선, 이 각각의 트렌드 자료를 분석할 수 있는 분석방법은 상관관계분석과, 회귀분석 입니다.
상관관계분석은 2개 변수에 대한 서로간의 상관정도를 분석하는 방식이며, 회귀분석은 독립변수들의 최종 종속변수에 미치는 영향을 분석하여 최종 종속변수에 미치는 각 독립변수의 영향정도와 전체 회귀분석 모델이 설명할 수 있는 설명력을 보여 줍니다.
지금까지, 개념적으로 내용을 보여드렸으므로 이제부터는 실제 분석방법을 어떻게 사용하는지 보여드리면서 설명을 드릴 수 있도록 하겠습니다.
상관관계 분석과 회귀분석의 간략한 개요설명을 드리고 다음장 부터는 실제 분석하는 과정과 해석하는 과정에 대하여 설명드리도록 하겠습니다.
상관관계분석과 회귀분석은 변수 간의 관계를 분석하는 데 사용되는 대표적인 통계 기법이지만, 그 목적과 해석 방식에는 분명한 차이가 있습니다.
상관관계분석(Correlation Analysis)은 두 변수 간의 상호 관련성을 측정하는 데 초점을 두며, 변수 간의 인과관계를 밝히기보다는 단순한 동반된 변화를 수치화합니다. 따라서 아무 상관없는 두가지의 변수에 대해서도 높은 상관관계 계수가 나올 수 도 있는 문제가 있으니 실제 분석하는 분석자가 이 부분에 대한 관련성이 있을 만한 변수를 선택해서 진행해야 합니다.
이런 사례로, 미국에서 니콜라스 케이지가 출연한 영화의 수와 수영장 익사자 수 사이에 강한 양의 상관관계가 존재했던 시기의 사례가 있었습니다. 물론 이 둘 사이에 논리적 혹은 인과적 연관성은 전혀 없습니다 하지만 우연하게 이런 결과가 발생할 수 있고 왜곡 될 수 있음을 보여줍니다.
또 다른 예로는 미국에서 치즈 소비량과 침대에서 목숨을 잃은 사람 수 사이의 상관관계가 들 수 있는데, 이 역시 우연한 패턴일 뿐이며 이러한 사례는 제3의 변수(confounding variable) 혹은 단순한 우연에 의해 상관계수가 왜곡될 수 있다는 사실을 알려줍니다.
피어슨 상관분석(Pearson Correlation)은 가장 널리 사용되는 연속형 변수 간의 선형적 관계를 분석할 때 사용되는 회귀분석 모형이며(주로 우리는 피어슨 상관관계 분석을 활용합니다) 예를 들어 학생의 공부 시간과 시험 점수 간의 상관성을 측정할 수 있습니다.
스피어만 순위상관분석(Spearman Rank Correlation)은 비선형적이거나 순위 형태의 데이터를 다룰 때 적합하며, 예를 들어 영화 평점 순위와 박스오피스 성적 순위 간의 관계를 분석하는 데 활용됩니다(하지만 그다지 많이 사용하지는 않았습니다).
회귀분석(Regression Analysis)은 종속변수가 다른 독립변수들에 의해 어떻게 영향을 받는지를 분석하며, 인과적 해석과 예측에 초점을 둡니다.
단순선형회귀(Simple Linear Regression)분석은 2개의 변수, 독립변수와 종속변수 간의 직선적 관계를 분석하며, 예를 들어 광고비 지출이 제품 판매량에 미치는 영향을 분석할 때 사용할 수 있습니다.
이와 달리 여러 독립변수를 분석하는 다중회귀분석(Multiple Regression)은 여러변수의 종속변수에 대한 영향을 분석하고 이를 통한 미래에 대한 예측을 위해 사용됩니다.
예를 들어 주택 가격(종속변수)을 예측할 때 위치, 면적, 건축 연도 등(독립변수)의 다양한 요인이 어떻게 주택가격에 영향을 미치는 지 분석하여 각 독립변수의 계수값을 결정하고 이를 통해 각 변화한 독립변수를 통한 종속변수의 값을 예측할 수 있습니다.
마지막으로 로지스틱 회귀(Logistic Regression)분석은 종속변수가 범주형일 때 사용되며, 고객의 구매 여부(구매/비구매)를 예측하는 이진 분류 문제에서 흔히 적용됩니다.
요약하자면, 상관관계분석은 변수 간의 관련성 강도와 방향을 파악하는 데 적용하고, 회귀분석은 그 관계를 바탕으로 예측과 인과 추론을 가능하게 합니다. 두 분석 기법은 연구 목적과 데이터 특성에 따라 적절히 선택되고 조합되어, 분석자의 의사결정을 지원합니다.