상관계수분석과 가설 수립 - 검증
바야흐로 데이터의 시대입니다. Mixpanel, Amplitude, GA4 등 데이터 분석툴은 이제 마케터와 기획자, PM 등 다양한 직군에게 꼭 필요한 솔루션으로 자리 잡았죠.
그러나 뚜렷한 목적 없이 방문하면, 데이터의 홍수 속에 금방 길을 잃어버리곤 합니다. 활용할 수 있는 데이터는 많은데, 이를 어떻게 조합해서 어떤 전략을 수립해야 하는지 감을 잡기 어렵다고 할까요.
그래서 데이터 분석 솔루션을 사용할 때, 즉각적으로 인사이트를 얻기 위한 방법을 소개하고자 합니다. GPT를 활용하여 각 인자 간의 상관계수를 출력하고, 가설을 세우고, 검증하는 방법이죠.
사실, 아이보스의 우뇌님이 소개해주신 아티클처럼 상관관계를 보고 즉각적으로 인사이트를 얻으면 좋겠지만 ①정말 높은 숙련도를 요구하고, ②상관관계는 인과관계가 아니기 때문에 저는 직접 가설을 수립하고 검증하는 방법으로 진행했습니다.
따라서 대다수의 상관계수가 0.6 이상으로 높게 나오거나, 즉시 인사이트를 도출할 수 있다면 가설 검증 - 수립 단계를 생략해도 무관합니다.
GPT에 넣어서, 상관계수를 출력할 수 있는 Raw Data를 준비해 주세요. 기간은 많으면 많을수록 데이터 정합성이 높아집니다. 3개월 미만의 데이터는 거의 신뢰하기 어려운 수준이므로, 되도록이면 지양해 주세요(예제 파일에서는 250일 내외의 데이터를 취합하였습니다).
행(row) : 일별 데이터 - 최소 3개월 이상 / 권장 1년 내외
열(column) : Business Goal과 관련 있는 모든 항목
이때, 열의 항목은 'Organic 유입량', '홈페이지 사용자 수', '옵션 상품의 판매량' 등 본인이 생각하기에 비즈니스 목표와 직접적으로 관련이 있다고 여기는 항목을 모두 넣어주세요. 정확하지 않아도 괜찮습니다. 어차피 가설을 수립하고, 검증할 거니까요.
GPT-4o 이상 버전으로 '파일 첨부' 기능이 활성화되었다면, 해당 raw data를 그대로 집어넣고 아래의 프롬프트를 작성해 주세요.
첨부파일은 ~기간~의 홈페이지 방문 및 구매 데이터다.
각 요인의 상관계수를 한눈에 확인할 수 있도록 엑셀 파일을 생성하라
(다른 내용은 그다지 중요하지 않고, "상관계수"와 "엑셀 파일을 생성하라"는 프롬프트가 중요합니다.)
GPT가 생성해 준 파일을 열면, 이런 표가 생성되었음을 확인할 수 있습니다. 뭔가 복잡하죠? 하나씩 살펴보겠습니다.
▲ "예약건수(B1)"의 증감값은, "N구매(A4)"의 증감값과 36.4% 비슷하게 움직입니다.
▲ "예약건수(B1)"의 증감값은, "홈페이지 구매(A5)"의 증감값과 61.9% 비슷하게 움직입니다.
상관계수는 "두 인자의 상관성(관계)이 얼마나 깊은지"를 나타냅니다. 1에 가까울수록 관계가 깊다는 뜻인데, 보통 0.5 이상일 경우 높은 연관성을 가지고 있습니다(저희 서비스는 오프라인 기반이어서, 온라인 전환이 불가능해 R-결정계수가 매우 낮게 나타납니다).
예를 들어 볼까요?
자사의 서비스에는 "루세떼"라는 옵션 상품이 있습니다. 꽤 객단가가 높은 제품이기 때문에 조직 내에서 판매량을 지속적으로 모니터링하고 있는데요.
고객이 서비스를 이용하는 방법은 ①네이버에서 구매하거나, ②홈페이지에서 구매하거나 두 가지 방법뿐입니다.
옵션 구매수 x 네이버 구매수 = 상관계수 -0.05(관계없음)
옵션 구매수 x 홈페이지 구매수 = 상관계수 0.31(약한 관계)
홈페이지와 네이버 모두 이용하는 서비스는 동일한데, 옵션 상품의 구매량은 네이버 구매수와 관련이 없다고 나오니 이상하죠?
이런 특이사항을 발견하면, 이를 바탕으로 모든 인사이트에 대해 가설을 수립합니다. 예를 들어, 자사의 네이버 매체는 "네이버 플레이스"를 의미하는데, 플레이스의 구좌 제한으로 인해 홈페이지와 상이한 분량의 정보를 전달하는 상황이었어요.
즉, 홈페이지에 방문하는 고객과 네이버 플레이스에 방문하는 고객에게 "루세떼"라는 옵션 상품의 정보량이 다르게 제공되고 있습니다.
이런 상황을 고려하여, "네이버 플레이스에 '루세떼(옵션 상품)' 정보를 노출하면, 네이버 구매고객의 옵션상품 선택률이 높아질 것이다"라는 가설을 수립할 수 있었어요.
이런 방식으로, 각각의 상관계수를 살펴보며 다양한 가설을 수립합니다. 이 가설이 허무맹랑하고, 가능성이 없다고 생각해도 괜찮아요. 어차피 검증할 거니까요.
검증은 '참/거짓'으로 검증하면 되기에, 비교적 수월하게 진행할 수 있습니다. GA4 등 Third-party 데이터를 활용해도 좋고, 자사몰의 admin 데이터를 활용해도 좋아요.
위의 예시 이미지와 같이, GA4 탐색경로분석으로 가설을 검증했더니 하나의 명제에서만 '참'이 나올 수도 있습니다. 홈페이지 UV(평균) / Google 유입고객 / Naver 유입고객 세 가지 매체를 놓고 비교했더니, 유난히 구글 검색광고로 유입되는 고객이 '비용' 페이지에 먼저 접속한다는 특이사항을 찾을 수 있었어요.
앞서 예시를 들었던 '루세떼(옵션 상품)'도 실제로 홈페이지 예약자의 구매율이 훨씬 높게 나타났습니다.
검증이 종료될 때마다, 수립했던 가설이 참인지 거짓인지 명시해 주세요. 이 단계에서 상관계수(결정계수)의 정합성은 판단하지 않습니다. 상관계수가 아닌, 다른 솔루션과 admin을 통해 검증했기 때문이에요.
단, 상관계수를 통해 해당 가설 - 전략을 수립함에 있어 우선순위를 설정해야 합니다. 상관계수가 높게 나왔다는 것은 우리의 Business goal에 직접적인 영향을 미칠 가능성이 높은 상태이므로, 웬만하면 상관계수가 높았던 가설부터 액션 플랜을 수립하는 편이 좋습니다.
위의 가설 검증 단계에서 "네이버 구매 고객의 '루세떼(옵션 상품)' 구매율이 낮다."는 명제가 참으로 밝혀졌습니다. 이를 개선하기 위해 네이버 플레이스에서 옵션 상품의 정보를 전달할 수 있는 시안을 리스트업 했고, '소식'탭의 공지사항을 이용해 주목도를 높이도록 적용한 예시입니다.
해당 플랜을 적용한 뒤, 실제로 눈에 띄게 성장한 수준은 아니지만 네이버 구매자의 옵션 상품 구매율이 소폭 상승하기도 했어요(물론, 측정 기간이 짧아 단순한 우연일 수도 있습니다). 막막했던 GA4 분석에서 쉽게 방향을 찾고, 전략을 수립한다는 게 재미있었습니다.
사실 이런 번거로운 과정 없이, 그냥 "네이버 플레이스에 옵션 상품 정보를 노출합시다"라는 의견 제시를 진행할 수도 있어요. 그러나 상관계수를 통한 가설수립은 번거로운 만큼 장점 또한 뚜렷합니다.
① 의견/주장에 힘을 실을 수 있습니다.
백데이터 없이 "~~ 합시다"라는 의견과, 데이터를 통해 추론한 주장은 말의 무게가 사뭇 다르게 느껴집니다.
만약 위 예시에서 단순히 '옵션 상품의 노출'을 목표로 이야기했다면 '그저 좋은 아이디어'라는 평을 받았을 거예요. 하지만 데이터를 통해 추론함으로써, 설득력 있는 주장과 전략으로 탈바꿈하는 효과가 있었습니다.
② 가설을 도출하는 시간을 절약합니다.
무수한 데이터를 펼쳐놓고 이것저것 조합하는 것보다, GPT를 활용해 상관계수의 특이점을 발견함으로써 핵심적인 차이점을 발견하는 데 유리합니다. 소위 말하는 '멍 때리는' 시간을 줄여줄 수 있어요.
비록 위 상관계수-가설-검증 과정에서 GPT의 역할은 30%, 사람의 리소스가 70% 가까이 필요한 일이지만... 만약 기획/마케팅 쪽에 몸담고 있다면 한 번쯤 시도해 보는 것을 권장합니다. 평소 생각지 못했던 인사이트를 습득하여 더욱 성장할 수 있는 계기가 되길 바래봅니다 :)