brunch

You can make anything
by writing

C.S.Lewis

by Gray Lee Aug 29. 2021

어떻게 볼 것인가? 데이터 리터러시와 분석사고력 기르기

데이터 리터러시와 구글 애널리틱스



데이터에서 '무엇을 볼 것인가'에 대한 해답 만큼 중요한 것이 데이터를 '어떻게 볼 것인가' 이다. 데이터를 분석하기 위해서는 비판적 사고와 논리적 사고가 필수적으로 동반되어야 하는데, 이는 단시간에 형성되지 않으며 지속적으로 꾸준한 훈련을 통해서만 가능하다.


이번 시간에는 분석 사고력이 뒷받침 되지 않을 때 흔히 하는 대표적인 실수 4가지를 사레를 통해서 알아보고자 한다. 모두 실제 사례로 데이터 분석에서 범할 수 있는 오류를 가장 잘 표현한다고 생각해 준비했다.





사례 1. 비율의 함정


한 컨설팅 업체에서 진행한 유튜브 동영상 캠페인 결과 보고서에 조회율 100% 라는 숫자가 자랑스럽게 보고된 적이 있다. 믿기지 않는 100% 조회율이라는 보고서의 실체는 사용자 모수가 5명인 동영상 노출이 기준이었기 때문이다. 그리고 그 5명이라는 숫자는 내부 직원이었을 확률이 매우 높은 상황이다. 해당 업체가 이것을 모르고 사용한 것인지 의도적으로 사용한 것인지는 알 수 없었으나, 검토 하나 없이 말도 안 되는 결과를 부각시켜 보고했다는 것 자체가 놀랄 만한 사실이었다.


조회율 뿐만 아니라 디지털 마케팅에서는 전환율이라는 지표에 굉장히 집중하게 되는데, 마케팅 채널의 성과를 전환율 기준으로만 판단한다면 이와 같은 비율의 함정에 빠질 우려가 있다.





보는 것 처럼 아무리 전환율이 높은 채널이라 하더라도 유입 사용자 모수가 극히 작다면 채널의 성과 기준이 무의미하기 때문이다. 비율 데이터를 확인할 때는 그 절대적 숫자도 함께 확인하는 습관을 기르는 것이 좋다.





사례 2. 해석의 함정


한 브랜드의 상품개발팀에서 객단가 상승을 통한 매출 증대와 상품관리의 용이함을 이유로 2가지 상품을 통합시키자는 의견을 제시했다. 그리고 다음과 같은 데이터가 함께 기재되어 있었다.





"A 상품 구매자 중 B 상품 구매자는 55%, B 상품 구매자 중 A 상품 구매자는 50% 입니다. 과반 수 이상이 두 상품의 복수 구매자이므로 두 상품을 통합시키는 것이 소비자 편익과 매출 증대에 도움이 될 것이라 판단됩니다."


언뜻 보기에 큰 문제가 없어 보이는 이 보고서에는 무슨 함정이 숨어 있을까? 여기서는 두 가지 해석의 오류가 있으며 그 중 첫 번째는 다음과 같다.





제시된 비율이 각각 55%, 50% 이기에 전체에서도 복수 구매자가 과반수를 차지하는 것처럼 보이지만 실제로는 그렇지 않다. 두 상품을 모두 구매한 사용자는 A 상품 구매자와 B 상품 구매자의 교집합으로 전체 구매자가 분모가 된다. 이에 전체 구매자 숫자를 대입해 계산한 복수 구매자의 비율은 약 26% 이다. '과반 수 이상' 이라는 전제가 틀린 것이다.


두 번째 오류를 얘기하기 위해 조금 양보해 실제 복수 구매자의 비율이 약 50%에 달한다고 가정해 보자. 그렇다고 해서 과연 두 상품을 통합하는 것이 옳은 결정일까? 전체 소비자의 선택 중 절반에 해당하는 선택지로 일원화 하는 것이 소비자를 위한 것일까? 이러한 경우 상품 통합은 옳지 않은 선택이 될 수 있다. 나머지 50%의 고객이 통합이라는 50%의 선택으로 이동하지 않고 그대로 이탈할 수 있기 때문이다. 이런 경우 상품을 통합하는 것보다 각 상품 구매자에게 다른 상품 구매를 유도하는 교차판매를 적극 활성화 하는 것이 현명할 수 있다.





사례 3. 평균의 함정


평균은 우리가 데이터 분석에서 가장 많이 쓰는 방법 중 하나일 것이다. 본인 역시 분석에 있어서 편리함을 이유로 산술 평균을 가장 많이 사용한다.





하지만 평균은 기간과 이상치에 영향을 많이 받기 때문에 맹신해서는 안된다. 이와 관련된 재미있는 영상이 있어 캡쳐본을 가져왔다. 아마 이 내용을 보고 난 후로는 평균을 지금까지와 같이 쉽게 사용하지 못하게 될 수 있다.





해당 영상은 드라마 스토브리그의 내용 중 일부이다. 본인은 해당 드라마를 보지 않았기에 스토리는 모르겠으나, 극 중 남궁민의 대사와 장면은 데이터 분석을 기반으로 하는 의사결정 과정에 큰 시사점을 제시한다.


데이터는 사용하고자 하는 사람의 프레임(Frame)에 따라 매우 쉽게 가공과 변형이 가능하다. 때문에 데이터는 정확한 사실을 제시하기도 하지만, 동시에 목적을 가진 사람을 위한 강력한 무기가 되기도 한다. 만약 사실을 가리고 목적을 달성하기 위해 데이터를 가공하는 사람이 있다면 논리적 오류를 지적함으로써 정확한 사실에 근거한 의사결정으로 이끌어야 한다. 그리고 이를 위해 데이터 분석 사고력이 필요한 것이다.





사례 4. 결론의 함정


회사 내에서 구매 전환율을 증대하기 위해 홈페이지 리뉴얼이 필요하다는 의견이 제시됐다. 고객의 구매여정을 분석해 이에 맞춘 전반적인 개선이 필요하다는 얘기였다. 홈페이지 리뉴얼을 진행하기 위해 UX팀이 제시한 보고서는 다음과 같은 내용이 있었다.





"현재 웹사이트는 다이렉트로 유입되는 트래픽이 매우 많습니다. 따라서 이들은 자사의 브랜드를 인지한 고객이 대부분일 것으로 추측됩니다. 브랜드를 인지한 고객은 재 방문자일 확률이 높고 방문 시 상품 결제에 대한 니즈가 강력합니다. 첫 방문부터 메인 페이지에서 고객정보를 입력하게 하면 재 방문 시 고객정보에 해당하는 상품 정보 노출이 가능해 구매 전환율 상승에 기여할 수 있습니다."


기존 웹사이트의 구조와는 전혀 다르게 방문 즉시 고객정보를 요구함으로써 맞춤 상품 정보를 제시하겠다는 의견이다. 이 논리의 근거는 다이렉트 유입 트래픽이 자사 브랜드를 인지한 고객이라는 것인데, 결론부터 말하자면 다이렉트 트래픽은 우리가 생각하는 순수한 직접유입이 아니다.





구글 애널리틱스를 비롯한 웹로그 분석 도구에서 다이렉트로 분류되는 트래픽의 원인은 매우 다양하다. 주로 아래와 같은 경우 해당 트래픽이 다이렉트로 분류된다.


북마크 및 URL 직접 입력

PDF 및 Word 등 문서로부터의 유입

LMS, Email 등을 통한 유입

모바일 App을 통한 유입

단축 URL 및 Redirection

HTTP/HTTPS 보안 프로토콜

브라우저 보안 정책

기타 Referral이 유실된 모든 경우


따라서 다이렉트 트래픽을 의미 그대로 고객이 직접 주소를 치거나 북마크를 통해 유입된 경로라고 해석하는 것보다는 측정 되지 않는 유입 소스들의 집합으로 해석하는 것이 더욱 적합하다.





다시 UX팀이 제시한 보고서를 살펴보자. 다이렉트 트래픽은 자사 브랜드를 인지한 고객이라는 전제는 앞서 얘기한 다이렉트 트래픽의 특성상 근거가 부족하다. 논리적 근거가 부족하기 때문에 홈페이지 개선 방안에 대한 주장 역시 신뢰성을 잃는다.


UX팀은 왜 이런 결론을 내렸을까? 이유는 분석에 대한 결론을 정하고 그에 필요한 데이터를 가공했기 때문이다. 브랜드 인지 고객에 대한 행동분석이 필요했다면 재 방문자를 기준으로 데이터를 집계하거나 브랜드 키워드 유입자를 대상으로 하는 분석이 더욱 타당했을 것이다. 그랬다면 전혀 다른 결론이 나올 가능성이 있다. 설령 결과가 동일하더라도 주장에 대한 신뢰성이 높아질 것이다. 데이터를 분석할 때는 이와 같이 결론을 사전에 정하고 접근하는 오류를 범해서는 안된다.






제안 및 문의하기

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari