brunch

You can make anything
by writing

C.S.Lewis

by Entrench Consulting Jun 24. 2018

GA 샘플링은 해결책이 없는 건가요

해결책이 없는 건 아니지만, 완벽한 해결은 힘들어요 :)

 안녕하세요, 구글 애널리틱스 샘플링(Sampling)에 대해 알아보겠습니다. 샘플링이란 과연 무엇이며, 해결책은 없는지 말씀드릴게요. 우선, 샘플링은 통계학에서 널리 사용되는 분석 기법입니다. 일반적으로 대용량 데이터를 분석하려면 굉장히 많은 시간이 소요되는데요.


 샘플링은 데이터가 처리되는 시간을 줄여줍니다. 또한 원본과 유사한 결과 데이터를 얻을 수 있죠. 쉽게 말해, 원본 데이터의 일부를 가지고 전체 결과를 추산하는 방법입니다.


샘플링이 적용되면 우측 상단에 샘플링 비율이 표기됩니다 :)


 샘플링을 적용되면 GA에서는 샘플링 비율이 표기됩니다. 위 그림의 오른쪽 상단을 보세요. 노란색으로 샘플링 비율이 표기되고 있죠. 전체 세션에서 약 8.4% 데이터를 가지고 행동 흐름 보고서를 보여주고 있습니다. 구글 애널리틱스 프리미엄(유료)을 사용하면 샘플링이 될 확률이 낮아지긴 하지만, 그렇다고 해서 샘플링이 걸리지 않는 건 아닙니다. 다시 말해, 유료를 사용해도 샘플링에서 벗어날 순 없습니다. 무료와 유료 제품의 샘플링 기준치는 아래와 같습니다.


애널리틱스 표준 : 속성(Property) 수준에서 사용 중인 기간에 세션 50만 회

애널리틱스 360 : 보기(View) 수준에서 사용 중인 기간에 세션 1억 회


※ 출처 : 구글 애널리틱스 공식 도움말


GA 속성 설정에서 기간별 Hit 볼륨을 확인해보세요 :)


 데이터에 샘플링이 적용되면 근사치의 결과를 얻을 수는 있지만, 100% 정확한 데이터가 아닙니다. 조회한 데이터의 양이 많은 경우, 두 번째 측정기준을 적용하거나 세그먼트 혹은 맞춤 보고서로 데이터 조회 시 바로 샘플링이 걸리는데요. 분석하는 입장에서 정확하지 않은 데이터로 분석하기란 사실 고민이 많이 되는 일입니다. 이를 해결하는 방법은 정녕 없는 걸까요?



맞춤 퍼널에 세그먼트를 적용해도 샘플링이 걸리지 않는 GA 프리미엄


 사실 유료 버전을 사용하면 행동 흐름 보고서를 제외하고는 샘플링에서 거의 자유롭습니다. 뿐만 아니라 퍼널(Funnel)을 설계해도 기존에 누적된 데이터가 소급 적용되므로, 무료로 사용할 때보다 훨씬 더 양질의 분석 결과를 얻을 수 있습니다. 뿐만 아니라 빅쿼리를 활용해서 질의(Query)를 날리면 원본 데이터를 자유자재로 내려받을 수 있습니다. 그 외 차이점은 아래 문서를 참고해주세요.


※ 구글 애널리틱스 유료 vs 무료 제품 스펙 비교


 

 하지만 그렇다고 모든 계정이 유료 버전을 도입할 순 없는 노릇입니다. 일단 비용 이슈가 큽니다. 1년에 최소 15만 달러에 해당하는 금액을 지불할 회사는 많지 않습니다. 때문에 무료를 사용하면서 최대한 샘플링을 피하는 방법을 찾아야 합니다. 완벽하게 해결하긴 어려워도 아래 3가지 방법을 따르면 샘플링에서 조금은 자유로워질 수 있습니다.



1. 높은 샘플링 정확도 적용하기


샘플링 정확도를 높게 적용하세요 :)

 샘플링되는 데이터 크기가 클수록 결과는 원본에 가깝습니다. 반대로 샘플링 데이터 크기가 작으면 원본과 차이가 날 가능성이 높아집니다. 따라서 빠른 결과를 확인하는 설정보다는, 정확도를 높이는 샘플링 설정을 유지할 경우 샘플링에서 조금은 자유로워집니다. (높은 정확도 설정을 유지해도 샘플링은 걸리곤 합니다.)



2. 샘플링 가능성 애초에 차단하기


 구글 애널리틱스에서 샘플링이 걸리는 대표적인 경우는 세그먼트를 적용하거나 맞춤 보고서 데이터를 조회하는 경우입니다. 따라서 자주 조회하는 맞춤형 데이터가 있는 경우, 해당 데이터 조회만을 위한 보기(View)를 별도로 생성하면 됩니다.


서브 도메인 트래픽만 수집하는 필터를 적용하는 예시


 그러면 필터링된 데이터가 수집되므로 샘플링이 걸릴 확률이 줄어듭니다. 물론 세그먼트나 맞춤 보고서로 조회하는 경우 샘플링은 걸릴 수 있지만, 가능성이 확실히 줄어듭니다. 위 그림은 서브 도메인 트래픽만 유입되도록 보기 필터를 적용한 예시입니다. 저렇게 설정하면 'sub.entrench-consulting.com' 도메인으로 시작하는 데이터만 수집이 됩니다. 따라서 서비스의 일부 데이터만 수집되므로 샘플링이 걸릴 확률이 낮아집니다.


 

3. 애널리틱스 캔버스 3rd Party 도구 활용 (Analytics Canvas) 


 샘플링이 걸리는 이유는 조회한 기간의 데이터의 양이 많기 때문입니다. 따라서 데이터를 분할해서 조회하면 샘플링이 걸리지 않게 됩니다. 이러한 작업을 도와주는 도구 중 하나가 바로 애널리틱스 캔버스입니다. 무료는 아닙니다. 유료입니다. 기능에 따라 비용이 월 49$부터 499$까지 다양합니다.


 다시 말해, 업무 생산성을 도와주는 도구입니다. 무료 기간이 있으니 한번 체험해보시고 사용하는 것도 나쁘지 않을 듯합니다. (단, 사용 방법은 다소 어렵고 한글 지원이 되지 않습니다.)


애널리틱스 캔바스 소개 영상


 지금까지 구글 애널리틱스 샘플링과 이를 피할 수 있는 완벽하지 않은 해결책을 소개드렸습니다. 서비스의 트래픽은 높은데 예산이 충분하다면 구글 애널리틱스 프리미엄 사용하시기 바랍니다. 하지만 트래픽은 많지만 예산은 부족한 경우라면, 일단 무료를 최대한 활용하고 샘플링을 피해서 분석하는 방법밖에 없습니다.


 구글 애널리틱스를 메인 분석 도구로 활용할 것이라면 말이죠. 유료를 사용해서 라이센스 비용 이상의 매출을 창출할 수 있다면 유료 사용을 적극 권장드립니다.


 샘플링 때문에 분석을 못하겠다 라는 건 비겁한 변명입니다. 완벽한 데이터란 있을 수 없습니다. 비즈니스의 상황과 데이터의 추이를 보면서 적절한 도구를 찾는 게 그로스 해커의 역할입니다. 다행히 구글 개발진이 샘플링 이슈를 인지하고 있는지, 예전에 비해 샘플링이 덜 발생하고 있다고 합니다. 어떻게 보면 샘플링은 유료 사용을 유도하려는 구글의 전략인 듯 싶기도 합니다.


 샘플링에 대해 어느 정도 이해가 되셨나요. 추가로 궁금하신 사항은 댓글로 질문을 주시면 답변드리겠습니다.



인트렌치 컨설팅 브런치를 구독하시면

데이터 분석과 관련된 다양한 꿀팁을 알려드립니다.

그로스 해킹을 통해 서비스 전환율을 개선하세요.


인트렌치 컨설팅 서비스 자세히 보기

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari