brunch

You can make anything
by writing

C.S.Lewis

by 하이프마크 Nov 01. 2021

구글 애널리틱스 : 데이터 샘플링

GA


구글 애널리틱스에서 샘플링이란 구글 애널리틱스가 데이터를 전부 처리하지 않고 그 중 일부만을 가져가 표본으로 삼아 분석하는 것이라 생각하면 됩니다.


즉 전체를 분석해 결과를 도출하는 것이 아닌, 그 중의 일부를 가져다 분석해 전체 결과에 대해 추산하는 거죠. 


이렇게 하는 이유는 간단합니다. 데이터를 처리하는 데 자원을 굉장히 많이 소비하기 때문입니다. 구글 애널리틱스는 무료 툴입니다. 따라서 일정 이상의 데이터가 쌓였을 경우 그를 다 처리하기보다는 일부를 추출해 분석하고 있습니다.


물론 구글 애널리틱스 유료 버전도 있습니다. 유료에서는 무료버젼보다는 더 넉넉한 기준을 제공하고 있긴 합니다.  


애널리틱스 표준: 속성 수준에서 사용 중인 기간에 세션 50만 회

애널리틱스 360: 보기 수준에서 사용 중인 기간에 세션 1억 회


이런 기준인데, 유료 역시 완전히 샘플링에서 자유롭지 않은 것이 눈에 띕니다.


또한 데이터 속도의 문제도 있습니다. 지나치게 많은 데이터는 자연스레 처리 속도가 느려지게 되겠죠.


하지만 데이터 샘플링이 무조건 일어나는 것은 아닙니다. 샘플링이 일어나는지 일어나지 않는지는 어떻게 확인하냐고요? 보고서 이름 옆의 방패를 확인해보시면 됩니다.




이렇게 초록색을 보일 때는 샘플링이 적용되지 않고 있는 것입니다. 



이런 식으로 방패가 노란색을 띄고 있다면 그건 데이터 샘플링이라고 이해하면 됩니다.


그럼 어떨 때 샘플링이 주로 적용될까요?





이런식으로 세그먼트를 적용했을 경우 데이터 세션 조회가 기준치를 넘어가면 자연스레 샘플링이 됩니다.





확인해봅시다. 세션 수가 기준치를 초과한 걸 확인할 수 있죠.





사용자 흐름을 확인할 수 있는 보고서도 대표적인 데이터 샘플링 보고서 중 하나입니다. 노란색 창으로 문구를 확인해볼 수 있죠. 이런 이동 경로 시각화 보고서는 대체적으로 데이터 샘플링 되는 편입니다.


기준치 이상의 데이터로 맞춤 보고서를 생성할 경우에도 데이터 샘플링이 적용됩니다.





샘플링은 어디까지나 통계적으로 적절한 방향의 방법으로 데이터를 추출하기 때문에 크게 오차가 나지 않을 수도 있지만, 완벽히 정확한 것은 아닙니다. 따라서 마음에 차지 않을 수도 있죠.


그렇다면 어떻게 데이터 샘플링을 피할 수 있을까요?



1. 기간 나누기



데이터가 많이 쌓일수록 데이터 샘플링 확률이 높아지겠죠. 기간을 나눠 세션의 수를 줄인다면 자연히 데이터의 양도 적어집니다. 보통 이 방법을 가장 많이 사용하고는 합니다.


하지만 다소 번거로운 지점이 있죠. 잘게 쪼개서 하나하나 확인해야하기 때문입니다. 하지만 이를 적용한다면 맞춤 보고서를 만들더라도 샘플링이 될 확률이 적다는 장점이 있습니다.


일일이 구글 애널리틱스로 확인하기 힘들다면 데이터 내보내기를 선택해 엑셀들을 취합해 한번에 보는 방법도 가능합니다. 



2. 기본 보고서 활용하기




기본 보고서 조회는 샘플링이 적용되지 않습니다. 따라서 바로 표준 리포트 상에 확인할 수 있도록 셋팅해줘 기본 보고서로 데이터를 확인할 수 있도록 만드시면 좋습니다. 


이외에도 타사의 툴을 사용하거나 구글 스트레드 시트로 데이터를 내보내는 방법 등이 있는데요, 사실 가장 간단한 방법은 유료 구글 애널리틱스를 사용하는 것이기는 합니다. 하지만 그도 완벽하게 데이터 샘플링은 피할 수 없으니 어느 정도의 방법을 강구하셔야 합니다.


구글애널리틱스 도입 및 고도화 작업이 필요하시면 하이프마크에 문의해주세요.


감사합니다.

매거진의 이전글 구글 애널리틱스 : 계산된 측정항목
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari