샘플링의 기본 원리
부분으로 전체 데이터를 추론할 수 있을까요? 일부 데이터를 가지고 어떻게 전체가 이렇다고 판정할 수 있는 것일까요? 구글 애널리틱스 등의 많은 분석 도구들에서는 샘플링이라는 기법을 사용하여 부분으로 전체를 추론하는데요, 오늘 뷰저블은 이 원리에 대해 설명드리고자 합니다.
어떻게 부분 데이터를 가지고 전체 데이터를 추론할 수 있을까요? 우리 일상생활 속을 자세히 들여다보면 흔히 일어나는 일입니다.
보글 보글 맛있는 김치찌개를 끓인 여러분은 찌개의 간이 맞는지를 보기 위해 한 수저 떠먹어 보곤 그 한 수저가 맛있다면 냄비 속 전체 김치찌개의 간도 맞을 거라고 판단하지 않으신가요? 굳이 냄비 속 모든 김치찌개를 다 먹어보지 않고 딱 한수저로 판단을 해버리죠.
이것이 바로 부분으로 전체를 판정하는 대표적인 예시입니다!
다만 찌개를 맛볼 때 우연히 진하게 우러나온 부분을 떠먹어볼 수도 있을 것입니다. 그렇기 때문에 전체의 맛은 한 수저 맛을 볼 때와 ‘조금은 다를 가능성’이 존재함을 고려해야 합니다.
통계적 추정은 100% 일치한다고 볼 수 없으며 얼마만큼은 오차가 존재할 것이라고 생각할 수 있습니다.
그렇다면 오차가 존재할 수 있는 샘플링을 왜 많은 분석도구에서 사용하고 있는 걸까요? 샘플링의 장단점은 무엇일까요? 여러분께서 샘플링의 원리를 잘 이해하고 도구를 사용하실 수 있도록, 샘플링에 대한 모든 것을 정리해보았습니다!
모집단과 랜덤 샘플링의 개념, 샘플링의 장단점을 더 알고 싶으시다면,
뷰저블 블로그에서 전체 글을 확인해 보세요! :)
숫자 대신, 히트맵으로 시작하는 데이터 분석!
서비스의 중요한 고객들의 데이터를 한 눈에 보세요!
UX with Beusable.