비즈니스 분석을 위해 데이터를 다루려면 어떤 데이터가 유용하고, 어떻게 수집하고, 해석해야 하는지 익혀야합니다. 한 가지 더 중요한 문제는 어떻게 표본을 추출할 것인가입니다. 표본은 전체 데이터를 대표하는 데이터 집합(data set)을 말합니다.
(좌) 모집단 (우) 표본 그림에서 (좌) 모집단은 관심의 대상이 되는 (알 수 없는) 전체 데이터를 말합니다. (우) 표본은 우리가 사용할 수 있는 데이터입니다. 화살표 표시로 왼쪽에서 오른쪽을 얻어내는 것이 표본추출 절차입니다. 통계학 책에서는 여러 가지 가정을 충족해야 한다고 조건을 내세우고, 가정을 충족하면 소수의 표본에 다양한 기법을 적용해 오른쪽 모집단을 추론합니다. 그러나 빅데이터 시대에 표본추출이 필요할까요?
소수로 전체를 이해한다.
마케터가 고객에 대한 통찰력을 얻고 싶을 때 모든 고객에게 직접 묻고 싶을 것입니다. 그러나 그것은 불가능할 때가 많습니다. 소수에 의견과 행동을 이해함으로써 전체를 이해할 수 있다는 아이디어로 표본을 추출합니다.
표본추출에 대한 두 가지 예입니다.
운동 관련 앱(어플)을 새로 개발하였습니다. 한 달 동안 300명이 다운로드하였습니다. 개발자는 사용자들이 앱을 어떻게 사용하고 있는지 경험을 묻고 싶을 것입니다. 이때 30명의 사용자를 표본으로 추출하여 피드백을 얻을 수 있습니다. 소수의 사람에게 물어봄으로써 통찰을 발견할 수 있습니다. 표본 데이터를 분석하여 개발자는 어떤 기능을 추가하거나 개선시킬지를 결정할 수 있습니다.
누구나 접하기 쉬운 표본추출의 예는 지지율 여론조사입니다. 리얼미터는 주기적으로 대통령 지지율 조사를 하고 발표를 하고 있습니다.(리얼미터 여론조사 링크) 최근의 여론조사결과를 보면 제일 처음 표본추출 방법과 수를 밝힙니다.
<리얼미터 2022년 2월 2주 차 주간 집계(무선 97 : 유선 3, 총 2,506명 조사)>
우리나라 인구 5000만 명 인구(모집단은 성인만) 중 단 2506명을 표본으로 추출하여 국민 전체의 대통령에 대한 지지율을 추론하고 있습니다.
모집단이 너무 크면 조사하는데 시간이 오래 걸리고 비용이 더 들어갑니다. 심지어는 전체를 조사하는 것이 표본만을 조사하는 것보다 덜 정확한 경우도 있습니다. 표본은 전체를 대표하기 때문에 전체를 분석하는 것과 같은 통찰을 줍니다.
빅데이터 시대에 표본 추출이 필요 없다는 것은 오해입니다. 빅데이터 분석을 가능하게 만드는 것은 많은 데이터를 빠르게 계산하고 저렴하게 저장할 수 있는 컴퓨터의 발달 덕분입니다. 그러나 정확한 결정을 내리기 위해 필요한 모든 데이터를 다 얻을 수 있는 경우는 거의 없습니다. 품질이 좋은 데이터를 확보해야합니다. 많은 양의 데이터를 올바른 통계기법을 적용하여 모델링하더라 데이터의 편향이 있으면 잘못된 결론을 낼 위험이 있습니다. 데이터의 편향을 줄이는 첫걸음은 적절한 표본추출입니다.
잘못된 표본추출
1936년 리터러리 다이제스트는 잘못된 표본추출의 교과서 예제입니다. 당시 리러터리 다이제스트는 영향력 있는 언론 매체였습니다. 대선에서 알프래드 랜던이 프랭클린 루스벨트를 이길 거라고 잘못 예측하였습니다. 전체 구독자 외에 추가명단까지 작성하여 총 1,000만 명이 넘는 사람에게 설문조사를 우편으로 보냈습니다. 그중에 240만 명이 응답을 해왔습니다. 이 결과를 바탕으로 랜던의 압도적인 승리를 예측하였습니다. 반면 갤럽 조사의 창업자인 갤럽은 겨우 2000명을 대상으로 설문조사하였습니다. 1200분의 1에 해당하는 적은 수로 갤럽은 루스벨트의 승리를 정확히 예측했습니다.
표본을 추출하는 방법에 차이가 있었습니다. 리터러리 다이제스트는 전화번호부와 차량 소유자를 조사대상자로 비임의(nonrandom) 표본추출 하였습니다. 당시에 전화와 자동차는 사치품이었고 그것을 소유한 사람들은 대게 랜던을 지지하는 성향으로 인해 편향(bais)이 발생하였습니다. (전화와 자동차를 가진 사람들도 루스벨트를 똑같이 지지했다는 반론도 존재함)
표본편향은 관심 있는 모집단을 대표하지 못하고 잘못된 결론을 얻게 만드는 원인입니다. 표본의 대표성을 확보하는 핵심은 임의표본추출입니다. 임의표본추출을 잘하기 위해서는 모집단을 잘 정의해야 하고 표본추출절차를 결정해야 합니다. 비임의이란 용어는 아주 중요합니다. 비임의 표본추출은 연구자가 주관으로 표본을 추출하는 방법입니다. 임의로 표본을 추출했다고 하더라도 어떤 표본도 모집단을 정확하게 대표할 수 없다는 한계가 있습니다.
요약
빅데이터 분석이라고 하더라도 작은 표본을 가지고 예측 모델을 만들고 테스트합니다. 데이터의 양만 늘린다고 정확도가 반드시 올라가지는 않습니다. 데이터를 분석할 때는 다양한 편향의 가능성을 이해하고 있어야 합니다. 데이터를 효과적으로 다루고 편향을 최소화하기 위한 데이터 표본추출의 중요성은 줄어들지 않았습니다.
이 글은 마케팅조사 4판(이학식 저)과 데이터과학을 위한 통계(한빛미디어)를 참고하여 썼습니다.