brunch

You can make anything
by writing

C.S.Lewis

by 최재원 Apr 24. 2024

출구조사는 왜 틀리는가?

통계를 잘 모르는 사람들도 표본(샘플)이라는 말은 잘 안다. 전체를 조사할 수 없으니 일부만 뽑아서 조사하기 위해 필요하다. 추출한다, 또는 뽑는다는 말이 사물에는 잘 적용된다. 예를 들어 구슬 1,000개 중에 100개를 뽑는다면 구멍이 난 통에 넣고 돌려서 빠져나오게 하면 될 것이다. 로또 복권 번호 구슬을 뽑는 것과 같이 말이다. 


그런데 전체 인구 중에서 사람을 뽑는다고 하면, 상황이 다르다. 전화번호 리스트를 확보할 수 있다면 리스트 중에서 임의로 뽑으면 되니까 그나마 다행인데, 직접 사람을 뽑아야 하는 출구 조사는 어떻게 해야 할까? 분명한 것은 투표를 하고 나오는 사람들 중에서 잘 뽑아야 한다는 것이다. 도대체 어떻게?


방법은 의외로 간단한데, 투표를 마치고 나오는 사람들 중에 일정한 순서대로 선택해서 질문하면 된다. 예를 들어 3번째마다 한 사람씩 뽑는다고 하면 첫 번째로 투표하고 나오는 사람을 선택해서 질문하고 그 이후 2명은 그냥 보내고 3번째로 나오는 사람에게 묻는 식이다. 


이렇게 일정한 순서 규칙에 맞춰 뽑으면 큰 이점이 하나 있는데, 바로 시간대 별로 골고루 뽑게 된다는 사실이다. 투표하는 시간대에 따라 정치적 성향이 다르다는 것은 잘 알려진 사실이다. 그래서 특정 시간대에 몰리지 않게 뽑는 것이 중요한데, 순서대로 뽑으면 이런 위험성이 제거된다. 물론 출구 조사 발표를 위해 투표 마감시간이 끝나기 전에 출구 조사를 끝내지만 이런 상황을 감안해서 선거 결과를 예측한다. 


투표 출구 조사는 1967년 미국 CBS 방송사에서 처음 시작했고, 한국에서는 2002년 대선에서 방송 3사(KBS, MBC, SBS)가 함께 시작했다. 방송 3사 함께 진행한 것은 아마도 비용이 많아 들어서 그랬을 것이다. 일반 여론조사는 표본으로 뽑힌 사람들에게 전화를 거는 방식이지만 출구 조사는 직접 투표소에 조사원이 나가서 인터뷰를 해야 하니까 훨씬 더 비용이 들 것이다. 


적어도 한국에서는 방송 3사의 대선 투표 출구 조사가 지금까지 틀렸던 적은 한 번도 없었다. 그러다가 지난 대선에서 JTBC가 의욕적으로 단독으로 출구 조사에 도전했다. 선거 당일 발표 결과는 정말 극적이었다. 아마도 JTBC 관계자들은 정치적 성향과 관계없이 이재명의 당선을 기원했을지 모르겠다. 그랬다면 처음으로, 게다가 단독으로 출구 조사를 한 JTBC과 방송 3사를 이기는 파란을 불러일으켰을 것이다. 



이제 그렇게 정확하다던 출구 조사가 왜 틀리는지 이야기해 보자. 지난 대선에서 JTBC는 약간의 망신을 당했지만 이번 22대 국회의원 선거에서는 방송 3사의 출구 조사 예측이 꽤 많이 틀렸다. 그래서 출구 조사 무용론 또는 금지하자는 이야기까지 나온다. 


출구조사가 틀리지 않으려면 근본적으로 투표하고 나오는 모든 사람을 조사하면 된다. 그런데 현실에서 이런 일을 하기는 불가능하다. 하지만 이 말은 출구 조사의 근본적인 원리를 말해 준다. 


즉, 많은 표본을 조사할수록 더 정확할 가능성이 높아진다는 것이다.  표본이 많다는 것은 출구 조사에서 투표하고 나오는 사람을 인터뷰하는 간격을 좁힌다는 말이다. 예를 들어 매 3번째 사람을 인터뷰하는 것은 매 5번째 사람을 인터뷰하는 것에 비해 더 많은 표본을 조사하는 것이다. 지난 대선에서 방송 3사의 표본 간격이 JTBC보다 좁았다고 들었다. 즉 방송 3사의 표본이 더 많았다는 것이다. 또한 대선은 잘 맞추는데 국회의원 결과의 오차가 많은 것도 같은 이유다. 전국에서 모든 표본으로 단 하나의 결과를 맞추는 대선과, 각 지역구마다 작은 표본으로 예측해야 하는 방식이 차이가 큰 원인이다.


두 번째는 특정 투표소에서 투표를 하고 나오는 사람을 선택하는 것과 동일한 맥락으로 전국의 그 많은 투표소 중에서 어떤 투표소를 선택할 것인가도 아주 중요한 문제다. 출구 조사라고 해서 전국의 모든 투표소에 조사원이 나가지는 않는다.  이 문제에서는 조사 기관의 노하우가 중요하다. 표본은 일단 더 많을수록 좋지만, 동일한 표본 수라고 했을 때는 어떤 투표소를 고르느냐가 다음으로 중요한 문제가 된다. 


투표소를 고르는 기준은 다양할 수 있다. 과거 데이터를 봤을 때 전체 결과와 가장 비슷한 결과를 보이는 투표소를 선택하거나, 아니면 인구 구성 비율을 따져서 가장 대표성이 있는 투표소를 고를 수도 있다. 이는 아마도 조사 기관이 미리 만들어 놓은 수학적 모델에 기반하지 않을까 생각한다. 


세 번째는 점점 증가하는 사전 투표율이다. 사전 투표율이 본 투표 성향과 다소 다르다는 것이 공통된 의견인데, 현재는 사전 투표에서는 출구 조사를 하지 않고 본 투표의 결과를 이용해 사전 투표 결과를 예상한다. 사전 투표수가 적었을 때는 사전 투표 결과에 대한 예측의 에러도 작겠지만, 점점 사전투표가 많아짐에도 불구하고 본 투표 결과만으로 출구 조사 결과를 보정하게 되니 점점 오차가 커질 수밖에 없다. 


마지막으로 정치에 관심이 많고, 매우 전략적인 한국 사람들의 특성이다. 예전에는 자신의 정치적 성향에 맞게 투표만 할 뿐이었지만 이제는 여론 조사 응답에도 자신이 지지하는 정당에 유리하게 전략적으로 행동한다. 면접을 조직적으로 거부한다거나, 실제와 다르게 말할 수 있다. 


사실 이 마지막 문제는 표본 조사의 근본을 무너뜨리는 아주 중요한 문제다. 모든 고급 통계 기법은 표본으로 얻은 데이터를 요리하는 과정이지, 재료 자체가 잘 못되면 요리법으로는 맛있는 음식을 만들지 못한다.  애초에 표본의 응답이 잘못되었다면 그 이후에 아무리 복잡한 통계 기법을 사용해도 헛수고일 뿐이다. 즉 쓰레기가 들어가면 쓰레기가 나올 수밖에 없다. 


어떻게 보면 통계, 또는 데이터 분석의 성패는 어떤 데이터를 갖고 시작하느냐에 달려있다. 하지만 사람들은 그 시작점에서의 데이터 질에 대해서는 이야기하지 않거나 관심을 두지 않는다. 통계학 교과서도 수학적 방법론의 앞 부분에 대해서는 짧게 언급하고 넘어간다. 

"잘 추출된 표본이 있을 때~~~~"

사실상 잘 추출된 표본을 구하는 것이 가장 어렵다.



 

 

매거진의 이전글 데이터 분석을 시작하는 사람들에게
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari