본격적인 선거철, 여론조사는 우리의 생각을 대변한다고 말할 수 있는가
여러 방면으로 선거철이 본격화되었다는 것을 실감한다. 여야를 막론하고 다양한 대선후보들의 각축전이 펼쳐지며 지지율이 엎치락뒤치락한다. 그 과정에서 정책과 공약 검증보다 각종 의혹 제기, 마타도어와 흑색선전이 난무하여 기성 정치의 한계를 벗어나지 못한 안타까운 모습을 보여주기도 한다.
선거철이라는 것을 방증하듯, 각종 언론에서 수많은 여론조사 결과가 쏟아지고 있다. 각 정당에서 여론조사를 기준으로 경선을 진행하여 최종 대선후보를 가려내기 때문에 더더욱 여론조사 결과는 중요하게 여겨진다. 그러나 끝도 없이 쏟아져 나오는 여론조사 결과의 신뢰성에 의문이 드는 경우도 많다. 비슷한 방식과 질문, 날짜에 진행된 조사임에도 불구하고 조사를 진행한 회사에 따라 각 후보의 지지율은 천차만별이다.
일례로 9월 3~4일 실시된 알앤써치·경기신문 조사, PNR·뉴데일리·시사경남 조사, 여론조사공정·데일리안 조사에서 홍준표 후보의 지지율은 각각 28.7%, 32.1%, 46.4%로 편차가 매우 심했고, 조사에 따라 여권 1위인 이재명 후보에 앞설 때도 있고 뒤쳐질 때도 있는 등 오락가락했다. 같은 기간 동안 사회 대중의 공통된 의견을 뜻하는 '여론'은 그대로인데, '여론'을 조사한 결과는 매번 뒤바뀌는 것이다.
따라서 현대인들에게는 여론조사의 가시적인 결과에 휘둘리지 않고, 조사 방법과 신뢰도를 정확히 분석하여 자신만의 객관적인 기준으로 판단하는 것이 중요하다.
여론조사의 방법에는 전수조사와 표본조사 2가지가 있다. 국민 전체를 상대로 하여서 '전수조사'를 실시하는 것은 사실상 불가능할 뿐만 아니라, 가능하다 하더라도 시간과 비용이 엄청나게 많이 들기 때문에 실시하지 않는다. 따라서 우리가 접하는 대부분의 여론조사는 집단에서 추출된 표본을 바탕으로 조사를 진행하는 표본조사이다.
표본조사는 표본추출 -> 조사 -> 추정의 과정으로 진행된다. 이때 '집단을 대표할 수 있는 표본을 어떤 기준으로 추출할 것인지'가 가장 중요하다. 표본은 크면 클수록 결과의 정확도를 올라가지만, 그에 따라 지불해야 하는 비용도 기하급수적으로 증가하기 때문에 보통 1000명 안팎에서 표본을 선택한다. 그렇다면 표본을 추출하는 기준에는 무엇이 있는지 알아보자.
1. 무선 표집(Random Sampling)
무선 표집이란 전체집단에서 랜덤으로 표본을 추출하는 방법이다. '성별 등 다른 기준에 관계없이 랜덤으로 200명을 선택'하는 것이 무선 표집의 예시이다.
2. 유층 표집(Stratified Sampling)
무선 표집과는 달리, 특정 기준에 따라 표본을 추출하는 방법이다. 나이, 학력, 성별, 거주지역 등이 기준이 될 수 있으며 '성별에 따라 각각 100명씩 선택'하는 것이 유층 표집이라고 할 수 있다.
3. 비율적 유층 표집
유층 표집과 유사한 개념으로서, 유층 표집에서 조금 더 발전된 방식이다. 특정 기준에 따라 표본을 전체집단을 분류하고, 그 속에서 각 집단의 비율까지 고려해서 표본을 선택하는 것이다. 예를 들어 '남자와 여자가 2:3으로 존재하는 집단에서 남자 40%, 여자 60%로 표본을 선택'하는 것이다.
4. 군집 표집(Cluster Sampling)
전체 집단에서 골고루 표본을 선택하기보다는 특정 집단 전체를 표본으로 삼는 방식이다. 예를 들어 전국 고등학생의 학력을 조사할 때, 유층 표집 방식을 활용하여 전국 각지에 있는 학생을 1명씩 일일이 조사하기에는 시간과 비용이 너무 많이 든다. 따라서 전체의 학력을 가장 잘 대표해주는 A학교의 B반을 선택하여, 해당 학급을 대상으로 조사를 진행한다.
실제로는 유층 표집과 비율적 유층 표집 방법이 가장 많이 활용되고, 대부분의 여론조사도 이 같은 방법을 사용하여 진행된다.
위와 같은 과정을 거쳐서 표본 수집과 조사가 완료되면 이 결과는 해석하는 것은 우리의 몫이다. 모든 여론조사에는 항상 '오차범위'와 '신뢰도'가 표기되어 있는데, 이 정보를 적절히 활용해서 결과를 해석해야만 불필요한 오류에 빠지지 않을 수 있다.
이번 조사는 지난 3월 19~20일까지 안양시 만안구 유권자 509명을 대상으로, 유선전화 임의걸기(RDD) 자동응답(ARS) 및 스마트폰 앱 방식으로 조사했고, 응답률은 5.0%, 표본오차는 95% 신뢰 수준 ±4.3%p다. 통계보정은 성, 연령, 지역별(2016년 2월 행자부 주민등록인구통계 기준) 가중값을 림가중 방법을 적용해 부여했다. 그 밖의 자세한 사항은 중앙선거여론조사공정심의위원회 홈페이지를 참조하면 된다.
예시를 통해 알아보자. 제20대 국회의원 선거에서 중부일보와 리얼미터의 여론조사 결과이다.
표본오차가 ±4.3%p이고, 신뢰 수준은 95% 정도라고 적혀있다. 즉, 장경순 후보가 41.7%p에서 4.3%p를 빼고 더한 만큼의 지지도를 가지고 있다는 것이고, 이 추정은 95%의 확률로 신뢰할 만하다는 뜻이다.
정리해보자면, 이 여론조사를 기준으로 장경순 후보는 37.4 ~ 46%p, 이종걸 후보는 28.5 ~ 37.1%p의 득표수를 95%의 확률로 받을 것이다. 이때 이종걸 후보가 최대 37.1%를 받고 장경순 후보가 최소 37.4%를 받는다고 하더라도 장경순 후보가 앞서기 때문에 장경순 후보의 당선이 확실시되는 상황이었다.
그런데 대이변이 일어났다. 이종걸 후보가 장경순 후보를 꺾고 당선된 것이다. 왜 이런 일이 일어났을까?
여론조사에서 오류가 발생하는 데는 2가지 이유가 있다. 표본의 대상이 잘못됐거나, 조사 방법이 잘못된 것이다. 이 경우는 조사 방법에 문제를 내포하고 있었다. 일반적인 조사와 다르게 무선 응답 비율보다 유선 응답 비율이 높았고, 상대적으로 보수 지지층이 여론조사에 적극적으로 응답할 수밖에 없었던 것이다. 그래서 보수 측 후보인 장경순 후보의 지지율이 높게 나타났다.
이와 같은 단편적인 사례만 보아도, 여론조사는 결코 우리 사회의 진정한 '여론'을 대변해주지 않는다는 것을 알 수 있다. 여론조사를 비롯한 다양한 통계는 우리가 '복잡한 사회'를 '단순한 수치'로서 이해할 수 있게 해주는 힘을 가지고 있지만, 어쩌면 우리를 비판적 사고력이 결여된 '단순한 사람'으로 만들어가고 있는 것일지도 모른다. 어떤 기준에 따라 표본을 수집하고, 어떤 방법을 사용하며, 어떤 질문을 던져서 조사하는지에 따라 통계의 결과는 천차만별이다.
우리가 살아가는 사회를 불과 몇 자리에 불과한 숫자로 표현하기는 역부족이다. 숫자의 노예가 되어 휘둘리는 것이 아니라, 그 숫자들의 주인이 되어서 나름의 기준을 바탕으로 현명한 선택을 할 수 있는 스스로의 지혜가 절실하다.
거짓말는 세 가지 종류가 있다.
그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계.
- 벤저민 디즈레일리 (마크 트웨인 자서전 中)
(C) 2021.09. 조준형 씀. All rights reserved.