19대 대선 여론조사 논란 총정리
19대 대선을 맞아 연일 후보별 지지율 변화를 알리는 여론조사 결과가 나온다. 올해 1월 1일 이후 4월 17일까지 중앙선거여론조사심의위원회(여심위)에 등록된 대선 관련 여론 조사만 260건에 이른다. 최근 가장 관심을 끈 것은 KBS와 연합뉴스가 의뢰해 9일 보도한 코리아리서치의 여론조사였다. 이 여론조사는 앞서 3일 안철수 국민의당 후보가 문재인 더불어민주당 후보를 양자 대결에서 처음으로 앞선다고 알린 내일신문-디오피니언의 여론조사에 이어 5자 대결에서도 안 후보가 문 후보를 “오차범위 내에서 누르고”(한 전문가는 이를 모순된 표현이라고 말했다) 1위를 차지했다는 내용이었다. (자세한 사항은 중앙선거여론조사심의위원회 홈페이지 여론조사결과 등록현황에 나와있다.) 문·안 두 후보의 양강 구도를 알린 두 여론조사는 각 후보 진영과 지지자들 사이에서만이 아니라 전문가들 사이에서도 관심의 대상이 됐다. 전문가들의 관심은 여론조사에 대한 ‘검증’으로 이어졌다.
■“KBS-연합뉴스 여론조사 유감”
코리아리서치의 여론조사와 관련해 전문가들이 갖는 의문점은 크게 두 가지이다. 하나는 3월 조사에 비해 4월 조사에서 비적격 비율이 급격히 줄어든 것이고, 또 하나는 무선전화면접 시 사용한 국번이 8031개에서 60개로 줄어든 것이다. 먼저 김재광 아이오와주립대 통계학과 교수는 10일 자신의 블로그에 올린 글에서 해당 여론조사의 표본추출(샘플링) 과정에서 심각한 왜곡이 있을 가능성을 제기했다.
김 교수는 “(4월 조사는) 표본크기도 2000명이고 유선전화 비율이 40%이고 응답률도 15% 정도 되니까 표면상으로는 아무 문제없어 보이는 정상적인 여론조사처럼 보인다. 그런데 좀 더 자세히 보면 좀 이상한 결과를 발견하게 된다”며 급격히 줄어든 표본 추출 틀과 비적격 비율을 지적했다. 3월 조사에서는 유선 10만 6821명, 무선 12만 1명을 접촉해 2046명의 응답을 받은 반면 4월 조사에서는 유·무선 각각 3만 명을 접촉해 2011 명의 응답을 받았다. ‘비적격’ 사례 수는 3월 조사에서 유선 7만 1599, 무선 6만 2775 였는데 4월 조사에서는 유선 2460, 무선 2650으로 줄었다. 비적격은 결번이나 팩스, 사업체 전화 등 여론조사에 사용될 수 없는 번호로 그 비율은 보통 여론조사마다 30~40% 정도 나온다. 전화통화가 가능한 번호라도 통화 중이거나 부재중인 이유로 통화가 안 되는 경우를 ‘접촉 실패 사례’라고 부른다. ‘접촉 후 응답 완료 사례수’(a)와 ‘접촉 후 거절 및 중도이탈 사례수’(b)로 ‘응답률’[a/(a+b)]이 결정된다. 비적격 사례와 접촉 실패 사례는 응답률 계산에 포함하지 않는다.
김 교수는 3월 조사에서 50%가 넘던 비적격 비율이 4월 조사에서는 10% 미만으로 나온 것을 두고 “샘플링이 심각하게 왜곡되었다는 결정적 증거”라고 말했다. 그는 4월 조사가 여심위에 등록한 대로 ‘RDD(Random Digit Dialing)’ 조사가 아니라 회사 자체의 데이터베이스를 사용하는 등의 왜곡 작업이 들어갔다는 합리적인 의심을 해보지 않을 수 없는 대목이라고 밝혔다. 기존에 응답한 사람들의 데이터베이스를 이용할 경우 성별·지역별·연령별 응답자를 인위적으로 선별할 가능성이 열린다. 따라서 여론조사 업체들은 표본의 구성 과정에서 왜곡을 최소화하기 프로그램을 통해 무작위로 생성된 번호를 사용한다. 지역번호와 국번을 제외한 나머지 4자리 번호를 컴퓨터로 무작위 추출해 사용하는 것이다. 이러한 방법을 RDD라고 부른다.
코리아리서치 측은 김 교수의 문제제기에 “전화를 받지 않으면 조사대상에게 3번 전화를 다시 거는 콜백 시스템과 결번을 걸러내는 유효성 검증 시스템을 새로 도입했다”며 “이 때문에 조사에 사용한 번호 개수가 줄었다”라고 밝혔다. 유효성 검증 시스템을 거쳤다는 것은 RDD 방식으로 추출한 번호를 회사 보유 데이터와 비교해 비적격 번호를 걸러냈다는 설명이다.
김 교수는 12일 경향신문과의 통화에서 “콜백을 3번 했다는 말이 대답이 되는 것인가”라며 “제기한 질문에 제대로 답변한 것 같지 않다”라고 말했다. 김 교수는 “답변을 하려면 제대로 증거를 제출하고 해야지 증거를 보여주지 않으면서 ‘우린 맞게 했다’고 이야기하면 그건 주장이지 답변이 아니다”라고 말했다. 그는 코리아리서치가 4월 조사에서 접촉 대상 수를 크게 줄인 것은 이미 비적격 비율이 작게 나올 것을 예상하고 한 일일 텐데 그것이 어떤 근거에 둔 것인지 의문을 제기했다. 김 교수는 50%가 넘는 비적격 비율을 한 달 새 10%로 낮출 수 있는 획기적인 유효성 검증 시스템이 있다면 공개할 의향이 있는지 물었다.
경향신문의 문의를 받은 여론조사 전문가 ㄱ씨는 “콜백은 조사 과정에서 전화를 안 받았을 때 다시 걸어 응답률을 높이기 위한 기법으로 (김 교수가 제기한) 무작위 추출을 위배한 문제와는 무관하다”며 “샘플 추출 이후의 행위이니까 (샘플 추출 과정을 문제 삼은 상황에서) 있어 보이지만 충분하지 않은 해명이다”라고 말했다. 여론조사 전문가 ㄴ씨는 “코리아리서치의 해명대로 비적격 번호를 걸러내는 절차가 있었다면 그럴 수 있다”며 “이 문제는 단정하기 어려운 면이 있다”라고 말했다.
■3월엔 8000개 넘게 사용하다 4월엔 60개 국번만 사용…“통계학적으로 설명할 수 없어”
전문가들은 코리아리서치 4월 조사에서 무선전화면접에 사용한 국번이 60개로 줄어든 점을 더 심각하게 보고 있다. 코리아리서치의 3월 조사의 경우 무선전화면접을 위해 공개된 8031개의 국번(휴대전화 번호 가운데 네 자리)에서 00001~9999까지 무작위로 끝 네 자리를 만들어 전화번호를 생성했는데 4월 조사에서는 60개의 국번으로만 전화번호를 생성했다. 여론조사 전문가 ㄷ씨는 “실수가 아니라면 심각한 문제이다”며 “의도적으로 60개 국번으로 했다면 한번 응답을 했던 사람들을 대상으로 다시 조사했을 가능성이 있다는 뜻이다”라고 말했다. 그는 “(같은 표본을 지속적으로 사용하는) 패널 조사라고 밝히면 상관없는데 RDD로 밝히며 패널조사 방식을 사용한 것은 문제가 있다”라고 밝혔다. (그는 패널조사를 선거 여론조사로 활용하는 자체에 대해서도 문제가 있다고 주장했다. 이는 디오피니온-내일신문과 관련한 논란에서 살펴보겠다.) 선거여론조사기준에 따르면 이전 조사에서 사용한 표본을 되풀이 해 써선 안 된다. 과거 조사에 응한 경험이 있는 사람은 조사에 따른 학습 결과로 결과를 왜곡할 수 있기 때문이다.
김 교수는 무선전화면접에 사용한 국번이 급격히 줄어든 것에 대해 “제가 제기한 문제보다 더 이상한 것일 수 있다”라며 “조사 국번을 조금 뽑고 각 국번 내에서 많이 뽑았다는 건데 그렇게 하는 게 더 나쁜 방법이다”라고 말했다. 김 교수의 설명에 따르면 이렇게 할 경우 ‘왜곡 샘플’이 쏠려서 뽑힐 수 있기 때문이다. 휴대전화 번호도 유선번호와 유사한 생성 체계가 있어 특정 국번을 사용할 경우 지역별로 편향된 샘플이 뽑힐 수 있다는 뜻이다. 김 교수는 “정확성이 목표라면 그래선 안된다. 그건 통계학적으로 설명되지 않는다”며 “여기저기 사람들하고 이야기를 하는데 아무리 생각해도 의도가 있다고 결론이 모인다”라고 말했다. 김 교수는 “어떤 특정 지역에서는 유선전화면접을 더 많이 하고, 다른 지역에서는 무선전화면접을 더 많이 한다면 그건 왜곡 의도가 있다고 볼 수 있다”라며 “의심을 하는 것이 합리적이며 이를 해명하려면 유선전화면접과 무선전화면접의 지역별 분포가 어느 정도 차이가 있는지 밝혀야 한다”라고 말했다.
여론조사 전문가 ㄴ씨도 “60개만 사용했다면 의아한 측면이 있다”며 “휴대전화 번호 가운데 4자리를 60개만 뽑았다는 건데 무작위적으로 추출을 하더라도 60개는 절대적으로 부족하다”라고 밝혔다. ㄴ씨는 다만 “합리적 의심을 해볼 수는 있지만 문제라고 단정하기보다는 확인을 해야 할 성격이다”라고 말했다. ㄱ씨는 “짧은 시간에 조사하기 위해 이전 조사에서 유효했던 샘플을 이용해 완전히 새롭게 무작위로 추출하는 순수한 RDD가 아니라 이전 유효 샘플 일부를 포함했을 가능성이 없지 않다”라고 말했다. 그러나 ㄱ씨는 “확인이 필요한 부분이지만 조사 결과의 왜곡보다는 조사의 편의를 위한 것으로 보인다”라고 밝혔다.
경향신문은 코리아리서치 측에 4월 조사를 위한 무선전화면접 시 국번을 60개만 사용한 이유, 유효성 검증 시스템을 공개할 의향이 있는지 등을 문의했다. 코리아리서치 측은 이에 대해 “해명을 해도 확대 재생산만 되는 것 같다”며 “여심위에 자료를 제출했으니 그쪽의 결과를 확인하길 바란다”라고 밝혔다.
■“가중치가 모든 걸 해결하지는 않아”
안철수 후보가 문재인 후보와의 양자 구도에서 처음으로 앞섰다고 밝힌 디오피니언-내일신문의 여론조사도 논란이 됐다. 내일신문은 3일 이 여론조사 결과를 보도하면서 “안철수 약진은 양자 가상대결에서 더욱 분명했다. 안 전 대표가 43.6%로 문 전 대표(36.4%)를 7.2% p 차이로 앞질렀다”라고 밝혔다.(자세한 사항은 중앙선거여론조사심의위원회 홈페이지에 나와있다.) 문 후보 측은 해당 여론조사의 대상 표본의 대표성, 조사방식을 문제 삼으며 “특정 후보 띄우기 식 여론 왜곡”이라 항의했다. 디오피니언 측은 내일신문에 밝힌 4일 자 해명에서 “무선전화(모바일)로 여론조사에 응할 의사를 밝힌 패널(20만 5461명) 중에 성별과 연령, 지역의 인구비를 토대로 무작위 추출해 모바일 문자로 조사 내용을 보내고 여기에 응답하는 패널을 모아 조사대상을 맞춘다. 이번 조사에서는 5985명에게 문자를 보냈고 이중 응답자 600명으로 전체 비중을 맞췄다”라고 말했다.
반면 뉴스타파의 경우 디오피니언 조사에 인터넷조사 패널을 제공했던 관계자가 “인터넷조사(600명)에서는 문재인 후보가 6% p 정도 앞섰지만, 유선전화조사(400명)가 합쳐지면서 전체 결과에선 안철수 후보가 높게 나온 것 같다. 유선전화면접에서 2배 이상 앞선 게 아니라면 이런 결과가 나올 수가 없다”는 증언을 내놨다고 보도했다.
유선전화면접과 무선전화면접의 결과가 이 정도로 차이가 날 수 있을까? 유선이든, 무선이든 응답 내용은 인구비례에 맞춰 연령별·성별·지역별 가중치를 부여한 뒤 최종 반영되기 때문에 원칙대로라면 큰 차이가 날 가능성은 낮다고 보는 전문가들도 많다. 그러나 가중치가 모든 문제를 해결해주지는 않는다. 연령별·성별·지역별로 가중치를 줘 왜곡을 조정하더라도 해당 집단 내의 차이까지 다룰 수 있는 것은 아니기 때문이다. 김 교수는 “가령 서울에서 같은 30대 남성이라 하더라도 평일에 낮에 집에 있어 유선전화를 받을 수 있는 사람과 바깥에 돌아다니는 사람의 속성이 비슷하냐”며 “성별·연령별로 가중치를 준다는 건 당연히 해야 할 일이지만 그 자체가 모든 걸 해결하는 건 아니다”라고 말했다.
김 교수는 이런 이유에서 대선 여론조사로 유선전화면접을 40% 이상 비율로 하는 것은 바람직하지 않다는 견해를 냈다. 김 교수는 “총선이나 지방선거 같은 경우 지역별 타게팅을 무선으로 하기 어려워서 유효 컨택을 높이기 위해 유선으로 할 수밖에 없는 경우가 있지만 이건 대선이기 때문에 최대 20% 정도면 충분하다”며 “굳이 편향될 가능성이 높은 집 전화를 쓸 필요가 있을까”라고 말했다. 김 교수는 “경험적으로 여론조사에서 유선전화면접 비율을 10% 높이면 보수 후보 지지 응답이 2% p가 더 나온다는 것이 알려졌다”며 “여론조사를 많이 할 경우 감이 있을 것이다. 무선과 유선의 비율을 바꿔가며 여론조사 결과를 바꾸는 것도 가능하다”라고 말했다.
■디오피니언-내일신문 조사 논란, 어떻게 봐야 하나?
디오피니언은 4월 조사를 위해 유선전화면접의 경우 2012년 이전 한국조사협회가 제공한 KT의 데이터베이스를 이용해 400명에게서 응답을 받았고, 무선전화면접의 경우 설문조사 포털인 ‘서베이링크’의 데이터베이스에서 5985명을 추출해 이중 600명에게서 응답을 받았다. 서베이링크는 조사에 응하는 대가로 사용자에게 포인트를 주는 곳으로 이곳에 가입해 설문조사에 응하겠다는 의사를 밝힌 사람은 약 20만 명이다. 무선전화면접의 표본이 서베이링크의 회원인만큼 특정 계층의 여론이 과대 대표될 수 있다는 지적이 나온다. 여론조사 전문가 ㄷ씨는 “5000만 개가 넘는 전체 국내 휴대전화 번호 중 20여만 개를 대상으로 표본을 추출하는 건데 서베이링크에 가입하지 않은 사람들은 디오피니언 조사에 응답할 가능성이 원천 배제된다”라며 “무작위 추출 가정을 심각하게 위배한다”라고 말했다. ㄷ씨는 디오피니언이 유선전화면접에서 등재번호를 대상으로 표본을 추출한 것에도 문제를 제기했다. ㄷ씨는 “유선전화번호를 새로 만들 경우 114 안내에 포함해도 될지를 묻는 안내 전화가 온다. 이를 허용한 번호(등재번호)만 쓰는 것인데 이는 전체 유선 가구의 30%밖에 안된다”라고 말했다. 70%가 넘는 사람들은 조사 대상에서 원천 배제되기 때문에 이 역시 무작위 추출 가정에 위배된다.
특히 디오피니언 조사는 전화번호 등재로 잠재적으로, 혹은 서베이링크 가입으로 명시적으로 여론조사에 응하겠다는 의사를 밝힌 사람들만을 대상으로 하는데 이는 패널조사와 유사하다는 견해가 있다. 패널조사는 조사단위를 동일 표본으로 유지하고, 장기간 동안 반복 추적하는 조사를 말한다. ㄷ씨는 디오피니언의 조사 방식을 패널조사로 봤다. 서베이링크의 설문조사에 응하겠다는 의사를 밝힌 사람은 약 20만 명을 ‘패널’로 본 것이다. 실제 디오피니언이 해명에서 밝힌 표현도 ‘패널’이기는 하다. ㄷ씨는 디오피니언 조사가 등재가구를 활용하고 서베이링크의 ‘패널’을 이용했다는 점에서 무작위 추출 가정을 위배했다고 보고 있다. 그는 “디오피니언은 등재번호 조사가 40%에 달한다. 등재가구의 경우 보수 편향이 있다”며 “지난 종로구 총선에서 오세훈 새누리당 후보가 정세균 민주당 후보를 10% p 안팎으로 앞서거나 박빙일 것이라고 예상한 것도 등재가구를 이용한 조사 때문에 생겨난 예측 실패였다”라고 말했다.
선관위의 선거여론조사기준에 따르면 “선거여론조사를 실시할 때에는 피조사자 선정과정을 거치지 아니한 조사 대상자가 자발적 의사에 따라 응답자로 참여하는 조사방법을 사용해서는 안 된다”라고 규정하고 있다. 이를 어길 경우 3000만 원의 이하의 과태료 처분을 받을 수 있다. 패널조사는 ‘조사 대상자가 자발적 의사로 응답자로 참여하는 조사방법’이라고 볼 수 있다. 그러나 명시적으로 패널조사를 선거여론조사로 금지하는 규정은 없다.
반면 ㄴ씨는 디오피니언의 무선전화면접 추출 틀인 ‘20만 명’을 패널이라기보다 일종의 응답자 데이터베이스라고 봤다. ㄴ씨는 “디오피니언은 응답하겠다고 허락한 사람들 번호 20만 개를 갖고 있다는 것인데 이건 조사업계에서 말하는 패널이라기보다 일종의 응답자 데이터베이스이다”라며 “이런 방식이 불가능하거나 틀렸다고 보진 않고 이론적으로는 그렇게 할 순 있지만 일반적이지는 않다”라고 말했다.
패널조사가 선거 여론조사 방식으로 적합한지에 대해서는 ㄴ씨나 ㄷ씨, 김 교수 모두 부정적인 견해에 가까웠다. 김 교수는 “패널조사를 할 경우 선택 편향이 더 많다”며 “패널을 모집해 인센티브를 주고 조사를 할 경우 자발적 선택이 들어가기 때문에 가중치를 훨씬 더 정교하고 다양하게 고려해 반영해야 한다. 일반 조사하듯이 지역과 연령만 갖고 하면 당연히 안 맞다”라고 말했다. 라디오 전화 연결 쇼나 자율적인 인터넷 설문조사처럼 표본이 참여자 개개인에 의해 결정되는 여론조사는 의견을 내려고 노력하는 사람들의 시각만 반영하게 된다. 이런 사람들은 대개 어떤 주제에 대해 유독 강한 감정을 갖고 있거나 시간이 많은 사람일 가능성이 높다. 어느 쪽이든 전체 여론을 대표한다고 보기 어렵다.
ㄴ씨는 “패널이 구축이 잘 되고 관리가 잘 된다면 권장할 수도 있다”며 “그 자체가 문제라기보다는 패널이 제대로 구축됐는지를 따져야 한다”라고 말했다. 그러나 ㄴ씨도 패널 조사를 선거 여론 조사로 목적으로 활용하기에는 어려움이 있으며, 일반적으로 선거의 판세 예측을 위한 목적으로는 사용하지 않는다고 말했다. ㄴ씨는 “선거 조사의 가장 큰 목적은 특정 계층에 대한 인사이트를 확인하자는 것이 아니라 모든 유권자를 대표하는 여론을 추정하는 건데 그런 목적의 패널을 구축하기 쉽지 않다”라고 말했다. 시골의 노년층부터 도시 전문직종 종사자까지 다양한 유권자들을 대표하는 패널을 구축하고 유지하기 쉽지 않다는 말이다. ㄴ씨는 “게다가 일단 패널 대상으로 하다 보면 패널 효과가 있다”며 “조사 과정을 통해 학습이 되기도 해서 하고 선거 조사에서는 권장하지는 않는다. 어쩔 수 없는 상황에서 보완적인 수단으로 활용할 뿐이다”라고 말했다.
선거여론조사 기준은 특정 정당 또는 특정 후보자에게 유리하거나 불리한 결과를 가져올 수 있는 표본추출 틀을 사용해서는 안 되고 그 결과를 왜곡할 수 있는 조사방법이나 분석방법을 사용해서도 안 된다고 규정하고 있다. 그러나 ㄷ씨는 선거에 임박한 시점에서 패널조사를 택할 경우 한쪽 여론이 과대 반영될 위험성이 있다고 지적했다. 한번 표본에 포함된 조사 대상의 여론이 반복적으로 되풀이될 가능성이 높기 때문이다. 2012년 대선 당일 YTN이 문재인 후보가 당선될 것이라고 예측한 것도 패널조사를 토대로 한 것이다. 당시에는 패널에 속한 이들이 진보 성향 유권자들이 많아 여론조사에서 반복적으로 문 후보가 우세하다는 결과가 나왔다.
■샘플링만이 아니라 설문 문항도 중요
코리아리서치와 디오피니언 조사에서 논란의 핵심은 표본 추출 방식이었다. 표본 추출 방식과 함께 여론조사 결과에 결정적 영향을 미치는 또 하나 변수는 설문 문항이다. 국민의당이 16일 여론조사기관 리얼미터를 공직선거법 위반 혐의로 고발하겠다고 밝힌 것은 왜곡된 설문 문항으로 여론조사를 진행했다는 이유 때문이다.
리얼미터는 지난 10~12일 제19대 대통령 선거 여론조사를 실시하면서 4번째 문항으로 “이번 대선이 더불어민주당과 정의당의 연대 단일후보 문재인, 국민의당과 자유한국당, 바른정당의 연대 단일후보 안철수의 양자 대결로 치러진다면 누구에게 투표하시겠습니까”라고 물었다. 이에 대해 임내현 국민의당 법률위원장은 “정치적 성향이 다른 국민의당과 바른정당, 한국당 간의 연대는 안 후보에게 부정적인 인상을 심어줄 우려가 높다”며 “특히 정당 간 연대를 가정해 유권자에게 질문을 하게 되면 유권자에게 더불어민주당 문재인 후보가 주장하는 적폐연대론이 옳다. 마치 국민의당, 자유한국당, 바른정당이 연대할 가능성도 있는 인상을 주게 된다”라고 말했다. 임 위원장은 이어 “특정 정당 간 연대나 후보 단일화는 대통령 선거에서 큰 영향을 미칠 수 있는 요소인 바, 리얼미터의 4월 10~12일 여론조사는 안 후보에 대한 여론조사 결과를 하락시키기 위한 행위로 볼 수 있다”라고 고발 이유를 밝혔다.
공직선거법에 따르면 ‘특정 정당 또는 후보자에게 편향되도록 하는 어휘나 문장을 사용하여 질문하는 행위’와 ‘선거에 관한 여론조사를 하는 경우, 피조사자에게 응답을 강요하거나 조사자의 의도에 따라 응답을 유도하는 방법으로 질문하거나 피조사자의 의사를 왜곡하는 행위’를 해선 안 된다. 이런 규정을 둔 이유는 응답자들은 질문을 받는 방식에 매우 민감하기 때문이다. 같은 말이어도 유권자들은 ‘세금 경감’보다 ‘세금 감면’을 더 선호할 만큼 단어 선택은 매우 중요하다.
리얼미터 측은 국민의당이 고발을 취하기로 한 데 대해 “이미 많은 언론에서 국민의당·자유한국당·바른정당 후보 단일화 연대 가능성을 보도하고, 한국사회여론연구소(KSOI)와 한겨레신문-리서치플러스 등 동일한 질문이나 가정으로 이루어진 여론조사들도 많다”며 “마치 큰 잘못을 저지른 것처럼 보도자료까지 내는 것은 대단히 유감스러운 일이며, 폐사의 중립적 여론조사업체로서의 명예마저 크게 훼손하는 것”이라고 밝혔다. 앞서 리얼미터는 중앙선거관리위원회로부터 선거여론조사 기준을 위반한 사실이 적발돼 과태료 3000만 원을 부과받은 바 있다.
■같은 날 발표된 상반된 결과, 어떻게 받아들여야 하나?
한국갤럽이 24일 발표한 대선후보 지지도 조사(4주차)에서 문재인의 호남 지지율은 전주에 비해 14% p 떨어졌다. 같은 날 나온 리얼미터 조사에선 전주보다 6% p 올랐다. 같은 날 발표된 상반된 여론조사 결과를 어떻게 받아들여야 할까?
ㄱ씨는 조사기관마다 결과의 차이가 나는 것은 ‘기관효과’에 따른 것이라고 설명했다. ‘기관효과에 따른 차이’란 여론조사기관마다 면접관의 숙련도나 사용하는 질문 문구, 조사 방식, 표본 추출 방식 등이 다르기 때문에 결과에서 차이가 나는 것을 말한다. 여론조사기관은 동일한 조사를 여러 차례 수행할 경우 이런 기관효과를 감안해 면접관의 수준과 질문 문구, 조사방식 등을 동일하게 유지해야 한다. 같은 조사를 수행하면서 이전과 조사방식을 바꿔선 안 된다.
ㄱ씨는 “기관효과 때문에 여러 조사 기관들이 발표한 추이를 보는 것이 아니라 한 조사기관의 추이를 보는 것이 여론의 흐름을 파악하기에는 더 낫다”며 “이것저것 보지 말고 한 조사기관의 추이를 봐라. 그게 금언이다”라고 말했다. ㄱ씨는 “법칙과 같은 이 말은 특정 조사기관의 조사가 매번 똑같은 방식으로 수행된다는 걸 전제로 한다”라고 말했다. 코리아리서치가 수행한 4월 조사가 비판을 받는 것도 결국 이런 갑작스러운 조사방법 변경 때문이다.
ㄱ씨는 여론조사 기관마다 다른 결과의 차이를 조사방식에 따른 다양성으로 보고 존중할 필요가 있다고 말했다. ㄱ씨는 “RDD는 그에 따른 특성이 있고 패널조사도 그에 따른 여러 효과 차이가 있을 수 있는데 그걸 경직되게 바라보는 시선도 문제다”라며 “모든 조사를 의도가 있는 것인 양 보는 언론과 각 후보 지지자들이 조금 유연하게 바라볼 필요가 있다”라고 말했다. 그는 조사기관들도 조사 방식을 선명하게 밝히는 것이 바람직하다는 견해를 밝혔다.
■언론도 공범
언론사는 여론조사의 의뢰인이자 유통자이다. 여론조사 결과를 순위 일변도의 ‘경마식’ 보도의 소재로 활용하는 언론도 여론조사의 신뢰를 떨어트린 공범이다. 언론사는 여론조사기관이 선거여론조사의 기준을 제대로 따랐는지 검증하고 그에 따라 보도할 책임이 있다.
언론사에게 그 기준이란 한국기자협회가 정한 ‘선거여론조사보도준칙’(이하 보도준칙)이다. 이 보도준칙은 먼저 3조에서 ‘여론조사의 한계’를 언급하고 있다. 여론조사로 얻은 수치가 여론 자체는 아니므로 여론조사 결과를 여론과 동일시해선 안 되며 수치에 과도한 의미를 부여해선 안 된다고 규정하고 있다. 과학적 해석이 동반되지 않은 결과 보도는 선거에 공정하지 않은 영향을 미칠 수 있다고 경고하고 있다. 보도준칙은 대표성과 신뢰성이 의심되는 여론조사를 의뢰해서도, 그런 문제가 있는 여론조사 결과를 보도해서도 안 된다고 규정했다.
9조에서는 ‘무리한 속보 경쟁 자제’를 권하고 있다. 특정 사건 발생 후 단기간에 과학성과 공공성이 결여된 여론조사를 실시해 무리한 보도를 해서는 안 된다는 것이다. 반기문 전 유엔 사무총장 후보의 사퇴 직후나 황교안 대통령 권한대행 국무총리의 불출마 선언 직후와 같은 특정 사건 발생 후 이뤄진 여론조사들의 경우 그 신뢰성을 꼼꼼히 들여다볼 필요가 있다는 지적이기도 하다.
16조 ‘오차범위 내 결과의 보도’도 눈여결 볼 조항이다. 이에 따르면 미디어는 후보자나 정당의 지지율 또는 선호도는 신뢰구간에 따른 표본오차를 감안해 보도해야 한다. 특히 지지율 또는 선호도가 오차범위 안에 있을 경우 순위를 매기거나 서열화하지 않고 “경합” 또는 “오차범위 내에 있다”라고 보도한다. “오차범위 내에서 1, 2위를 차지했다”거나 “오차범위 내에서 조금 앞섰다” 등의 표현은 사용하지 않는다고 밝혔다. 오차범위 내에 있을 경우 수치만을 나열하여 제목을 선정하지 않는다고도 규정했다. ㄱ씨도 “‘오차범위 내에서 앞선다’는 말은 모순된 말이다. 오차범위 내에서 앞선다는 것은 통계적으로 무의미하며 엄밀하게 말해 써선 안 된다”라고 밝혔다. 17조 ‘조사 결과의 비교’에서는 “서로 다른 시점에서 실시된 여론조사는 그 조사방법이 동일한 경우에만 상호 비교가 가능하다는 점에 주의해야 한다”라고 규정했다.
돈과 시간이 충분하다면 그만큼 좋은 결과가 나올 수 있다. 현재 우리의 여론조사는 비용 문제라는 한계를 안고 있다. ㄱ씨는 “10년 전과 지금의 단가에 변화가 없다. 언론사는 더 싸서 통상 시장가의 절반만 준다. 여론조사기관으로서는 홍보 효과가 있으니까 받아들인다”라고 말했다. ㄱ씨는 “낮은 단가로 빠른 시간에 조사 결과를 재촉하는 문화를 개선할 필요가 있다”라고 밝혔다. ㄱ씨는 “조사의 정확도를 높이는 원칙도 지켜야 하지만 (언론사들이) 여론조사 보도의 원칙을 지키는 것도 중요하며 많은 문제는 사실 후자에서 발생한다”라고 말했다.
■여론조사에 속지 않는 법
ㄷ씨는 “여론조사는 ‘밴드웨건’ 효과(어떤 선택이 대중적으로 유행하고 있다는 정보로 인하여, 그 선택에 더욱 힘을 실어주게 되는 효과)가 커서 잘못된 여론조사의 여파는 크다”며 “여론조사로 인해서 선거 결과가 바뀌는 것은 민주주의의 위기라고 볼 수 있다”라고 밝혔다. 잘못된 여론조사에 속지 않기 위해 알아야 할 상식은 무엇일까?
먼저 여론조사는 그 결과가 통계적 추론에 불과함을 염두에 둬야 한다. 여론조사는 모집단인 유권자 전체에서 추출한 표본이 밝힌 의견에 근거해 모집단의 의견을 추론하는 방법이다. 만약 모집단을 대표하는 큰 표본이 있다면 표본이 추출된 모집단과 그 표본이 매우 비슷할 것이라는 합리적 추론이 가능하다. 따라서 여론조사에서는 표본의 대표성을 확보하는 일이 관건이 된다. 통계학 교양서인 <벌거벗은 통계학>에 따르면 무작위로 추출한 전화번호를 조사원이 하루 중 각기 다른 시간에 여러 번 전화를 거는 일이 중요하다. 같은 번호를 열 번에서 열두 번 정도 시도하는 것이 편향되지 않은 표본을 얻는 데 매우 중요한 역할을 한다. 다른 번호에 무작위로 계속 거는 편이 쉽고 비용도 적게 들지만 이렇게 할 경우 집에서 전화를 받을 확률이 높은 무직자, 노인에 편향될 수 있다.
이는 응답률 문제로 이어진다. 응답률은 여론조사의 타당성을 보여주는 한 가지 척도이다. 연락 대상으로 선정된 응답자 중 몇 퍼센트가 최종적으로 여론조사를 마쳤는가를 비율로 나타낸 것이 응답률이다. 응답률이 낮다면 표본추출 편향을 의심해볼 만하다. 앞서 말한 것처럼 전화를 받을 때까지 연락해 응답률을 높이는 것이 표본을 채우기 위해 여러 번호로 바꿔가며 거는 방법(이럴 경우 응답률이 낮아진다) 보다 편향될 가능성이 줄어든다. 연락이 닿지 않거나 여론조사에 응하지 않겠다는 사람이 많을수록 응답하지 않은 집단이 질문에 응답한 집단과 많이 다를 가능성이 커진다. 응답률이 높은 조사가 일반적으로 바람직하다고 볼 수 있다. 이와 관련해 ㄴ씨는 “미국은 응답률 30% 미만은 공표하지 못하도록 한다는 말은 사실이 아니다”라며 “전 세계적으로 조사 환경은 다 안 좋고 응답률이 높으면 패널조사인 경우가 많다. 일본은 신문 독자 대상 조사일 경우가 있고, 미국은 당원 대상으로 한 조사가 많다. 일반적인 경우에는 미국도 응답률이 10% 미만인 경우가 많다”라고 설명했다.
다음은 여론조사와 관련된 용어들을 풀어쓴 것이다.
※모집단 - 통계적인 관찰 대상이 되는 집단 전체. 대선 여론조사의 경우 만 19세 이상 전체 유권자가 모집단이 된다.
※표본오차 ±○% p(95% 신뢰 수준) - 같은 모집단에서 각기 다른 표본 100개를 추출해 각각 여론조사를 실시했을 때 95개 표본에서 얻은 응답이 실제 모집단의 의견에서 한쪽 혹은 다른 한쪽으로 ○퍼센트 포인트 이상 벗어나지 않게 존재할 것으로 예상된다는 뜻이다. 같은 신뢰 수준에서는 표본 크기(응답자 수)가 클수록 오차가 작다.
※가중치 - 지역·연령 등 실제 인구 분포에 맞추기 위해 해당 조사 결과치에 곱하는 값.
※응답률 - 표본을 추출해 연락 대상으로 선정된 응답자 중 몇 퍼센트가 최종적으로 여론조사를 마쳤는가를 비율로 나타낸 것이다. 응답률은 여론조사의 타당성을 보여주는 한 가지 척도이다.
※RDD - 임의 전화 걸기. 컴퓨터로 자동 추출한 임의번호로 전화를 걸어 조사하는 방식. 유선전화 중심의 전화번호부 등재번호 표집 방식의 오류를 보완하기 위해 도입됐다.
※전화면접조사 - 면접원이 전화를 걸어 질문하는 방식. 기계장치에 의한 ARS(자동응답방식)에 비해 응답률과 조사 신뢰도가 높은 편이다.
※패널조사 - 조사단위를 동일 표본으로 유지하고, 장기간 동안 반복 추적하는 조사를 말한다. 동일 표본을 유지하고 반복 조사한다는 점에서 조사시점마다 표본을 새롭게 추출하는 반복 종단조사와 다르다. 동일 표본을 유지하므로 다른 변수의 영향을 통제하고, 정부 정책이나 사회현상으로 인한 변화를 측정하는 데 장점이 있다. 다만 표본 이탈로 장기간 동일 표본을 유지하기 어려워 대표성을 상실할 수 있다는 단점이 있다.