brunch

여론 조사 결과를 어떻게 해석?

민주주의 시민으로 좀 더 현명해지는 방법 - 표본 오차 이해

by 김응석

요즘 우리나라를 보면 정치적 이슈가 너무 많이 일반 국민들의 일상생활에 들어와 있는 것은 아닌가 하는 생각이 든다. 길거리에 걸려 있는 각 정당들의 주장, 매주 발표되는 여론 조사, 유튜브의 다양한 정치 패널 등..

무슨 이야기를 하려고 하는 것인지는 알겠지만 결국 정당의 목적은 정권 획득이니 민주주의 국가에서 살아가는 우리들은 이러한 주장에 대해 정말 현명하게 판단해야 하는 중요성이 점점 커지는 것이 아닐까 하는

생각이 든다.



대선 기간이 돌아오면 유력 후보에 대한 지지도 발표가 홍수를 이룬다. 예를 들어서 뉴스 앵커가 이렇게 이야기했다면 우리는 어떻게 판단해야 할까?

“이번 대선 여론조사 결과, 후보 A는 52%, 후보 B는 48%의 지지율을 보였습니다.

표본오차는 ±3% p입니다.”


얼핏 보면 A후보가 B후보보다 4% 포인트 앞선 것으로 판단하기 쉽다.

하지만 현명하게 한 번 살펴봐야 한다. 앵커가 말한 「52%, 48%가 정말 우리나라 유권자들이 지지하는 정확한 지지율이 맞는가?』 하는 것이다.


정말 정확하게 알고 싶으면 유권자 전체에게 물어봐야 하지만 보통 여론 조사는 1000명 남짓한 사람을 대상으로 조사한다. 따라서, 동일한 여론 조사를 또 다른 1000명에게 물어본다는 수치는 달라진다.

결국 52%, 48%라는 수치는 상수가 아니라 오차가 들어있는 변수라는 것을 알 수 있다.


샘플 1000명을 통해 어떻게 전체 유권자의 지지율을 정확하게 알 수 있을까? 결코 그럴 수는 없다. 그렇다고 정확하게 알기 위해서 전체를 조사하는 것은 현실적으로 가능하지 않다. 따라서, 정확도를 약간 포기하고 효율성을 높이기 위해서 우리는 샘플을 활용하고 있고, 샘플이기 때문에 발생할 수밖에 없는 오차(이를 표본오차라고 함)를 고려해서 의사 결정을 하게 된다.


표본오차를 고려하면 A 후보의 지지율은 52%±3% p = 49% ~ 55%, B 후보는 48%±3% p = 45% ~ 51%로 해석해야 하고, 따라서 결론은 "두 후보 중에 누가 앞서고 있는지 판단하기 어렵다"라는 것이다.

표본분포1.png

하지만 앵커들이 "A후보가 B후보를 오차범위 내에서 앞서고 있다"라고 이야기를 하는 경우가 있는데, 이는 실제 사실을 잘 못 전하고 있는 것이라고 생각한다. 이렇게 발표하는 것을 바꾸기 어려운 현실이니 우리가 정말 더 현명해져야 하는 것이 아닌가 싶다.


여론 조사를 포함해서 우리가 마주치는 모두 수치는 샘플(표본)을 통해서 계산한 것이라는 점을 잊지 말자.

주어진 수치는 상수가 아니고 오차를 가지고 있는 수치다. 따라서 이런 오차를 감안해서 판단해야 한다.




샘플(표본)의 크기가 커지면 표본오차는 어떻게 될까? 상식적으로 생각해 보면 데이터 수가 증가할수록 오차를 작아지게 될 것이다. 하지만 0이 될 수는 없다. 샘플 크기가 커질수록 에러가 작아지는 모습이 선형으로 줄어들지 않고 어느 순간부터 수렴하는 모습이 보이기 때문에 보통 수렴되는 부분까지 데이터를 수집하는 것을 추천하고 있다. 여론 조사의 경우 1000명이 이 부분이기 때문에 보통 1000명 정도를 대상으로 조사를 많이 하고 있다.(이 때 표본오차가 ± 3%임)

표본오차2.png


keyword
작가의 이전글새로운 사실에 대처하는 방법