brunch

얼마나 정확한가요?

신뢰구간의 이해

by 김응석

내가 예측한 결과를 얼마나 신뢰할 수 있을까?


특정 사안에 대한 국민들의 여론을 정확하게는 알 수는 없다. 잘 선정한 약 1000여 명의 표본을 통해 여론을 확인하고 이를 정책에 반영하고 있는 것이 현재 활용하고 있는 대표적인 방법이라고 할 수 있다.

따라서, 데이터 분석을 할 때 항상 "표본 오차"가 있음을 인지하고 있어야 하는 것에 대해서는 이 전의 글에서 강조하였다.


그렇다면 과연 표본 오차 안에 내가 확인하고 싶은 결과가 들어가 있을 확은 얼마나 될까?


"현직 대통령의 국정 수행 지지도를 알아보기 위해서 1,000명에게 확인하여 보니 52%가 긍정적인 답변을 하였다. 95% 신뢰할 수 있는(이를 신뢰 수준이라고 함) 표본오차는 ±3.1%이다."

따라서, 우리나라 유권자들의 지지도는 약 49% ~55% 사이에 있을 가능성이 95%라는 뜻이다.

(좀 더 정확하게 표현하면 100번 샘플을 통해 조사해서 구간을 만들었을 때 이 중에 95%의 구간에 우리나라 유권자의 진짜 지지율이 포함될 것이다.라는 뜻이다.)


따라서, 데이터를 통해 의사 결정을 할 경우 신뢰 수준과 함께 표본오차를 확인한다면 좀 더 정확한

의사 결정을 할 수 있는데 도움이 될 것이다.


신뢰 수준을 95%에서 99%를 바꾼다면, 구간은 넓어질 것이다. 왜냐하면 신뢰구간 안에 실제 참값이 존재할 확률이 커지기 때문이다. 따라서 99%의 표본오차는 3.1%에서 4.1%로 증가하게 된다. 반대로 신뢰 수준을 90%로 낮추면 표본오차는 2.6%가 된다.

무조건 신뢰 수준을 좋게 하면 구간이 넓어지기 때문에 정확하게 어디에 있는지 확인하는 것은

오히려 어려워진다. 즉 정확도를 좋게 하면 효율성을 떨어진다는 뜻이다.

따라서, 신뢰 수준을 결정할 때는 업무를 할 때 이를 적절하게 고려하여 사용해야 한다.


또한 신뢰구간의 간격을 좁게 하려면 표본오차의 크기를 작게 해야 한다. 이는, 표본 수를 늘리면 된다. 1000명이 아니라 2000명, 5000명으로 늘린다면 표본오차의 크기는 작아진다. 하지만, 표본의 크기가

커진다는 것은 비용의 증가로 이어지기 때문에 이 또한 실무에서 비용을 고려한 적절한 크기를

고민해야 한다.


신뢰구간2.png

결국, 정확도와 효율성의 균형점을 찾는 것이 샘플의 크기를 결정하는 것이 핵심이라고 할 수 있다.




위 설명은 여론 조사를 가정하고 정리하였습니다.

keyword
작가의 이전글여론 조사 결과를 어떻게 해석?