모집단과 표본

Population vs Sample

by Yimhyehwa





1. 모집단과 표본의 중요성


통계의 출발은 모집단과 표본의 개념을 파악하는 것에서 시작됩니다. 모집단과 표본에 대한 개념이 잡혀 있지 않게 되면, 어떠한 설문 조사로 집계한 결과를 보고 "아, 전체가 이런 경향이구나."라고 쉽게 오해할 수 있습니다. 통계는 반드시 조사와 검정의 대상이 존재합니다. 그리고 그 대상은 우리가 알고자 하는 전체 집단이 아닌 그중의 일부인 경우가 훨씬 많습니다. 따라서 모집단과 표본의 개념을 알고 나면, 우리는 데이터를 집계한 결과에 대해 "전체가 아니라 표본을 통해 추정된 값이구나."라고 이해의 폭을 넓힐 수 있습니다.


2. 모집단(Population)

[우리가 알고 싶은 전체 집단]


모집단은 말 그대로 우리가 알고 싶은 모든 대상의 집합입니다. 일상의 예를 들어볼까요? 만약 한국에서 하루 평균 몇 잔의 커피를 마시는지 알고 싶다면, 그 모집단은 "한국의 성인 전체"입니다. 또 다른 예로 어느 회사에서 HR 제도에 대한 구성원의 만족도를 알고 싶다면, 그 모집단은 "회사의 직원 전체"가 됩니다. 한편, 가전제품을 만들어서 판매하는 회사에서 이번에 출시한 냉장고의 불량률을 알고 싶다면, 그 모집단은 "그 제품을 사용하는 모든 지역의 구매자"가 됩니다.


우리는 이러한 모집단의 특성을 정확히 알고 싶지만, 모집단을 전부 조사하는 것은 대부분 불가능하거나 비효율적입니다. 전 국민 5천만 명에게 커피 소비량을 물어볼 수도 없고, 회사 직원 1,000명 전원에게 분기마다 50문항씩 설문할 수도 없습니다. 냉장고를 구매한 모든 지역의 100만 명에 달하는 고객에게 냉장고에 대한 사용 경험 인터뷰를 진행할 수도 없는 노릇입니다. 그래서 통계는 "전체 집단을 직접 볼 수 없어도, 전체 집단을 탐험할 수 있는 좋은 도구"입니다.


3. 표본(Sample)

[전체를 대신하는 대표 집단]


표본은 모집단 전체를 대신하여 조사의 대상이 되는 일부의 집합을 뜻합니다. 전국에 20,000명을 무작위로 뽑아 커피 소비량을 조사하거나 회사 직원 1,000명의 10%인 100명을 선정하여 만족도를 조사하거나 제품의 구매자 중 2,000명을 대상으로 냉장고 품질에 대한 평가를 조사하는 것입니다. 이렇게 얻은 표본의 결과를 기반으로 모집단의 특성을 추정(Estimation)합니다.


4. 모집단과 표본의 표기법

[모수 vs 표본통계량]


모수(Parameter)는 모집단, 즉 우리가 알고자 하는 분석 대상의 전체 특징을 나타내는 수치입니다. 모집단 전체를 조사하지 않는 한 그 값을 정확하게 알 수 없는 경우가 많습니다. 그래서 모수는 대게 변하지 않는 고정된 상수로 취급합니다. 반면, 표본통계량(Sample statistic)은 모집단에서 추출한 표본의 특성을 나타내는 수치입니다. 우리가 실제로 관찰을 하고 계산할 수 있는 값이기도 합니다. 다만, 어떠한 표본을 뽑는지에 따라 그 값은 얼마든지 변할 수밖에 없기 때문에 이는 확률 변수의 성격을 띠게 됩니다. 확률 변수란 표본 추출과 같은 우연한 과정에 따라 값이 달라질 수 있는 수치를 말합니다. 아직 정해지지 않았지만 확률에 따라 특정한 값으로 결정되는 변수인 것입니다. 그래서 표본통계량은 "가능한 값들의 분포"를 갖게 됩니다.


이처럼 모수와 표본통계량은 그 개념과 성질에서 분명한 차이가 있기 때문에 이들 각각을 나타내는 기호도 달리 사용합니다. 통계학에서는 보편적으로 아래의 표와 같은 기호로 구분하고 있다는 점을 기억해 둘 필요가 있습니다. 앞으로 맞닥뜨리는 통계의 개념들에서 이들 기호는 어떠한 설명 없이 쓰이는 경우가 많습니다.


image.png


위 기호에 대해 간단히 살펴보고 넘어가겠습니다. 모집단의 모수는 그리스 문자로 표현합니다. 표본의 평균은 "엑스 바(x-bar)"라고 읽고, 모집단의 평균은 "뮤(mu)"라고 읽습니다. p는 표본의 비율을 나타내고, 파이(π)는 모집단의 비율을 나타냅니다. 표본의 표준편차는 SD 또는 s라고 표시하고, 모집단의 표준편차는 그리스 로마 문자인 시그마(σ)로 표시합니다. 분산은 표준편차의 제곱이므로, 일반적으로 s의 제곱 또는 시그마의 제곱으로 표시합니다.


모집단과 표본의 비율에 대해서 잠깐 짚어보겠습니다. 2024년 말 기준으로 대한민국에서 만 19세 이상의 성인 인구가 약 4,400만 명입니다. 이중의 15%에 달하는 660만 명의 표본을 추출하였고, 이들 중 하루에 최소한 한 잔의 커피를 마시는 인구가 400만 명이라고 가정하겠습니다. 그렇다면 표본의 비율은 약 61%(=400/660만 명)가 됩니다. 한편 전체 성인 4,400만 명 중 실제로 하루에 최소한 한 잔의 커피를 마시는 인구가 3,000만 명이라면 모집단의 비율은 약 68%(=3,000/4,400)가 됩니다.


이처럼 표본을 추출할 경우, 그에 따른 추정치가 실제 모집단과 얼마나 차이가 나는지, 다시 말해 표본의 추정치가 모집단의 모수에 얼마나 근접하여 있는지 사실 알기가 어렵습니다. 모집단의 모수가 일반적으로 알려진 값이 아니기 때문입니다. 이런 이유로 표본의 추정치는 '불확실성'을 내포하고 있는 것이며, 우리는 그 불확실성이 어느 정도인지를 정확히 나타내기 위해 다양한 통계 검정을 시도하게 됩니다.


5. 표본 수집 시 고려해야 할 세 가지 기본 사항


표본의 추출은 무작위(Random)여야 하고, 표본의 크기는 충분히 커야 하며(Large enough), 대표성(Representative)이 있어야 합니다. 특히 표본의 대표성이란 특징은 우리가 표본을 잘 뽑아야 하는 중요한 이유가 됩니다. 표본이 아무리 많아도 표본의 구성 자체가 편향되어 있다면, 결과는 왜곡될 수밖에 없습니다. 예를 들어 커피 애호가들이 가입되어 있는 커뮤니티에서 조사된 "하루 평균 커피 섭취량", IT 커뮤니티에서 조사된 "AI에 대한 활용도", 대기업 직원만 무작위로 뽑아서 조사한 "연봉 만족도"는 모집단을 대표하지 못합니다. 따라서 좋은 표본은 무작위성과 적절한 크기의 표본에 더해 반드시 다양성을 고려해야 합니다.






월, 화, 수, 목, 금, 토, 일 연재
이전 01화통계를 잊은 그대에게