모집단 평균(μ)을 신뢰수준과 함께 제시하는 개념
1. Learning Focus
정규분포는 평균 μ, 표준편차 σ의 좌우 대칭 분포입니다. 이를 표준정규분포로 변환할 때는 z-score를 통해 표준화 과정을 거칩니다. 표준화 과정을 거쳐 변환된 z값은 평균이 0이고, 표준편차가 1인 정규분포의 모양을 갖게 됩니다. 중심극한정리에 따르면, 표본의 크기가 충분히 크다면 표본의 평균은 모집단의 평균 μ, σ의 제곱을 표본의 크기 n으로 나눈 분산 값에 기반한 정규분포의 모양을 갖게 됩니다. 다만, 표본의 평균은 표집에 따라 불확실성을 가질 수 밖에 없는데, 이러한 불확실성을 정량적으로 측정하는 값이 표본 평균의 표준오차(Standard Error of the Mean, SEM) 입니다. SEM은 [σ/√n]으로 계산합니다. 즉, SEM은 평균 자체가 얼마나 변동성을 갖고 있는 지를 수치적으로 알려주는 값입니다.
우리는 위와 같은 흐름으로 학습을 이어왔습니다. 이 모든 학습 과정은 우리가 얻은 표본의 평균을 바탕으로, 진짜 모집단의 평균이 어디쯤에 위치해 있는지 추정하기 위한 것이었습니다. 그런데 진짜 모집단의 평균이 정확히 어디에 위치하고 있는지 점으로 나타낼 수 있을까요? 그건 아무래도 불가능합니다. 진짜 모집단을 전수조사하여 살펴보지 않았기 때문입니다. 이에 통계학은 진짜 모집단의 평균이 어디쯤에 위치하고 있는지를 범위로 말하는 방법을 제시합니다. 그것이 이른바 신뢰구간(Confidence Interval, CI) 입니다. 이번 단원은 신뢰구간에 대해서 살펴보겠습니다.
2. 신뢰구간(CI)의 개념
신뢰구간은 "표본을 기반으로, 모집단의 평균 μ가 존재할 것 같은 구간을 특정한 신뢰수준(예: 95%)과 함께 제시한 것"을 말합니다. 예를 들어 앞선 단원에서 Case Study로 살펴보았던 어느 팀의 조직 몰입도와 관련하여 "이 팀의 평균 몰입도는 3.64점이고, 95% 신뢰수준에서 진짜 평균은 3.55에서 3.74 사이에 있을 것으로 추정된다."는 통계적 판단을 제시하는 것입니다. 여기서 중요한 것은 ① 특정한 '숫자 하나'가 아니라 '구간'으로서 밝힌다는 점이고, ② 이러한 신뢰구간은 SEM과 z-score에 따라 결정된다는 점입니다.
3. 신뢰구간의 기본 공식
이론적으로, 모집단의 표준편차 σ를 알고 있고, 중심극한정리가 적용되는 상황(표본의 크기가 충분히 큼)에서 평균에 대한 신뢰구간(1-α)은 다음과 같습니다.
①은 x-bar, 표본의 평균입니다. 그리고 ②는 SEM, 표본 평균의 표준오차입니다. ③은 [z_α/2]로 통계학에서는 "표준정규분포의 상단(오른쪽 꼬리 부분)의 면적이 정확히 α/2가 되게 만드는 z값(임계값)을 의미합니다. 여기서 z값은 평균이 0이고, 표준편차가 1인 표준정규분포의 가로축 값입니다. α(알파)는 전체 오차 범위를 말합니다. 보통 5%(0.05) 또는 1%(0.01)를 많이 쓰는 편입니다. 그리고 α/2는 오차를 양쪽 끝(꼬리)으로 똑같이 나누었을 때 한쪽 끝의 면적을 뜻합니다. 이렇게 양쪽의 임계값(경계값)을 활용하는 검정 방식을 양측 검정(Two-tailed test)이라고 합니다.
현실의 세계에서는 모집단의 표준편차 대신 표본의 표준편차(SD or s)를 활용하며, 표본이 충분히 큰 경우 z값을 통해 CI를 계산하는 경우가 많습니다.
4. 신뢰구간과 양측 검정
정규분포의 그래프는 좌우가 대칭인 종 모양입니다. 그리고 정규분포 그래프 아래의 전체 면적은 1(100%) 입니다. 여기서 정규분포 상단(오른쪽) 끝부분의 면적을 아주 좁게(α/2만큼) 잘라냈을 때, 그 경계선이 되는 바닥의 z지점(좌표)가 [z_α/2] 입니다. 신뢰구간과 관련하여 통계에서 가장 많이 활용하는 수준이 "95% 신뢰구간"입니다. 이것을 양측 검정을 바탕으로 짚어보면 다음의 그림과 같습니다.
[ Graph: 95% 신뢰구간 ]
가운데 95%를 남기려면, 나머지 5%(α)를 버려야 합니다. 이 5%를 공평하게 양쪽 끝으로 나누면 왼쪽 끝의 2.5% 지점(α/2, z_0.025), 오른쪽 끝의 2.5%(α/2, z_0.025) 지점이 됩니다. 오른쪽 끝 2.5%를 남기는 지점의 z값을 찾으면 +1.96입니다. 이 경계값의 왼쪽 전체 면적은 0.975(97.5%)로 나옵니다. 반대로 왼쪽 끝 2.5%를 남기는 지점의 z값을 찾으면 -1.96입니다. 이 경계값의 왼쪽 전체 면적은 0.025(2.5%)로 나옵니다. 결국 -1.96 < z < +1.96 사이의 면적을 계산하면 0.975-0.025=0.95(95%)가 되는 원리입니다.
표준정규분포는 0을 기준으로 완벽한 대칭입니다. 그래서 통계학에서는 편의상 양쪽 경계값을 따로 외우지 않고, 양수 쪽인 z_α/2 값 하나만 찾은 뒤 앞에는 ±를 붙여서 사용합니다. 따라서 위와 같이 95% CI의 경우에는 "x-bar±1.96×SEM"으로 간단히 정리할 수 있습니다.
[ Graph: 90% 신뢰구간 ]
다음으로 "90% 신뢰구간"을 살펴보겠습니다. 이것 역시 양측 검정을 바탕으로 짚어보면 아래의 그림과 같습니다.
가운데 90%를 남기려면, 나머지 10%(α)를 버려야 합니다. 이 5%를 공평하게 양쪽 끝으로 나누면 왼쪽 끝의 5.0% 지점(α/2, z_0.05), 오른쪽 끝의 5.0%(α/2, z_0.05) 지점이 됩니다. 오른쪽 끝 5.0%를 남기는 지점의 z값을 찾으면 +1.645입니다. 이 경계값의 왼쪽 전체 면적은 0.95(95.0%)로 나옵니다. 반대로 왼쪽 끝 5.0%를 남기는 지점의 z값을 찾으면 -1.645입니다. 이 경계값의 왼쪽 전체 면적은 0.05(5.0%)로 나옵니다. 결국 -1.645 < z < +1.645 사이의 면적을 계산하면 0.95-0.05=0.90(90%)가 되는 원리입니다. 즉, 90% CI의 경우에는 "x-bar±1.645×SEM"으로 정리할 수 있습니다.
[ Graph: 99% 신뢰구간 ]
마지막으로 "99% 신뢰구간"을 양측 검정으로 짚어보겠습니다. 가운데 99%를 남기려면, 나머지 1%(α)를 버려야 합니다. 이 1%를 공평하게 양쪽 끝으로 나누면 왼쪽 끝의 0.5% 지점(α/2, z_0.005), 오른쪽 끝의 0.5%(α/2, z_0.005) 지점이 됩니다. 오른쪽 끝 0.5%를 남기는 지점의 z값을 찾으면 +2.575입니다. 이 경계값의 왼쪽 전체 면적은 0.995(99.5%)로 나옵니다. 반대로 왼쪽 끝 0.5%를 남기는 지점의 z값을 찾으면 -2.575입니다. 이 경계값의 왼쪽 전체 면적은 0.005(0.5%)로 나옵니다. 결국 -2.575 < z < +2.575 사이의 면적을 계산하면 0.995-0.005=0.99(99%)가 되는 원리입니다. 즉, 99% CI의 경우에는 "x-bar ± 2.575×SEM"으로 정리할 수 있습니다.
이처럼 다양한 신뢰 수준에 따라 z-score가 달라집니다. 아래는 z-score에 따른 Confidence Level(%) table입니다. 80%에서 99.9%까지 정리하였습니다.
5. Case Study: 직원 몰입도 점수
앞선 단원에서 사용했던 특정 팀의 몰입도 점수 데이터(n=30)를 다시 가져오겠습니다.
이 Data Set의 평균은 3.6433, 표준편차는 0.2700, 평균의 표준오차(SEM)는 0.0493입니다. 이러한 통계량을 바탕으로 95% 신뢰구간을 계산하면, [3.5467, 3.7399]가 나옵니다. 즉, 이 팀의 직원 몰입도 평균은 3.64점 수준이고, 95% 신뢰수준에서 추정되는 진짜 평균은 3.55점에서 3.74점 사이에 있을 것으로 볼 수 있다는 것입니다. 여기서 중요한 것은 "3.64점"이라는 한 숫자가 아니라 "(3.55, 3.74)"의 범위를 이해하는 것입니다.
6. 신뢰수준(90%, 95%, 99%)에 따른 차이: z값의 역할
신뢰구간의 공식을 생각할 때, z값이 커질수록 구간은 더 넓어지고, 그 대신 "더 안전하게(보수적으로)" 모집단의 평균을 포함할 수 있습니다. 위 Data Set에서 90% 신뢰구간(z=1.645)은 [3.562, 3.724]로 95% 신뢰구간에 비해 구간이 더 좁습니다. 즉, 덜 안전하지만 더 날카로운 추정이 이뤄질 수 있습니다. 반면, 99% 신뢰구간(z=2.575)은 [3.516, 3.770]으로 95% 신뢰 구간에 비해 구간이 더 넓습니다. 따라서 더 안전하고 보수적인 추정인 반면, 덜 정교한 추정입니다.
이와 같이 신뢰수준을 높이면 구간은 넓어지고, 신뢰수준을 낮추면 구간은 좁아집니다. 즉, 넓고 보수적인 구간과 좁고 불안정한 구간은 Trade-off 관계입니다. 실무에서는 대부분 95% CI를 표준으로 사용합니다.
7. 신뢰구간에 대해 놓쳐서는 안 되는 사항
신뢰구간의 기본 개념을 이해하는 것과 더불어 유념해야 할 사항들이 있습니다.
① ‥ 95% 신뢰 구간을 '확률'의 관점에서 오해하지 말아야 합니다. 95%의 신뢰 구간이라고 하면, 흔히 "모집단의 평균이 95%의 확률로 이 구간 안에 있다."라고 생각할 수 있는데, 통계학은 이른바 '빈도주의'로서 이것의 정확한 의미는 "같은 절차로 표본을 무수히 반복하여 95%의 신뢰 구간을 만들면, 그 구간들 중에는 약 95%가 모집단의 평균을 포함한다." 입니다. 즉 확률의 개념을 모집단의 평균에 대해 붙이는 것이 아니라 "우리가 만들어 낸 구간의 생성 과정"에 붙이는 것입니다. 왜냐하면 이미 계산된 CI는 계산이 끝난 결과물이기 때문에 여기에 '확률'을 논하기는 어렵습니다.
모집단의 평균을 고정된 '과녁'이라고 하고, 우리가 계산한 신뢰 구간은 우리가 쏜 '화살'이라고 생각해 볼까요? 만약 화살을 이미 쏜 후에 "과녁이 이 화살에 맞았을 확률이 95%입니다." 라고 말하는 것은 잘못된 해석입니다. 과녁은 제자리에 가많이 있고, 화살은 이미 꽂혀 있습니다. 그러니까 결과는 과녁에 맞았거나(100%) 안 맞았거나(0%), 둘 중 하나입니다. 반면, "나의 궁술 실력이 95%입니다."라고 말하는 것은 올바른 해석입니다. 즉, 내가 화살을 100번 쏘면 그 중에서 95번은 과녁을 맞힌다는 "나의 실력(과정)"에 대한 의미입니다.
데이터를 추출하여 계산을 마친 순간, 그 구간은 수치적으로 고정됩니다. 이미 결과가 나왔기 때문에, 이 특정한 숫자의 범위들이 평균을 포함하고 있는지, 아닌지는 이미 정해진 사실입니다. 우리가 모를 뿐입니다. 그래서 통계학에서는 "이 구간 안에 평균이 있을 확률이 95%입니다."라는 표현 대신, "저는 이 구간을 만든 나의 방법론을 95% 신뢰합니다."라고 표현하는 것입니다.
② ‥ 신뢰 구간은 "표본 평균의 주변 구간"이 아니라 "모집단의 모수(평균)"에 대한 구간"입니다. 신뢰 구간을 계산하는 기본 공식에서 중심은 표본의 평균이지만, 그 대상은 모집단의 모수입니다. 표본의 평균은 우리가 이미 알고 있는 관측된 값이고, 우리가 이를 바탕으로 나아가려고 하는 것은 우리가 모르고 있는 진짜 값에 대한 추정입니다. 즉, 신뢰 구간은 "관측된 값 주변의 오차범위"가 아니라 "모수에 대한 추정 범위"입니다.
③ ‥ 신뢰 구간의 폭은 '신뢰수준'만으로 결정되는 것이 아닙니다. 만약 신뢰수준을 95%로 고정하더라도, CI의 폭은 표본 수, 표준편차에 따라 달라질 수 있습니다. 즉, 표본의 수가 크다면 SEM은 낮아지고 이에 CI는 좁아집니다. 반면, 표준편차가 클수록 SEM은 커지며, 이에 CI의 폭은 넓어집니다. 따라서 CI가 넓거나 좁다는 것은 보통 표본 수의 부족 문제나 데이터의 변동성이 큰 문제로 귀결되는 경우가 많습니다.
④ ‥ 표본이 대표성이 없으면 신뢰 구간은 좁아도 틀릴 수 있습니다. 신뢰 구간은 "표본이 모집단을 대표한다."라는 가정에 바탕하여 의미가 있습니다. 만약 표본이 편향되어 있다면(선택 편향, 비응답 편향 등), CI가 좁더라도 모수에 대한 정교한 구간을 잡지 못할 수 있습니다. 신뢰 구간은 곧 모수에 대한 정밀도(precision)를 나타내며, 표본의 편향은 정확도(accuracy)를 깨뜨립니다. 따라서 정밀도가 높더라도 정확하지 않을 수 있습니다(오히려 틀린 방향으로 정확해지는 경향).
⑤ ‥ 신뢰 구간, 표준편차, 평균의 표준오차 개념을 혼동하면 해석의 오류가 발생할 수 있습니다. 표준편차는 개별 데이터 포인트의 변동성(분산), SEM은 표본 평균의 변동성, 신뢰 구간은 추정한 모수의 불확실성 범위라고 할 수 있습니다. 그런데 "표준편차가 크니까 결국 평균은 아무런 의미가 없다."라고 한다거나, "평균의 표준오차가 작으니까 개별 데이터 포인트의 편차도 작다."라고 결론을 내리게 되면 해석의 오류가 크게 발생한다는 점입니다.
표준편차가 크더라도 표본의 크기가 충분히 크면, SEM은 작아질 수도 있습니다. 그리고 평균의 표준오차는 개별 데이터 포인트의 편차가 아니라 표본 평균의 편차이기 때문에 개별 데이터 간의 편차와 평균의 표준오차는 다를 수 있습니다.
⑥ ‥ 신뢰 구간이 겹친다고 "차이가 없다."는 결론을 내릴 수 있는 건 아닙니다. 예를 들어 어느 두 집단의 신뢰 구간이 매우 겹치는 경우에는 두 집단 간 차이가 크게 없다고 판단할 수도 있습니다. 이것은 직관적인 비교에는 유용할 수 있어도 정확한 차이 검정이라고 할 수 없습니다. 신뢰 구간이 겹쳐도 통계적으로 유의한 차이가 날 수 있고, 신뢰 구간이 겹치지 않아도 반드시 통계적으로 유의한 차이라고 단정할 수 없는 경우도 있습니다. 정확한 차이 검정은 나중에 학습하게 될 t-test, ANOVA와 같은 방법론을 활용해야 합니다.
⑦ ‥ 정규성에 대해 당연히 가정하지 말고 항상 의심해야 합니다. 우리가 신뢰 구간을 만들 때 표본의 평균의 분포가 정규분포에 근사한다는 가정을 합니다. 이는 중심극한정리에 따른 것입니다. 그래서 표본의 크기가 충분히 크다면(경험칙적으로 30개 이상), 원자료가 약간의 비정규성이 있더라도 표본의 평균은 정규성에 근사한다고 봅니다. 그럼에도 심한 왜도나 극단치(Outlier)가 있을 경우, 표본의 크기가 커도 정규성에 대한 근사가 되지 않을 수 있기 때문에 Q-Q plot 또는 이상치 확인이 여전히 필요합니다.
⑧ ‥ t-값을 쓸지, 아니면 z-값을 쓸지 구분해야 합니다. 현실에서는 모집단의 표준편차를 거의 모른다고 봐야 합니다. 그래서 표본의 표준편차 s를 사용하게 됩니다. 만약 표본의 크기가 충분히 크다면 z 분포를 활용하지만, 원칙적으로는 위와 같은 경우에 t-분포를 사용합니다. z-분포는 우리가 흔히 알고 있는 표준정규분포이인 반면, t-분포는 z-분포보다 중심은 낮고 양쪽 꼬릭(Tail)가 더 두껍습니다. 표본이 적을 때는 데이터가 아무래도 들쑥날쑥 변동성이 크기 때문에, 이로 인한 "극단적인 값이 나올 확률"을 z-분포보다 더 높게 잡습니다.
n이 작을수록 t가 z보다 더 크기 때문에 CI가 더 넓어집니다. 반면, n이 충분히 크다면 t-분포 역시 z-분포로 수렴할 수 있습니다. 다만, n이 작을 때는 z-분포로 대체하는 것이 안정적이지 못한 접근이라고 하겠습니다.