✨ 추론통계의 세 가지 원리 & 데이터 실습 [2편]
[1편] 에 이어 바로 시작할게요!
[1편] 에서는 아래와 같이 정규분포에서 특정한 Z값까지의 면적(확률)을 나타내는 누적분포함수(CDF)에 대해서 살펴봤습니다. 이 CDF에 대해서 조금 더 살펴보겠습니다.
CDF와 관련하여 CDF의 역함수(Inverse CDF) 개념을 알아둘 필요가 있습니다. 역함수란, "결과에서 원인을 찾는 함수"로 정리할 수 있습니다. 보통 정규분포나 이 편에서 다루게 될 t-분포의 경우 Z값이나 t값을 넣으면 확률(면적)을 알려 줍니다. 그런데 반대로, 면적(확률)을 알고 있는 경우 그에 해당하는 z값, t값이 얼마인지를 구하고 싶을 때는 역함수(INV)를 사용하게 됩니다.
[1편] 에서 실습한 직원 200명의 연봉 데이터에서 상위 5%의 기준이 되는 연봉 수준은 얼마인지를 계산해 봅시다. 이 경우, 데이터의 분포의 면적(확률)이 95%일 때 해당하는 값을 도출하는 것과 같습니다. Excel에서 [=norm.inv(% 기준선, 평균, 표준편차)] 함수를 적용하여 계산합니다. 따라서, [=norm.inv(0.95,56,345,400,8,701,909)]=70,658,783원이 됩니다. 이 연봉 데이터의 상위 5% 기준선인 것입니다.
01. 표본오차와 신뢰구간
정규분포를 이해했다면, 이제 "추정"의 불확실성을 다룰 차례입니다. 표본 데이터를 통해 모집단을 추정할 때, 그 추정이 얼마나 신뢰할 만한 것인지를 판단하는 것이 바로 표본오차와 신뢰구간의 역할입니다.
(1) 표본오차란 무엇인가
통계학에서 표본오차(Sampling Error)란, "우리가 뽑은 표본이 모집단을 완벽하게 대표하지 못할 때 생기는 오차"를 말합니다. 이는 잘못된 것이 아니라, 표본추출의 본질적인 한계에서 비롯됩니다.
예를 들어, 직원 2,000명 중 200명을 무작위로 뽑아서 평균 연봉을 계산했더니 5,950만 원이었다고 가정해 봅시다. 그렇다고 하여 전체 직원의 평균이 꼭 5,950만 원일 수는 없습니다. 표본을 바꿔서 다시 뽑으면, 평균이 조금씩 달라질 것입니다. 이처럼 표본의 평균(Bar x)이 모집단 평균(μ)과 다를 수밖에 없는 이유, 그 차이가 표본오차입니다.
(2) 표준오차(Standard Error, SE)
:: 표본오차의 평균적 크기
표본오차는 "표본오차의 평균적인 크기"를 나타냅니다. 이는 표본의 표준편차(s)를 표본의 크기(n)의 제곱근으로 나눈 값으로 계산합니다.
SE = s / √n
즉, 표본이 커질수록 √n이 커지고, 결과적으로 SE는 작아진다. 달리 말해, 표본이 많을수록 추정의 불확실성이 줄어든다는 뜻입니다.
직원 200명의 연봉 데이터 표본에서 표본의 평균은 56,345,400원, 표준편차는 8,701,909원이었습니다. 이러한 정보를 바탕으로 표준오차(SE)를 계산하면, [SE=8,701,909/SQRT(200)]≒615,319원입니다.
즉, 200명의 표본을 무작위로 추출하였을 때, 우리의 표본평균은 모집단의 평균 주변에서 ±615,319원 정도의 흔들림(불확실성)을 가진다고 해석할 수 있습니다.
(3) 신뢰구간(Confidence Interval, CI)
:: 불확실성의 범위
표본평균 하나로 모집단의 평균을 단정할 수 없습니다. 따라서 우리는 "이 정도의 범위 안에 모집단의 평균이 있을 것이다." 라고 추정의 구간을 설정하게 됩ㄴ다. 그것이 바로 신뢰구간입니다. 신뢰구간은 다음과 같은 수식으로 정리할 수 있습니다.
위 식에서 [Bar x]는 표본 평균, z는 신뢰수준에 따른 임계값, SE는 표준오차를 말합니다. 여기서 '신뢰수준에 따른 임계값'이라는 새로운 개념이 등장합니다. 이것은 '우리가 얼마나 의심을 줄이고 싶은지'를 수치로 정한 기준선이라고 할 수 있습니다.
신뢰수준은 "우리가 이 결론에 맞을 확률을 얼마나 신뢰할 것인가"에 관한 것입니다. 예를 들어, 95%의 신뢰수준이란 것은 100번 중에 95번은 맞다고 생각할 자신이 있다는 것입니다. 임계값(Critical value)은 그 신뢰수준에 해당하는 경계선에 있는 값입니다. 즉, "이 값을 넘으면 우연이라고 보기는 어렵다." 라고 판단하는 기준입니다. 통계학에서는 보통 '신뢰수준 95%를 기준'으로 하며, 이 때의 z=±1.96입니다.
Excel에서 [=norm.s.dist(1.96,true)]=0.975002105, [=norm.s.dist(-1.96,true)]=0.024997895입니다. 전자의 경우, z=1.96 이하의 누적된 면적이 0.975(=97.5%)를 뜻합니다. 즉, P(Z≤1.96)=0.975입니다. 정규분포는 좌우가 대칭인 분포이기 때문에, 왼쪽 꼬리 2.5%와 오른쪽 꼬리 2.5%를 제외하면, 가운데 면적은 95%가 됩니다.
즉, P(-1.96≤Z≤1.96)=0.975-0.025=0.95입니다. 따라서 z=±1.96이 **95% 신뢰구간의 임계값**이 됩니다. 참고로 z=±1.64는 누적확률이 90%로, 양쪽 꼬리의 5%씩 10%를 제외하여 90% 신뢰수준을 뜻합니다. 그리고 z=±2.58은 누적확률이 99%로 양쪽 꼬리의 0.5%씩 1%를 제외하여 99% 신뢰수준을 뜻합니다.
직원 200명의 연봉 데이터 표본에서 [95% 신뢰구간(CI)=평균±1.96*SE]로 아래와 같이 계산됩니다.
CI=56,345,400원±(1.96×615,319)=[55,139,376~57,551,424원]
따라서 95% 신뢰수준에서 전체 직원의 평균 연봉은 약 5,514만 원부터 5,755만 원 사이에 있을 것이라고, 말할 수 있게 됩니다.
(4) 유한모집단 보정(FPC)
:: 표본이 모집단의 상당 부분을 차지한다면?
표준오차(SE)는 '표본의 크기가 모집단에 비해 아주 작다'는 전제에서 도출된 원리입니다. 즉, 전체 데이터 중에서 극히 일부만을 뽑는다는 가정 하에서 성립합니다. 그런데 만약, 모집단이 2,000명인데, 전체의 10%를 차지하는 200명을 추출한다면, 이미 모집단의 꽤 많은 부분을 본 것이 됩니다.
이런 경우에는 불확실성이 줄어들어야 정상입니다. 그런데 일반적인 표준오차(= s / √n)의 공식을 사용하게 되면, 여전히 큰 불확실성을 가정하고 있기 때문에 이를 보정해주는 장치가 필요합니다. 그것이 유한모집단 보정(Finite Population Correction, FPC)입니다. FPC은 아래와 같은 수식으로 정리됩니다.
위 식은 모집단 중에서 꽤 많은 비율을 표본으로 뽑은 경우, 표준오차를 줄여서 더 정확한 추정을 하도록 보정하는 것을 보여주고 있습니다. 이를 위해 보정된 표준오차(Adjusted SE)는 원래의 표준오차에서 '남은 모집단의 비율'을 반영하여 곱해준 값입니다.
직원 200명의 연봉 데이터 샘플에서 SE=615,319원입니다. 만약 이 표본의 모집단이 2,000명이라면, 전체의 10%를 표본으로 추출한 것이므로, 보정된 표준오차를 계산할 필요가 있습니다. FPC는 다음과 같습니다.
FPC=615,319×√(2,000-200)/(2,000-1)≒583,888
따라서, 보정 전의 경우보다 약 3만 원 정도 줄었습니다. 전체의 10%를 표본으로 추출함으로써 불확실성이 다소 줄어든 것을 반영한 결과입니다.
02. t-분포: 모집단의 표준편차를 모를 때
:: Student's t-distribution
(1) t-분포의 등장 배경과 이해
우리는 추론통계에서 표본 데이터를 이용하여 모집단의 평균을 추정하고 비교하게 됩니다. 이때 표본평균이 얼마나 믿을 만한 값인지를 판단해야 하는데, 이를 위해 표본평균의 표준화된 값을 사용합니다. 정규분포의 경우에는 ①의 수식에 따라 z-값을 사용합니다.
그런데 현실에서는 모집단의 표준편차(σ)를 알 수 없는 경우가 많습니다. 기업 분석, HR 데이터, 심리 연구, 의료 데이터 대부분이 이러한 경우에 해당합니다. 따라서 σ 대신 표본의 표준편차(s)를 사용하여 ②의 수식에 따라 통계량을 계산합니다.
②의 식에서 [Bar x]는 표본 평균, [μ_0]은 가정(Hypothesized)한 모집단 평균을 나타냅니다. s는 추정값이기 때문에 추가적인 불확실성(Variability)이 존재합니다. 즉, 표본 크기가 작을수록 평균의 위치를 더 불확실하게 만드는 효과가 있습니다. 이러한 추가적인 불확실성을 반영한 확률 분포가 t-분포입니다.
위 표에서 t-분포의 곡선 형태는 정규분포에 비해 꼬리가 두껍다(tail-heavy)고 되어 있는데, 이는 "극단적인 값이 정규분포보다 더 나올 수 있다."는 현실적인 상황을 반영한 것입니다.
(2) 추론통계에서 t-분포를 알아야 하는 이유
앞으로 배우는 평균값의 차이 비교 등 통계 검정의 대부분이 크게 세 가지의 조건(상황)을 전제로 합니다. 즉, ① 모집단의 분포를 직접 측정할 수 없습니다. ② 모집단의 표준편차 또한 알 수 없습니다. ③ 분석 자료의 대부분은 표본 데이터입니다. 따라서 t-분포 개념이 없으면, t-검정, 회귀분석, 신뢰구간 해석, 효과크기 분석 등을 체계적으로 배우고 이해할 수 있는 기반을 다지기 어렵습니다.
HR에서는 교육 효과 검증(교육 전/후의 직무 스트레스의 변화 비교), 리더십에 대한 개인 평가(조직 진단 점수의 시점 비교), 보상에 대한 공정성 분석(팀 간의 평균 연봉 비교), 파일럿 프로그램의 타당성 확인(30명 미만의 소규모 테스트) 등에서 t-분포가 사용될 수 있습니다.
(3) t-분포와 신뢰구간의 연결
정규분포 기반의 신뢰구간과 t-분포를 사용할 경우 신뢰구간을 구하는 공식은 매우 유사합니다. 구체적으로는 아래와 같습니다. 보시는 바와 같이 임계값이 z값에서 t값으로 변경된 구조일 뿐입니다.
(4) Excel을 통한 t-분포 활용 방법
✨직원 200명의 연봉 데이터 표본을 활용한 95% 신뢰구간 계산
모집단에 대한 정보가 없고, 표본만이 존재하는 상황에서 표본평균과 표본의 표준편차를 이용하여 t-분포에서 95% 신뢰구간을 구하는 과정을 살펴보겠습니다.
t-분포에서 95% 신뢰구간을 추정할 때는, [=T.INV.2T(Probability), df] 함수를 적용합니다. 여기서 2T는 양측 검정(t-분포의 왼쪽과 오른쪽을 모두 고려함), Probability는 '양측 꼬리의 합'을 말합니다.
95% 신뢰구간을 계산하기 위해서는 Probability=0.05(좌 0.025, 우 0.025)가 되어야 합니다. 그리고 자유도를 뜻하는 df=n-1이 됩니다. 따라서 [=T.INV.2T] 함수는 '양쪽 꼬리의 합이 α 되도록' 자르는 t의 문턱이 되는 값입니다.
직원 200명의 연봉 데이터 표본을 가지고 t-분포를 활용하여 95% 신뢰구간을 계산해 보겠습니다. 앞서 보셨던 공식과 같이 신뢰구간을 구하는 공식은 [평균±t×SE] 입니다.
표본 평균=56,345,400원
표본 표준편차=8,701,909원
Standard Error(SE)=8,701,909원 / √200=615,319원
T.INV.2T=(0.05,count(D4:D203)-1)≒1.97
t×SE=1.97×615,319=1,213,382원
따라서 t-분포 하에서 모집단의 평균이 [55,132,018원, 57,558,782원] 안에 있을 확률이 95%가 됩니다.
✨t-분포를 활용한 통계 검정 (Full-cycle)
[01] 우리에게 아래와 같은 데이터 표본의 상황이 주어졌다고 가정해 보겠습니다.
표본평균=Bar x=10
표본표준편차=s=4
표본크기=n=24
가정된 모집단 평균=(μ₀)=8
[02] 위 상황에 대하여 우리는 이러한 가설을 세우게 됩니다.
[귀무가설] 모집단의 실제 평균은 8일 것이다.
[연구가설=대립가설] 모집단의 실제 평균은 8이 아닐 것이다.
[03] 표준오차(SE)를 계산하여 표본평균의 흔들림을 측정해 봅니다.
SE=s/√n=4/√25=4/5=0.8
즉, 표본평균이 이리저리 흔들리는 평균적인 폭이 약 0.8 정도가 됩니다.
[04] t-통계량을 계산해 봅니다.
t-통계량=분자/분모=(표본평균과 가정 모평균의 차이)/(표준오차)
t-통계량=(10-8)/0.8=2/0.8=2.5
즉, "표본평균 10은, 귀무가설에서 주장하는 평균값인 8보다 표준오차를 기준으로 2.5배 만큼 떨어져 있다."는 뜻입니다.
[05] 자유도(df)와 95% 신뢰수준의 양측 검정에서 임계값{t(crit)}을 계산해 봅니다.
자유도=df=n-1=25-1=24
(엑셀 활용) t_crit=t.inv.2T(0.05,24)≒2.06
즉, 임계값의 구간이 (-)2.06~(+)2.06입니다. 이 구간 안에 들어오는 t값은 "우연으로도 충분히 나올 수 있는 값"입니다. 반면, 이 구간 밖으로 나가게 되면 "우연으로 보기에 과한 값"으로 귀무가설을 기각할 근거가 되는 값이 됩니다.
[06] 의사결정: 귀무가설의 기각 or 귀무가설의 채택
계산된 t값: t-통계량=2.5
임계값: ±2.06
절댓값 2.5는 2.06보다 큰 값이므로, t값이 임계값의 구간을 벗어났다고 할 수 있습니다.
우리는 "95% 신뢰수준에서, 표본평균 10이 가정된 평균값이 8인 모집단에서 우연히 나온 값으로 보기 어렵다."고 판단할 수 있습니다. 따라서 "모집단의 실제 평균은 8일 것이다."라는 귀무가설을 기각하게 됩니다. 즉, "실제 평균은 8이라고 보기 어렵고, 실제 평균이 8이 아닐 것이라는 연구가설에 통계적 근거가 있다."라고 판단하게 됩니다.
03. 에필로그
(1) t-분포의 이름은 왜 "t"인가?
t-분포는 윌리엄 고셋(William Gosset, 필명 'Student')이 만든 분포입니다. 그때 정의된 검정 통계량의 기호가 't'였기 때문에 그 통계량이 따르는 분포를 t-분포(Student's t-distribution)라고 부르게 되었습니다. 즉 검정 통계랴의 이름은 't-value', 그 분포의 이름은 't-distribution'입니다.
(2) t-분포는 정규분포의 변형인가?
t-분포와 정규분포는 비슷하게 생겼지만, 정규분포와 같은 분포가 아닙니다. 다만, 정규분포를 추정해야 하는 상황에서 만들어진 대체 분포라고 볼 수 있습니다.
t-분포는 ① 모집단의 표준편차를 몰라 표본의 표준편차를 사용해야 하는 경우에 ② 데이터 분포가 정규분포에 근사한다는 가정을 토대로 하며, 다만 ③ 표본의 불확실성을 반영하여 분포의 꼬리가 더 두꺼운 경향을 보입니다.
즉, 모집단의 표준편차를 모르고 표본으로 추정해야 하는 상황에서, 표본의 평균이 따르는 분포는 정규분포가 아니라 t-분포입니다. 그리고 t-값은 정규분포 하에서 구하는 것이 아니고, t-통계량을 기준으로 한 별도의 확률분포를 사용하는 것입니다. 물론 t-분포 하에서도 표본이 커질수록 정규분포에 수렴한다는 점은 통계학의 기본적인 원리로서 적용됩니다.
위 내용을 한 단계 더 나아가 정리해 보면, "t-분포는 모집단의 표준편차를 알 수 없을 때 표본 표준편차인 s를 사용하여 계산된 t-통계량이 따르는 확률분포이며, 표본이 작을수록 정규분포보다 꼬리가 두껍고, 표본이 커질수록 정규분포에 수렴한다." 라는 것입니다.
(3) Student's Distribution Table
아래는 T 분포표 - StatCalculators.com 입니다. 이 테이블을 참고하시면, 우리가 계산한 t값과 자유도 하에서 임계값이 얼마인지 단 번에 알 수 있습니다. 위에서 데이터 표본의 크기가 25인 상황에서 95% 신뢰수준과 자유도 24의 조건을 활용하여 임계값을 도출한 계산 과정을 생략할 수 있다는 장점이 있습니다.