평균의 표준오차(SEM)

표본 평균의 변동을 정량적으로 측정할 수 있는 개념

by Yimhyehwa





1. Learning Foucs


지난 시간에 학습한 중심극한정리에 따르면 표본의 크기 n이 충분히 크다면, 표본 평균의 분포는 다음과 같이 정규분포의 형태를 갖게 됩니다.


image.png


우리는 중심극한정리를 통해 표본의 평균이 정규분포를 따른다는 사실을 알게 되었습니다. 하지만 그 평균이 수치적으로 얼마의 변동성(흔들림)을 갖게 되는지 정량적으로 판단하긴 어렵습니다. 표본 평균의 변동성을 정량적으로 측정하는 것은 다시 말해 "이 평균이 얼마나 신뢰할 수 있는가?"를 판단할 수 있는 지표가 된다는 측면에서 중요한 의미를 갖습니다. 이와 관련한 개념이 바로 평균의 표준오차(Standard Error of the Mean, SEM)입니다. 결국 SEM은 '표본 평균의 신뢰도'를 숫자로 표현한 값이라고 할 수 있습니다. 개별 데이터 포인트가 아니라 평균이라는 값 자체가 어느 정도의 불확실성을 갖고 있는지를 알려주는 척도인 것입니다.


2. SEM에 관한 이론적 정의


이론적으로 평균의 표준오차는 다음과 같은 수식으로 정의할 수 있습니다.


image.png


SEM에서 σ는 모집단의 표준편차, n은 표본의 크기를 뜻합니다. 우리는 표본 평균에 관한 CLT의 수식에서 SEM의 수식을 본 적이 있습니다. 여기서 σ의 제곱을 표본의 크기 n으로 나눈 값이 분산이고, σ를 표본의 크기 n의 제곱근으로 나눈 값이 표준편차입니다. 즉, **σ/√n**이 바로 표본 평균의 표준오차입니다. 통계 개념을 복습하는 의미에서 짚고 넘어가면, 표준편차(σ)가 개별 데이터 x가 평균으로부터 얼마나 흩어져 있는가를 나타내는 것이라면, 표준오차(SEM)는 표본의 평균이 얼마나 흩어져 있는가를 나타내는 것입니다.


3. 실무에서 쓰는 SEM: 모집단 σ 대신 표본 's'


현실의 세계에서는 모집단의 표준편차인 σ를 모를 때가 대부분이므로, 표본의 표준편차는 s를 대신 사용합니다.


image.png


표본 Data Set의 표준편차인 's'는 우리가 가장 많이 사용하는 통계 관련 S/W인 Excel에서 [stdev.s] 함수를 사용하여 쉽게 계산할 수 있습니다. 또, R 기반 통계 S/W인 Jamovi의 경우 [Analyses]의 [Exploration]에서 기본적으로 제공하고 있는 통계량입니다.


4. SEM의 측정 요소: 표준편차와 표본의 크기


SEM을 계산하는 위의 식을 보면, 모집단 또는 표본 데이터 집합의 표준편차가 클수록 SEM이 커진다는 것을 알 수 있습니다. 이는 모집단 또는 표본 데이터 집합의 표준편차가 클수록 해당 Data Set 자체가 심하게 요동친다는 것을 의미합니다. 여기서 '표준편차가 클수록 해당 Data Set 자체가 심하게 요동친다.'라는 말은 표본의 개별 데이터 포인트가 평균으로부터 멀리 떨어져 있고, 데이터 포인트 간의 차이도 크게 불규칙하게 벌어져 있는 상황을 나타냅니다.


SEM은 "평균이 얼마나 흔들리는가?"를 알려주는 값인데, 표본의 표준편차가 큰 경우에는 SEM도 커질 수밖에 없습니다. 왜냐하면, 각 데이터 포인트가 평균으로부터 멀리 떨어져 있고, 각 데이터 포인트의 변동폭도 크기 때문에 거기서 수집한 표본 집합에서 계산한 평균은 표집이 이뤄질 때마다 변화의 폭이 클 수밖에 없기 때문입니다.


표본 10개로 구성된 두 가지의 Data Set을 살펴보겠습니다. Data Set-A는 [3.5, 3.6, 3.5, 3.6, 3.5, 3.6, 3.5, 3.6, 3.5, 3.6]입니다. 이 경우 평균은 약 3.55이고 표준편차(s)는 0.05로 매우 작은 값입니다. 따라서 SEM=0.05/√10≒0.16입니다. 이처럼 데이터가 매우 균일한 분포를 이루고 있을 때 평균은 안정적인 범위를 형성하고 있습니다. 표본을 새롭게 추출한다고 하여도 3.55 근처에 몰려 있기 때문입니다. 따라서 SEM은 작아집니다.


반면, Data Set-B는 [2.0, 5.0, 3.0, 4.9, 2.1, 4.8, 2.2, 5.0, 3.0, 4.9]입니다. 이 경우 평균은 약 3.59이고, 표준편차(s)는 1.3으로 큰 값입니다. 따라서 SEM=1.3/√10≒0.41입니다. 이처럼 데이터가 매우 넓은 분포를 이루고 있을 때 평균 자체가 불안정한 범위를 형성하게 됩니다. 표본을 새롭게 추출하는 경우 평균이 2.8이 나올 수도 있지만, 4.2가 나올 수도 있습니다. 즉, SEM은 크게 증가합니다.


다음으로 표본의 크기에 따라 SEM의 값도 달라집니다. 표본의 크기 n이 커질수록 분모의 √n이 커지기 때문에, SEM은 작아집니다. 즉, 표본이 많을수록(대규모 조사) 평균이 안정적인 범위를 형성하게 됩니다. 그래서 SEM은 통계적으로 표본의 수를 늘려 평균의 신뢰도를 올리는 역할을 합니다.


이상의 내용과 같이 SEM은 표준편차와 구분되는 개념입니다. SEM이 평균의 흩어짐을 정량적으로 측정하는 것이라면, 표준편차는 개별 데이터의 흩어짐을 정량적으로 측정하는 지표입니다. SEM은 표본의 크기 n이 충분히 클 경우 분모(√n)로 나뉘어 점점 작아질 수 있는 반면, 표준편차는 표본의 크기 n에도 불구하고 거의 변하지 않습니다. 따라서 "표준편차가 작다면, SEM도 작겠지?"라고 단정할 수 없습니다. 표본의 Data Set에 데이터가 많이 퍼져 있더라도, 표본의 크기가 충분히 크다면 SEM은 작아질 가능성이 있기 때문입니다.


5. SEM과 68-95-99.7% Rule의 관계


표본 집합이 정규분포에 근사할 때 [평균 ± 1 표준편차]는 전체 데이터의 약 68%, [평균 ± 2 표준편차]는 전체 데이터의 약 95%, [평균 ± 3 표준편차]는 전체 데이터의 약 99.7%를 포함합니다. 중심극한정리로 인해 표본 평균의 분포도 정규분포를 따릅니다. 그리고 그 정규분포의 표준편차가 바로 SEM입니다.


따라서 표본 평균에 대하여는 모집단 평균(μ)을 기준으로 [μ ± 1 SEM] 구간에서 표본 평균의 약 68%, [μ ± 2 SEM] 구간에서 표본 평균의 약 95%를 포함합니다. 위 정규분포의 법칙과 같은 논리지만, "표준편차" 대신 "SEM"이라는 단어를 쓴 것입니다. 여기서 참고할 점은 SEM=2라면, [μ±2][μ±1 SEM]을 뜻한다는 것입니다. [μ±4][μ±2 SEM] 입니다. 숫자 2 자체가 아니라, "표준편차의 몇 배(k×SEM)인지"가 중요하다는 말입니다.


6. Case Study: 직원 몰입도 점수


[ Survey 개요 ]


직원들의 조직 몰입도 점수에 관한 샘플 데이터(n=30)를 바탕으로 SEM을 측정해보겠습니다. 조직 몰입도는 네덜란드 위트레흐트 대학의 윌마 샤우펠리(Wilmar Schaufeli) 교수팀이 개발한 Utrecht Work Engagement Scale(UWES)에 기반하여 진단을 했다고 가정해보겠습니다.


UWES는 직원들이 자신의 업무에 얼마나 긍정적이고 열정적으로 몰입하고 있는지를 측정하는 대표적인 업무 몰입도 설문 도구이며, 심리학적 관점에서 업무에 대한 에너지와 집중도를 조명하는 진단 방법론입니다. UWES는 크게 세 가지의 차원으로 구성이 되는데, 주로 활력(Vigor), 헌신(Dedication), 몰입(Absorption) 수준을 진단합니다.


'활력'은 에너지, 회복 탄력성, 노력의 지속성을, '헌신'은 일에 대한 의미, 자부심, 열정을, '몰입'은 일에 빠져드는 정도, 시간 감각의 상실을 살펴봅니다. 따라서 전체 평균 점수는 보통 '전반적인 업무 몰입도'를, 차원별 평균 점수는 '활력/헌신/몰입에 대한 프로파일'로 분석이 들어갑니다. 아래 Survey는 이번 단원의 학습 목적으로 UWES의 개념 구조에 착안하여 창설한 것이며, 응답의 척도는 Likert 1~5점입니다.


image.png


[ Data Set ]


어느 가상의 기업에 소속된 핵심 사업부서의 직원 30명을 대상으로 Survey를 시행하였고, 다음과 같이 30명 전원에 대한 데이터를 수집하게 되었다고 가정하겠습니다.


image.png


[ Data Exploration ] - Jamovi 활용


image.png


Descriptives


표본 데이터에 대한 기본적인 통계량을 보겠습니다. 직원 30명의 몰입도 점수의 평균은 3.64(Mean), 중앙값은 3.65입니다. 데이터의 중심을 나타내는 평균과 중앙값이 거의 같은 수준으로 데이터 분포가 정규성을 갖고 있다고 짐작할 수 있습니다. 팀 몰입도 점수의 최대값은 4.10, 최소값은 3.10입니다.


IQR은 0.375입니다. IQR은 사분위 범위(Interquartile Range)입니다. 이 값의 의미를 짚어보겠습니다. 이 30개의 표본 데이터에서 Q1은 3.425, Q3은 3.800입니다. 즉, 팀 구성원에 대한 몰입도 점수의 가운데 50%는 3.425점에서 3.800점까지 모여 있습니다. 이번 Survey의 몰입도 척도는 1점부터 5점척도였습니다. 우리가 이 값의 Range를 계산하면 4점입니다. 그러나 실제 데이터의 경우 최대 4.1점, 최소 3.1점입니다. 즉, 관측된 값의 Range는 1.0점입니다. 그런데 IQR이 0.375라는 것은 전체 관측 값의 약 37.5% 폭에 데이터의 절반이 몰려 있다는 것입니다. 이것은 굉장히 집중도가 높은 분포라고 할 수 있습니다.


따라서 이 팀은 몰입도의 편차가 크지 않은 조직입니다. 다시 말해, 팀 내에서 극단적인 Disengagement 또는 Engagement가 적다는 것이고, 그런 점에서 '안정적인 조직'일 가능성이 높습니다. 동시에 "평균적인 조직"일 수 있습니다. 즉, 몰입도가 대체로 안정적이지만, 특별히 높은 몰입도를 보이지도 않는 조직이라는 말입니다. 통계적으로 IQR의 폭이 작은 값을 가질 때는 "평균 추정 값의 안정성이 높다."는 것을 시사합니다. 즉, IQR의 폭이 작으면 표준편차(SD)와 평균의 표준오차(SEM)가 작고, 신뢰구간(CI)이 좁습니다.


이번 단원의 핵심인 평균의 표준오차(Std.error mean)를 보겠습니다. 평균의 표준오차는 0.0493으로 매우 낮은 값입니다. 이 값은 Standard deviation(SD) 0.27을 표본의 크기(n)인 30의 제곱근으로 나눈 값입니다. Excel에서는 {=0.27/sqrt(30)}의 연산 함수를 적용합니다. 측정 값을 단순화하여 0.05로 보겠습니다. 우리는 이미 이 팀의 평균 몰입도 점수가 3.64인 것을 알고 있습니다. 평균의 표준오차까지 연결하면 "이 팀의 몰입도 평균은 3.64점이고, 그 평균은 ±0.05 정도의 불확실성을 갖고 있다."라고 해석할 수 있습니다.


데이터 분포의 치우친 정도를 나타내는 왜도(Skewness) 값은 -0.226으로 매우 낮은 값입니다. 왜도 값이 ±2 내에 있다면, 데이터 분포가 정규분포에 근사한다고 판단할 수 있습니다. 그런데 여기서 못 보던 개념이 하나 등장합니다. "Std. Error Skewness" 입니다. 이것은 왜도를 추정한 값의 불확실성을 나타내는 값입니다.


우리가 현재 특정 팀의 몰입도 점수를 살펴보고 있지만, 조직 내 다른 팀들의 몰입도 점수는 저마다 다를 것입니다. 팀을 하나의 표본 단위로 본다면 표본 A, 표본 B, 표본 C의 왜도 값은 0.10, -0.05, 0.25와 같이 각각 다르게 나타날 가능성이 높습니다. 즉, Skewness도 일종의 표본 통계량이기 때문에 '추정 오차'가 있기 마련입니다. 그래서 "Std. Error Skewness"(SE_Skewness)는 왜도 추정 값의 불확실성을 측정한 값이 되는 것이고, 이는 평균의 표준오차(SEM)와 같은 원리입니다.


현재 Skewness는 -0.026, SE_Skewness는 0.427입니다. 만약 완벽한 정규분포였다면 Skewness는 당연히 0이 됩니다. 이 분포는 정규성에 근사할 뿐 완벽한 정규분포가 아닙니다. 그래서 우리의 다음 질문은 "지금 관측된 왜도 값이 왜도 값에 대한 표준오차까지 감안하더라도 정규성에 영향을 미치지 않는다고 볼 수 있는가?"입니다. 이를 판단하기 위해 사용되는 계산식이 바로 z-score입니다. 기존에 우리가 보았던 z값은 "평균에서 몇 표준편차 떨어져 있는지"를 계산하는 원리에 바탕했다면, 지금의 z-score는 "0에서 몇 표준오차 떨어져 있는지"를 계산합니다. 그래서 계산식은 [Z=Skewness/SE_Skewness] 입니다. z값을 계산해 보면, ±0.49가 나옵니다. 이 말은 왜도 값이 0에서 표준오차의 0.49배 떨어져 있다는 뜻입니다.


정규분포의 성질을 반영하여 약 95%의 값은 [평균 ± 2 표준편차] 범위에 있습니다. 바로 이 범위가 정상적인 표본 변동의 범위입니다. 그 반대라면, 정규분포에서 기대하기 어려운 값이 될 겁니다. 위에서 계산한 ±0.49의 값은 ±2 이내의 값이므로, 정규분포에서 충분히 나타날 수 있는 흔한 수준의 값입니다. 따라서 결론은 "왜도는 정규성에서 유의하게 벗어나지 않았다."라는 점을 다시 확인하게 됩니다.


Q-Q Plot


오른쪽에 있는 <Q-Q Plot> 역시 새로 등장한 개념입니다. Q-Q plot은 <Quantile-Quantile Plot>의 약자입니다. 이 개념의 핵심은 "내 데이터의 분위수(Quartile)와 이론적인 정규분포의 분위수를 비교"하는 데 있습니다. 그래프의 x축은 정규분포에서 기대되는 분위수(Theoretical Quantiles)이고, y축은 실제 데이터의 분위수(Sample Quantiles)입니다.


만약 데이터가 완벽히 정규분포라면, 각 데이터 포인트인 점들이 모두 직선 위에 놓입니다. 왜냐하면, 정규분포라면 이론적인 분위수와 실제 관측 값의 분위수가 일치하기 때문입니다. 그래서 Q-Q plot에는 항상 대각선(reference line)이 존재합니다.


만약 오른쪽으로 꼬리가 긴 분포(Positive skew)라면, 오른쪽 끝 점들이 위로 휘어지는 모양이 나타나고, 왼쪽으로 꼬리가 긴 분포(Negative skew)라면, 왼쪽 끝 점들이 아래로 휘어지는 모양이 나타날 것입니다. 위 그림을 각 데이터 포인트를 나타내는 점들이 거의 직선 위에 놓여 있습니다. 따라서 데이터 분포가 정규분포와 매우 유사하다는 결론에 도달할 수 있습니다.


SEM (Std Error mean)


다시 SEM으로 돌아오겠습니다. "이 팀의 몰입도 평균은 3.64점이고, 그 평균은 ±0.05 정도의 불확실성을 갖고 있다."는 것까지 정리했습니다. 이제 정규분포의 성질을 적용해보겠습니다.


즉, [평균 ± 1 SEM]은 [3.64±0.05]이고, 계산하면 [3.59 ~ 3.69] 입니다. 바로 이 범위 안에 "가능한 평균들"의 약 68%가 포함되어 있다고 볼 수 있습니다. 또, [평균 ± 2 SEM]은 [3.64±0.10]이고, 계산하면, [3.54 ~ 3.74] 입니다. 바로 이 범위 안에 "가능한 평균들"의 약 95%가 포함되어 있다고 볼 수 있습니다.








월, 화, 수, 목, 금, 토, 일 연재