중심극한정리

표본 평균의 분포는 정규분포라는 질서를 이룬다

by Yimhyehwa



1. Learning Focus


안녕하세요? 오늘은 어떤 날을 보내셨을지 모르겠습니다. 이번 단원을 시작하기에 앞서 학습의 여정을 잠시 돌아보겠습니다. 우리는 데이터가 어디에 모여 있는지(중심 경향), 얼마나 흩어져 있는지(산포)를 배웠고, 데이터의 변동과 관련하여 표본의 분산을 계산할 때 왜 n이 아닌 n-1로 나누어야 하는지 그 미묘한 차이를 짚어봤습니다. 바로 전 시간에는 전체 데이터의 분포를 이해하고 해석하는 과정을 살펴보았고, 좌우 대칭을 이루는 정규분포와 모든 대칭 분포의 규격화된 완제품인 표준정규분포를 살펴봤습니다.


그런데 말이죠. 세상 모든 데이터가 정규분포를 이루는 것은 아닙니다. 소득 분포는 한쪽으로 치우쳐 있기도 하고, 주사위의 눈은 평평하며, 또 어떤 데이터는 들쭉날쭉 제멋대로입니다. 우리가 배웠던 통계의 원리들이 '정규분포가 아닌 데이터의 세상'에서도 과연 쓸모가 있을지, 즉 제대로 된 예측을 가능하게 할지 의문이 생깁니다. 이번 단원에서 마주하게 될 중심극한정리는 바로 이러한 물음에 꽤 명확한 답변을 해 줍니다. 불확실한 현실을 예측하는 데 있어 강력한 도구인 통계학에 있어 매우 중요한 개념이기도 합니다.


2. 주사위로 보는 평균의 원리


한번 상상을 해보겠습니다. 1부터 6까지 적혀 있는 정상적인 모양의 주사위가 있습니다. 주사위를 던질 때 각 숫자가 나올 확률을 생각해 보겠습니다. 우선 그냥 주사위 한 개를 던질 때(n=1)입니다. 이 경우 데이터가 [1], [2], [3], [4], [5], [6] 각각이 나올 수 있습니다. 따라서 확률은 16.7%입니다. 이 경우 데이터의 분포는 모든 막대의 높이가 같은 직사각형(Uniform Distribution)입니다. 이렇듯 n=1일 때는, 예측이 불가능합니다. 다음에 무엇이 나올지 전혀 모르는 무질서 상태입니다.


이번에는 주사위를 두 개를 던질 때(n=2)입니다. 주사위 두 개를 던져서 평균을 내어 봅시다. 만약 두 개의 주사위를 던져서 합이 2(평균 1)인 경우를 생각해 보면, [1,1] 조합이 있습니다. 합이 12(평균 6)인 경우는 어떨까요? 이 경우를 생각해 보면 [6,6]의 조합이 있습니다. 그렇다면, 합이 7(평균 3.5)인 경우는 어떨까요? 이 경우는 [1,6], [2,5], [4,3], [3,4], [5,2], [6,1]의 조합이 있습니다. 즉, 양 끝(1과 6)의 확률은 낮고, 가운데(3.5)로 갈수록 계단식으로 높아지는 삼각형(Triangle) 모양이 나타납니다. 왜냐하면 중간값이 나올 수 있는 조합이 훨씬 많기 때문입니다.


이제는 주사위 10개(n=10)를 던져서 평균을 내어 본다고 가정해 보겠습니다. 예를 들어 데이터가 [1, 3, 2, 6, 4, 5, 2, 3, 4, 1]이 나올 경우 평균은 3.1입니다. 그리고 데이터가 [4, 5, 6, 3, 5, 4, 6, 2, 5, 5]가 나올 경우 평균은 4.5입니다. 주사위 10개 모두 1이 나오거나 6이 나올 확률은 (1/6)의 10승, 즉 거의 0에 가깝습니다. 대부분의 평균은 3.5 근처에서 아주 빽빽하게 모입니다. 이 경우 삼각형에서 각진 부분이 깎여 나가면서 부드워진 완만한 형태의 종 모양이 나타날 겁니다.


중심극한정리는 통계학자들의 경험칙에 따라 n≥30인 경우, 원래 데이터가 주사위였는지, 아니면 다른 어떠한 데이터가 되었든 간에 완벽한 좌우 대칭의 종 모양(정규분포)를 이룬다고 봅니다. 중심극한정리는 "데이터를 많이 뽑으면 원래 데이터(모집단)가 정규분포가 된다."고 말하지 않습니다. 대한민국 소득 불평등이 심해서 모집단이 어느 한쪽으로 쏠려 있는 분포라면, 아무리 많은 표본을 수회에 걸쳐 표집한다고 한들 그 사실은 변하지 않습니다. 중심극한정리가 말하고자 하는 것은 "표본평균의 분포"입니다. 내가 뽑은 30개의 평균이든 다른 누가 뽑은 30개의 평균이든, 이 평균값들을 모두 모아 펼쳐보면 정규분포를 따르게 된다는 것입니다. 바로 이러한 중심극한정리의 원리를 이용하여 우리가 관심 있는 모집단을 추정(예측)하게 되는 것입니다.


3. 수식으로 보는 중심극한정리



중심극한정리의 원리를 수식으로 살펴보겠습니다. 왼쪽에 있는 기호는 x-bar, 즉 표본의 평균입니다. 그리고 오른쪽 괄호 안에 있는 기호들은 각각 ① 모집단의 평균(mu), ② 표본 평균의 분산(σ²/n)입니다. 위 수식은 표본의 평균이 n이 커질수록 갖게 되는 성질입니다.


이 수식이 나타내는 주요한 성질은 크게 두 가입니다. 첫째, 표본 평균들의 평균은 결국 모집단의 평균으로 모인다는 것입니다. 즉, 평균의 회귀입니다. 둘째, 표본 크기가 클수록 데이터의 흩어짐이 줄어든다는 것입니다. 표본을 많이 뽑을수록(n이 커질수록), 표본 평균들이 흩어지는 정도(σ²/n)는 아주 작아집니다. 즉, 표본을 많이 조사할수록 우리의 예측은 훨씬 정확해집니다. 이는 표본 크기의 힘을 나타냅니다.


중심극한정리의 수식이 실제에 적용되는 가장 대표적인 예가 대통령 선거 출구조사입니다. 전 국민의 투표 결과를 다 집계하기 전에도, 우리는 수천 명의 표본 평균만으로 당선자를 예측합니다. 바로 중심극한정리 덕분입니다. 표본의 개수(n)가 충분히 크다면, 우리가 얻은 결과는


참고로 표본 평균의 분산이 σ²/n이기 때문에 표본 평균의 표준편차는 σ/√n입니다. 그런데 표본 평균의 분산을 보면, 시그마의 제곱을 표본의 크기인 n으로 나눈 값입니다. 이는 합계의 분산에 1/n을 곱한 형태입니다. 표본 평균의 분산을 계산하는 과정은 아래와 같습니다.



4. 중심극한정리가 지닌 힘


중심극한정리가 왜 중요할까요? 저는 이 정리가 "예측 가능한 확률"을 만들어 주기 때문이라고 생각합니다. 중심극한정리로 인하여 표본 평균은 정규분포를 이룬다고 가정할 수 있게 됩니다. 정규분포는 좌우 대칭이며, 평균 부근에서 가장 밀도가 높습니다.


이 말은 곧, 우리가 뽑은 표본의 평균이 모집단의 진짜 평균과 아주 동떨어진 '극단적인 값'일 확률은 매우 낮다는 것을 뜻합니다. 반대로, 우리가 계산한 평균이 분포의 봉우리 근처에 있을 확률은 훨씬 높습니다. 우리가 전 국민을 모두 조사하지 않더라도 대통령의 선거 결과를 예측하고, 공장의 불량률을 파악하며, 신약의 효과 유무에 관한 판단을 신뢰할 수 있는 이유는 바로 '이 봉우리에 있을 확률'에 대한 수학적 확신이 있기 때문입니다.


그런 점에서 중심극한정리는 추론의 정당성을 제공하는 유용한 개념입니다. 표본의 크기(n)를 키울수록 오차(σ/√n)가 줄어든다는 사실을 알기 때문에, 우리는 정해진 예산과 시간의 제약에서 어느 정도의 표본만으로 "95%의 확신으로 이 결과는 맞다."라고 말할 수 있는 '신뢰 구간'을 설정할 수 있게 됩니다.


5. 대수의 법칙과 중심극한정리


언뜻 중심극한정리의 내용을 떠올리면, "어찌 되었든 데이터를 많이 뽑으면 정확하게 추정할 수 있다."라고 생각하게 됩니다. 중심극한정리의 수식을 생각해 보면 틀린 말도 아닙니다. 표본의 크기가 클수록 오차가 줄어들고, 이에 표본의 평균이 정규분포를 가지게 됨으로써 모집단의 특성(모평균)을 근사하게 추정할 수 있게 된다는 논리적 전개와 일맥상통하는 부분이 있기 때문입니다. 다만, 통계학의 관점에서는 이를 두 가지로 나누어 설명하고 있습니다.


첫째, 대수의 법칙(Law of Large Numbers, LLN)입니다. 대수의 법칙을 비유하면, "과녁의 중심을 향하는 힘"이라고 할 수 있겠습니다. 대수의 법칙은 표본을 많이 뽑을수록 그 평균값이 실제 모집단의 평균값에 정확히 가까워진다는 '값'에 대한 이야기입니다. 주사위를 10번 던졌을 때, 평균이 2.0이 나올 수도 있지만 10,000번 던지면 기어코 진짜 평균인 3.5에 딱 붙게 된다는 말입니다. 숫자가 커질수록 오차가 사라지고, '진실'에 수렴하는 힘입니다.


둘째, 중심극한정리(CLT)입니다. 중심극한정리를 비유하면, "과녁 주변에 종 모양으로 꽂히는 패턴"이라고 할 수 있겠습니다. 표본을 많이 뽑을수록, 그 평균값들의 흩어진 모양이 정규분포가 된다는 '형태'에 관한 이야기입니다. 주사위의 눈은 원래 평평한 사각형 모양(1~6의 확률 동일)이지만, 30개씩 묶어서 평균을 내어 보면, 그 평균값들이 모인 모양이 종 모양이 되는 것처럼 말입니다.


즉, 대수의 법칙을 통해 우리는 표본의 힘(모집단 특성에 대한 추정)을 신뢰할 수 있게 되는 것이고, 중심극한정리를 통해 그 신뢰를 '확률'이라는 숫자로 계산할 수 있게 되는 것입니다.



6. 중심극한정리는 왜 확률 계산에 중요한가?


우리는 시간, 예산 등의 현실적인 제약으로 인해 보통 표본을 1회 정도 추출합니다. 하지만 중심극한정리 덕분에 이 한 번의 결과가 어떠한 분포 위에 놓여 있는지 알게 됩니다. 예를 들어 전 세계 모든 성인의 평균 키(μ)는 모르지만, 내가 100명을 추출하여 평균을 내어 봤더니 170cm가 나왔다고 가정해 보겠습니다.


중심극한정리는 "네가 100명씩 추출한 표집의 시행을 무한히 반복하면, 그 평균값들이 진짜 평균(μ)을 중심으로 하는 종 모양(정규분포)을 그리며 흩어져 있을 거야."라고 알려 줍니다. 이 분포를 알면, "내가 방금 뽑은 170cm라는 숫자가 진짜 평균(μ)로부터 특정한 거리(오차범위) 안에 들어와 있을 확률"을 계산할 수 있게 됩니다. 즉, '나의 표본'과 '진짜 평균'의 거리를 잴 수 있게 되는 겁니다.


정규분포의 성질에 따르면, 전체 데이터의 95%는 평균으로부터 약 ±1.96σ 안에 들어옵니다. 진짜 평균(μ)이 어딘가에 있을 겁니다. 그리고 표본 평균들은 이 진짜 평균(μ)을 중심으로 정규분포를 그리며 퍼져 있습니다. 따라서 내가 무작위로 추출한 단 하나의 표본 평균이 진짜 평균(μ)으로부터 일정 거리 안에 존재할 확률이 95%입니다. 결국, 내가 뽑은 표본 평균이 운이 나쁜 5%에 속할 정도로 아주 극단적인 값이 아니라면, 표본 평균을 중심으로 구간을 그었을 때, 그 안에 진짜 평균이 포함될 확률이 95%가 되는 것입니다.


7. 중심극한정리의 맹점


중심극한정리는 통계학에서 매우 중요한 개념이지만, 이것의 기계적 적용은 매우 위험할 수 있습니다. 우리는 중심극한정리가 가진 힘에 대해서도 이해해야 하지만, '평균'이라는 도구 자체가 가진 한계에 대한 고민도 필요합니다. 중심극한정리는 "표본 평균들이 정규분포를 이룬다."라는 사실을 보장합니다. 하지만, 그 '평균'이라는 값이 원래 데이터를 대표하기에 부적절하다면, 정규분포의 모양이 나오는 것 자체가 무의미할 수 있습니다.


다봉형(Multimodal) 분포의 경우를 살펴보겠습니다. 예를 들어, 어떤 동네에 키가 아주 작은 소인족과 키가 아주 큰 거인족만 산다고 가정해 보겠습니다. 이 경우 데이터의 봉우리가 두 개인 다봉형 분포가 됩니다. 이 동네 사람들을 무작위로 30명 이상 추출하여 평균을 내면, 중심극한정리에 의해 그 평균값들은 '소인과 거인의 중간값' 근처에서 아름다운 종 모양을 만들 것입니다.


하지만, 이 평균값은 실제 동네에 존재하지 않는 허구의 수치입니다. 동네에는 소인이나 거인만 있을 뿐, 중간 키를 가진 사람은 아무도 없습니다. 결론적으로 중심극한정리로 정규분포를 만들었어도 그 중심(평균)이 현실을 대표하지 못한다면 통계적 추론은 아무런 가치가 없습니다.


또 다른 예로 소득 분포와 같이 아주 극단적으로 한쪽으로 쏠린 비대칭(Skewed) 분포가 있습니다. 이른바 "빌 게이츠 효과"입니다. 대다수가 저소득층인데 소수의 Super rich가 평균을 확 끌어올리는 상황이라면, 표본 평균의 정규분포는 '대다수 서민의 삶'과는 동떨어진 높은 지점에 봉우리를 만들게 됩니다. 이 경우에도 중심극한정리는 작동하여 '종 모양'을 만들겠지만, 그 종 모양의 중심이 '보통 사람'의 기준이 되어 주지는 못합니다.


중심극한정리는 분명 위대한 법칙입니다. 하지만 중심극한정리는 우리에게 '평균이 보이는 모양'을 알려줄 뿐, 그 평균이 우리가 알고자 하는 진실을 보장하지 않습니다. 만약 우리가 분석하려는 세상이 극단적으로 불평등하거나(비대칭), 서로 다른 두 집단이 섞여 있다면(다봉형), 기계적으로 평균을 내고 정규분포를 만드는 것은 오히려 '진실을 가리는 독'이 될 수 있습니다. 결국 통계란 숫자의 계산 이전에 '우리가 다루는 데이터가 어떤 얼굴을 하고 있는가?'를 들여다보는 시선에서 시작되어야 합니다. 중심극한정리의 강력한 힘에 휘둘리기 전에, 우리가 닿고자 하는 것이 무엇인지 놓지 않으려는 의지가 필요합니다.


8. 중심극한정리와 표준정규분포


중심극한이론에 관한 미국 및 유럽의 여러 교육 채널을 보면, 이러한 문장이 있습니다. "The Central Limit Theorem states that when independent random variables are added, their properly normalized sum tends toward a normal distribution." 이 문장을 한글로 옮기면 독립적인 확률변수들을 더하고, 그 합을 적절히 표준화하면 그 결과는 정규분포에 근사한다는 의미입니다. 좀 더 나아가 독립변수를 더한 합의 표준화를 통해 표준정규분포로 규격화할 수 있음을 시사합니다. 표본 평균의 분포도 마찬가지 원리입니다. 중심극한정리에 의해 표본 평균의 분포도 정규분포를 갖기 때문에, 표본의 평균도 표준화가 가능합니다.


중심극한정리는 원래 "독립적인 변수들의 합계의 분포는 정규분포를 향한다."라는 논의에서 시작됩니다. 왜냐하면 통계학의 본질이 '더하는 것'에 있기 때문입니다. 통계학에서 밝히고 있는 추정, 검정, 표본에 관한 이론, 그리고 모든 통계적인 절차에는 더하는 행위가 반복됩니다. 표본의 평균도 더하기, 표본의 분산도 더하기, 회귀분석에서의 '최소제곱법' 역시 오차 제곱의 더하기, 로지스틱 회귀에서 'Log likelihood' 역시 더하기, 신뢰구간 및 가설검정의 계산에 있어서도 더하기의 성질로 도출되는 평균에 기반합니다. 이렇듯 통계는 사실상 '더하기의 과학'입니다. 그래서 '합의 분포'가 어떠한 모양을 가질 것인지는 매우 중요합니다.


현실에서 관측되는 거의 모든 데이터는 여러 요인(독립변수)의 합으로 이뤄져 있습니다. 시험 점수는 지식, 컨디션, 운, 태도, 환경, 측정오차의 합이라고 할 수 있습니다. 키는 어떨까요? 유전, 영양, 수면, 질병, 환경적 요인의 합이라고 할 수 있습니다. 고객 만족도와 같은 비즈니스 지표는 어떨까요? 서비스(품질), 브랜드, 가격, 고객심리와 같은 요인들의 합이라고 할 수 있습니다. 이 모든 것들은 우리가 정확히 알 수 없는 변수들의 합입니다. 그런데 이러한 '합'은 중심극한정리에 의해 정규분포에 가깝게 나타납니다. 그래서 이 세상에는 정규분포의 개념이 자주 등장합니다.


중심극한정리에 따르면, 독립변수들의 합계는 다음과 같은 표준화 과정을 통해 정규분포로, 그리고 평균은 0이고 표준편차는 1인 표준정규분포의 모양을 갖게 된다고 말합니다.



위 방정식의 ①은 개별 독립변수(원자료)의 합과 기대 합계의 차이를 뺀다는 뜻입니다. 개별 독립변수의 합인 ∑xi에 대하여 "기대되는 평균적인 합"은 nμ입니다. 예를 들어, 어떤 한 사람의 평균 점수가 μ=80점이라고 할 때, 10명의 합계를 추정함에 있어 10×80=800점이 가장 자연스러운 기대치입니다. 따라서 ①은 실제의 합계가 기대 합계보다 얼마나 크거나 작은지를 보려는 것입니다. 이를 통해 표본 평균의 중심을 0으로 옮기는 과정을 수행하게 됩니다.


위 방정식의 ②는 ①의 과정을 거친 다음 σ√n으로 나누라는 것입니다. 그런데 왜 σ√n으로 나누라는 걸까요? 이는 n개의 데이터를 모두 더하면, 데이터의 퍼진 정도(표준편차)가 √n배 커지기 때문입니다. 예를 들어, 주사위를 1번 던질 경우 가능한 값은 1~6입니다. 따라서 주사위를 1번 던질 경우의 표준편차는 약 1.7 정도 나옵니다. 반면 주사위를 100번을 던진다고 하면 가능한 값은 100~600입니다. 이렇게 주사위를 100번 던진다고 할 때 표준편차는 1.7보다 훨씬 크게 나타납니다. 실제로는 약 1.7×√100=17정도 됩니다. 주사위를 한 번 던질 때의 표준편차를 σ라고 하면, 주사위를 100번 던질 때의 표준편차는 σ√n가 되는 식으로 흩어짐이 증가한다는 것입니다.


②와 관련하여 여전히 받아들이기 힘든 부분은 개별 데이터 n개를 더할 경우 표준편차도 n배 커지는 것 아닌지, 즉 √n배만 커지는 것인지에 관한 점입니다. 이에 우리는 모든 값이 ±1만 있는 세계에 있다고 가정해 보겠습니다. 이 경우 평균은 0이고, 표준편차는 1입니다.


만약 동시에 2개의 값을 고를 수 있다고 가정해 보겠습니다. 이 경우 가능한 합은 [-1, -1]=-2 [-1, 1]=0, [1, -1]=0, [1, 1]=2입니다. 즉, 가능한 값이 -2, 0, 2입니다. 이 경우 분산은 2이고, 표준편차는 √2≒1.4입니다. 동시에 4개의 값을 고를 수 있다면 어떨까요? 이 경우 가능한 값은 -4, -2, 0, 2, 4입니다. 이 경우 분산은 4이고, 표준편차는 √4=2가 됩니다. 즉, 합계의 변동 패턴은 n=1(1), n=2(√2), n=4(√4)로 나타납니다.


이상의 내용을 종합해 볼 때, 분모의 [σ√n]에서 'σ'은 개별 데이터의 변동성 자체를 수치적으로 말해주는 값이라고 할 수 있으며, '√n'은 그러한 변동성 수치가 "데이터의 합계로 이어졌을 때 얼마나 커지는가?"를 나타내는 비율이라고 할 수 있습니다. 따라서 개별 데이터 n개의 값을 더할수록 커지는 표준편차의 Scale을 조정하려면 σ과 √n을 모두 고려해야 합니다.


지금까지 개별 독립변수를 모두 더한 합의 분포가 적절한 표준화 과정을 통해 표준정규분포의 형태를 갖게 되는 과정을 살펴봤습니다. 개별 독립변수들의 합의 분포가 표준화를 통해 표준정규분포의 형태를 갖게 된다는 말은 본질적으로 합의 성질과 같은 정보[∑X=n×표본의 평균(x-bar)]를 담고 있는 표본 평균의 분포도 표준정규분포의 형태를 가질 수 있다는 말과 같습니다. 그리고 이를 뒷받침하는 이론이 중심극한정리입니다. 위의 식과 같이 독립변수들의 합의 분포를 표준화하는 계산식을 활용하여 표본 평균의 표준화 공식을 도출하면 아래와 같습니다.



표본 평균의 표준화 공식은 마지막 단계인 ⑥의 식과 같습니다. 우리가 지난 단원에서 정규분포를 표준정규분포로 변환하는 과정에서 사용한 표준화 공식(z-score 계산식)은 z=(x-μ)/σ이었습니다. 표본 평균의 표준화 계산식도 이와 유사합니다. 다만 분모의 값은 각 표본 평균의 변동성을 수치적으로 나타내는 표준편차의 값(σ)을 √n으로 나눈 값입니다. 즉, [σ√n]입니다. 이를 평균의 표준오차(Standard Error of mean, SEM)라고 합니다.


즉, 표본 평균들의 분포(Sampling distribution)의 표준편차가 SEM이며, 중심극한정리는 이 Sampling distribution의 분산이 σ²/n으로 가는 과정을 설명한 것입니다.








월, 화, 수, 목, 금, 토, 일 연재