정규분포 l 카이제곱분포 l t-분포 l F-분포
세상에는 수많은 데이터 분포(확률변수에 대한 분포, '확률분포')가 있습니다. 저는 기초통계와 관련한 학습 과정을 연재하면서 정규분포, t-분포, F-분포를 활용하여 데이터 분포에 관한 이해를 더하고 가설검정 등을 통해 통계적인 유의성을 살펴보는 데 사용했습니다. 저와 달리 어떤 사람은 확률분포를 통계 관련 시험을 위해 공부하기도 하고, 또 어떤 사람은 데이터 분석에서 시각화를 위해 사용하기도 합니다. 그 목적이 무엇이 되었든 확률분포는 '데이터가 어떤 방식으로 퍼져 있고, 얼마나 불확실하며, 무엇을 비교하고 있는지'를 보여주는 일련의 언어라고 할 수 있습니다.
오늘은 통계학에서 대표적으로 활용되는 확률분포들을 모아 주요한 내용들을 정리하고, 이들 분포가 어떻게 연결된 세계관을 갖고 있는지 수식적으로 음미해보는 시간을 갖고자 합니다. 이번 단원에서 정리하려는 확률분포는 정규분포, 카이제곱분포, t-분포, F-분포입니다. 지난 시간들에서 다뤘던 내용을 복습하는 의미도 있지만, 새롭고 낯선 분포의 세계와 조금 더 친해지는 시간이 될 것으로 생각합니다. 특히 가설검정에 관한 기본 골격과 개념에 대한 학습을 시작으로 t-검정 시리즈와 일원분산분석까지 마친 시점에서 확률분포에 대한 개념을 더한다면 앞으로의 학습 여정에 많은 도움이 될 것 같습니다.
만 5세 6개월이 된 저의 딸이 좋아하는 산리오 친구들과 오늘 소개하고자 하는 확률분포의 특징을 매칭해봤습니다. 아래와 같이 헬로키티와 정규분포, 시나몬롤과 t-분포, 쿠로미와 카이제곱분포, 마이멜로디와 F-분포로 짝을 지었습니다.
[ 가장 표준적이고 균형 잡힌 분포 ]
헬로키티는 산리오 세계관에서 가장 대표적이고 안정적인 이미지의 캐릭터입니다. 강한 개성을 갖고 한쪽으로 치우치기보다 누구나 편안하게 받아들일 수 있는 보편성과 균형감을 갖고 있습니다. 단정하고 정돈된 인상, 과하지 않은 표현, 중심이 잘 잡힌 분위기 때문에 이 세계관에서 일종의 "기준점" 같은 느낌을 선사합니다. 이런 점이 정규분포와 잘 닮아 있습니다.
정규분포는 확률분포 가운데 가장 대표적인 형태입니다. 가운데 평균을 중심으로 좌우가 완전히 대칭이고, 평균 근처에 데이터가 가장 많이 몰리며, 양쪽 끝으로 갈수록 빈도가 자연스럽게 줄어듭니다. 극단적인 값은 드물고, 대부분의 값은 중심 주변에 모입니다. 그래프의 모양도 가장 안정적이며 균형 잡힌 종 모양입니다.
정규분포는 "모든 것이 중심을 기준으로 균형 있게 퍼진 모양"이라고 기억하면 좋습니다. 정규분포와 관련한 핵심 연결어는 [ #중심 #대칭 #균형 #표준 #안정감 ] 입니다.
[ 정규분포와 닮았지만, 조금 더 조심스럽고 퍼져 있는 분포 ]
시나몬롤은 전체적으로 부드럽고 포근한 인상을 주는 캐릭터입니다. 가볍고 몽글몽글한 분위기가 있으며, 헬로키티처럼 또렷하게 중심이 잡혀 있기보다는 더 유연하고 부드러운 느낌의 캐릭터입니다. 다른 캐릭터보다 더 말랑말랑(유연)하고, 양쪽의 하얀 귀가 넓게 퍼져 있습니다. 이러한 인상은 t-분포와 꽤 잘 어울립니다.
t-분포는 정규분포와 매우 비슷한 대칭형 분포의 형태입니다. 가운데를 중심으로 좌우가 대칭이라는 점은 정규분포와 같지만, 꼬리가 더 두껍습니다. 이 말은 평균 근처에만 값이 모이는 것이 아니라 양쪽의 바깥쪽으로도 상대적으로 더 많은 가능성을 남겨둔다는 뜻입니다. 즉, "불확실성을 조금 더 크게 반영하는 분포"라고 할 수 있습니다.
왜 이런 차이가 생길까요? 표본의 크기가 적을 때는 모집단의 표준편차를 정확히 알기 어렵습니다. 뿐만 아니라 현실의 Data Set은 모수에 대한 특성을 파악하는 데 한계가 있습니다. 그래서 평균을 비교할 때 정규분포보다 더 신중한 분포가 필요한데, 그때 등장하는 것이 t-분포입니다. 정규분포가 이미 잘 정리된 세계를 보여주는 것이라면, t-분포는 아직 정보가 충분하지 않아서 조금 더 조심해야 하는 세계라고 할 수 있습니다.
이와 같이 t-분포는 표본의 크기가 적거나 모수에 대한 특징을 알 수 없을 때 필연적으로 발생할 수밖에 없는 불확실성을 반영하기 위해 "꼬리가 두꺼워진 분포"의 특징을 갖는 것으로 기억하면 좋습니다. t-분포와 관련한 핵심 연결어는 [ #정규분포와 유사한 분포 #더 부드러운 분포 #더 퍼져 있는 분포 #꼬리가 두꺼운 분포 #작은 표본의 불확실성 ] 입니다.
[ 대칭이 아니라 한쪽으로 몰린 분포 ]
쿠로미는 장난기 많고, 삐딱하고, 전형적인 반듯함과는 거리가 있는 캐릭터로 받아들여집니다. 귀엽지만 동시에 날카로운 인상이 있고, 개성이 더 강하게 느껴집니다. 즉, 균형감이나 안정감보다는 한쪽으로 더욱 강조된 에너지가 있는 캐릭터입니다.
이런 점이 카이제곱분포와 잘 맞습니다. 카이제곱분포는 정규분포처럼 좌우 대칭이 아닙니다. 왼쪽은 0 근처에서 시작하고, 오른쪽으로 긴 꼬리를 가진 비대칭 분포입니다. 값은 음수가 나올 수 없고, 항상 0 이상입니다. 그래서 그래포 모양만 봐도 정규분포와는 완전히 다른 형태입니다.
카이제곱분포가 이렇게 생긴 이유는, 이 분포가 기본적으로 제곱값들의 합과 관련이 있기 때문입니다. 무언가를 제곱하면 음수가 사라지고 모두 0 이상의 값이 됩니다. 그래서 자연스럽게 왼쪽은 막히고, 오른쪽으로 길게 늘어진 형태가 나옵니다. 이 분포는 분산 추정, 적합도 검정, 독립성 검정과 같은 데서 중요하게 활용됩니다. 카이제곱분포와 관련한 핵심 연결어는 [ #비대칭 #0 이상 #오른쪽 꼬리 #치우침 #분산과 제곱의 세계] 입니다.
[ 혼자보다는 관계와 비교 속에서 의미가 생기는 분포 ]
마이멜로디는 부드럽고 사랑스러운 이미지의 캐릭터이지만, 단순히 '귀여움' 하나로 설명되지 않습니다. 다른 캐릭터와 함께 놓였을 때 조화가 잘 살아나고, 관계 속에서 역할이 또렷해지는 캐릭터입니다. 혼자서 강하게 튀기보다 비교와 조합 속에서 의미가 더 잘 드러나는 캐릭터입니다. 특히 산리오 세계관에서 쿠로미의 장난기, 반항기, 천방지축(변동) 이미지와 비교하여 순수함, 따뜻함, 다정함의 이미지가 대비됩니다.
이런 점이 F-분포와 잘 연결됩니다. F-분포는 기본적으로 두 변동성의 비율, 즉 분산과 분산의 비교에서 도출되는 분포입니다. 카이제곱분포와 같이 0 이상에서 시작하고, 오른쪽 꼬리가 길지만 핵심은 '비교'에 있습니다. ANOVA에서는 집단 간 변동과 집단 내 변동을 비교하고, 회귀분석에서는 설명된 변동과 설명되지 않은 변동을 비교할 때 F-값이 등장합니다. 즉, F-분포는 혼자 존재하는 값보다 둘 이상의 관계를 비교할 때 의미가 생기는 분포입니다.
F-분포는 하나의 점수가 아니라 두 종류의 변동성을 비교한 비율이며, 그 본질은 언제나 비교와 관계에 있습니다. F-분포와 관련한 핵심 연결어는 [ #비교 #관계 #비율 #두 변동성 #ANOVA와 회귀분석 ] 입니다.
쿠로미는 장난기 많고, 삐딱하고, 전형적인 반듯함과는 거리가 있는 캐릭터로 받아들여집니다. 귀엽지만 동시에 날카로운 인상이 있고, 개성이 더 강하게 느껴집니다. 즉, 균형감이나 안정감보다는 한쪽으로 더욱 강조된 에너지가 있는 캐릭터입니다.
지금부터는 가장 대표적인 정규분포를 시작으로 카이제곱분포, t-분포, F-분포가 서로 연결된 세계관을 갖고 있다는 점을 수식의 전개를 통해 살펴보겠습니다. 결론적으로 각 분포의 전체적인 관계도를 정리하면 정규분포(Z)는 "모든 데이터 분포의 기본", 카이제곱(χ^2)은 "정규분포를 제곱해서 더한 것", t-분포는 "정규분포를 카이제곱의 제곱근으로 나눈 것", F-분포는 "카이제곱을 또 다른 카이제곱으로 나눈 것"이라고 할 수 있습니다.
[ 평균 차이에 대한 표준화 공식 ]
우리가 평균을 비교할 때 가장 먼저 떠올리는 표준화 공식(Z)은 아래와 같습니다. 그런데 문제는 모집단의 표준편차(σ) 입니다. 이건 현실적으로 정확한 값을 알기 어렵습니다. 그래서 우리는 모집단의 표준편차 대신 표본의 표준편차(s)를 사용해야 합니다. 이상을 메우기 위한 현실적인 방법을 채택하게 되면서, 우리는 "t-통계량이라는 것의 근본적인 수학적 의미가 무엇인지"를 파헤치게 됩니다.
[ 카이제곱의 정체 ]
카이제곱(Χ^2, chi-squared) 분포는 이름이 다소 생소하게 들리지만, '제곱'과 '합'이라는 두 개의 키워드로 설명되는 분포라고 할 수 있습니다. 우리가 통계학에서 궁금한 것은 보통 "이 데이터가 평균에서 얼마나 떨어져 있는가(오차)" 입니다. 그런데 평균보다 큰 값과 작은 값을 그냥 더하게 되면 서로 상쇄되어 0이 되는 문제가 있어, 오차의 크기를 잴 수가 없습니다. 그래서 마이너스를 플러스로 만들기 위해 각 오차를 제곱하여 전부 더하게 되면 카이제곱이 됩니다. 이에 카이제곱을 정의할 때, "표준정규분포(Z)를 따르는 값들을 제곱해서 모두 더한 것"이라고 합니다.
그래서 카이제곱의 값은 0보다 작을 수 없습니다. 제곱을 해서 모두 더했기 때문입니다. 이에 그래프는 0부터 시작해서 오른쪽으로 길게 뻗은 모양입니다. 또한 자유도가 커지면(데이터가 많아질수록) 오차의 합도 커지기 때문에 그래프의 봉우리가 점점 오른쪽으로 이동하며 완만해집니다. 아래는 0부터 5까지의 +0.1 단위의 확률변수에 대한 카이제곱분포를 자유도 5와 자유도 8인 경우를 비교하여 생성한 그래프입니다.
[ 표본 분산과 카이제곱과의 관계 ]
통계학자들은 우리가 계산한 표본의 분산(s의 제곱)이 수학적으로 카이제곱분포와 아주 밀접한 관계가 있다는 것을 알아냈습니다. 구체적으로 아래와 같은 관계가 성립합니다. 이를 말로 요약하면 "우리가 추출한 표본들이 얼마나 변동성이 있는지 측정(표본 분산)하면, 일정한 규칙(카이제곱분포)을 따르게 된다."라는 뜻입니다.
예를 들어 대한민국 모든 성인의 키와 같이 전체 집단의 분산을 알고 싶을 때, 모든 사람을 조수사하는 것은 불가능하기 때문에 일부만 뽑아서 표본의 분산을 구하게 됩니다. 이때, "표본을 뽑을 때마다 표본 분산의 값은 계속 바뀔텐데, 이걸 어떻게 믿고 전체를 추정할 수 있을까?" 라는 의문이 생깁니다. 이에 위 공식은 두 가지의 관점에서 해답을 제시하고 있습니다.
첫째, 분포의 예측 가능성입니다. 표본 분산에 [(n-1)/σ^2]와 같은 일정한 매개변수를 적용하면, 그 값들이 제멋대로 나오는 것이 아니라 카이제곱이라는 일정한 모양의 그래프를 그리며 나타난다는 것을 수학적으로 증명한 것입니다.
둘째, 모분산의 추정입니다. 이러한 규칙(분포)를 알고 있기 때문에, 거꾸로 우리가 계산하여 얻은 표본의 분산을 가지고 "진짜 모분산"은 아마 이 정도의 범위 안에 있을 것이라는 예측(신뢰구간 추정)을 할 수 있게 됩니다.
[ t-통계량: 평균의 표준적인 차이를 표본의 변동성으로 나눈 값 ]
표본 분산과 카이제곱과의 관계를 나타내는 식을 표본의 표준편차(s)에 대해 정리하면, s라는 값에는 우리가 모르는 모집단의 표준편차(σ)와 카이제곱분포가 동시에 포함되어 있다는 것을 알 수 있습니다.
위와 같이 계산된 표본의 표준편차를 가지고 t-통계량을 계산하는 수식에 대입하면, t-통계량은 ① 평균 차이의 표준화 공식(z), ② 카이제곱, ③ 표본의 크기(자유도=n-1)만 남게 되는 것을 알 수 있습니다. 이를 통해 t-통계량은 [평균에 대한 표준적인 차이]를 [표본의 변동성]으로 나눈 값임을 알 수 있으며, [표본의 변동성]은 카이제곱의 성질을 가지고 있다는 것을 확인할 수 있습니다.
우리가 원래 사용하는 표준정규분포(Z)는 모분산을 알고 있다는 전제에서 만들어진 이상적인 분포입니다. 하지만 현실의 한계로 전체 집단의 분산을 알 길이 없는 상황에서는 어쩔 수 없이 표본의 분산을 사용해야 하는데 이때 발생하는 불확실성을 해결하기 위해 카이제곱을 빌려온 것이 이 공식의 핵심이라 하겠습니다.
따라서 t-분포는 표본이 적을수록 더 조심스럽게(보수적으로) 판단하겠다는 의미를 담고 있습니다. 만약 표본의 개수가 적으면(v가 작으면), 분모에 있는 카이제곱 값이 들쭉날쭉해집니다. 그 결과 t-통계량은 정규분포보다 더 옆으로 퍼진(꼬리가 두꺼운) 모양이 됩니다. 즉, "표본이 적기 때문에 나의 예측이 틀릴 확률이 더 높다."라는 것을 인정하는 그래프가 그려집니다.
반면, 데이터가 많아지면 분모의 값이 서서히 1에 가까워집니다. 그러면 t와 Z의 값이 근사하게 되어 결국 우리가 잘 아는 표준정규분포로 돌아가게 됩니다. "데이터가 많아졌으니 이제 모분산을 몰라도 충분히 정확성 높은 예측을 할 수 있다."라는 신뢰를 갖게 되는 것입니다.
[ t-통계량의 분모의 정체: "표본 vs 진실"의 비율 ]
표본 분산과 카이제곱과의 관계를 정리한 식을 t-통계량 계산식의 분모에 대입하면 결과적으로 t-통계량 계산식의 분모는 "표본의 표준편차와 진짜 표준편차를 나눈 값"으로 정리됩니다. 만약 표본의 크기가 적다면 진짜 표준편차를 제대로 파악하지 못하고, 매번 계산할 때마다 값의 변동이 클 것입니다. 반면, 표본의 크기가 크다면 대수의 법칙이 적용되어 진짜 표준편차에 근사한 결과가 나올 것이고, 이에 분자와 분모의 값이 거의 같기 때문에 그 비율이 1에 가까워지는 것입니다. 즉, [ t=Z/1 ]이 되어 표준정규분포(Z)와 동일한 형태의 종 모양이 형성되는 것입니다.
t-분포가 "평균과 변동성(카이제곱)"을 비교하는 도구로서의 성격을 갖고 있다면, F-분포는 "변동성(카이제곱)과 변동성(카이제곱)"을 서로 비교하는 도구로서의 성격을 갖고 있습니다. 이 두 개의 분포가 어떤 세계관으로 연결되는지 단계별로 살펴보겠습니다.
[ F-분포의 정의: 카이제곱 나누기 카이제곱 ]
F-분포는 사실 단순한 비율입니다. 두 개의 서로 다른 그룹(예컨대 집단 간 변동 그룹과 집단 내 변동 그룹)의 불확실성을 비교하고 싶을 때 사용할 수 있습니다. 이를 수식으로 나타내면 아래와 같습니다. 여기서 [분자]는 첫 번째 그룹의 카이제곱(변동성)을 그 자유도로 나눈 값이고, [분모]는 두 번째 그룹의 카이제곱(변동성)을 그 자유도로 나눈 값입니다. 즉, "어느 그룹의 변동이 더 들쑥날쑥한가?"를 비율 값으로 나타낸 것이 F-분포입니다.
[ t-분포와 F-분포의 연결: t^2=F ]
앞서 소개한 t-분포에 관한 공식(t-통계량을 계산하는 공식)을 통째로 제곱하면 F-분포와 연결됩니다. 아래와 같이 t-분포에 대한 공식을 제곱하면 자유도가 (1, df)인 F-분포가 됩니다. 그래서 "두 집단의 평균이 다른가?"와 같은 t-검정과 "여러 집단의 평균이 다른가?"와 같은 F-검정(ANOVA)는 수학적으로 같은 뿌리를 두고 있다고 말하고 있습니다.
t-분포 공식을 제곱한 방정식을 보면, Z의 제곱은 카이제곱입니다. 표준정규분포(Z)를 제곱하면 자유도가 1인 카이제곱이 됩니다. 카이제곱의 정의가 표준정규분포의 제곱의 합이기 때문입니다. 결국 t의 제곱은 "자유도가 1인 카이제곱을 자유도 df의 카이제곱으로 나눈 형태"가 되는 것입니다.
※ 참고: 데이터 시뮬레이션을 통한 확인(t의 제곱=F)
마지막으로 가상의 Data를 통해 표준정규분포, 카이제곱분포, t분포, F분포의 관계를 확인하겠습니다. Z열은 우리가 표집 과정을 거쳐 계산한 평균과 실제 모집단의 평균 차이가 얼마인지를 발견한 값들, Chi열은 실제 모집단이 갖고 있는 순수한 변동성(제곱)의 크기를 모아 놓은 값들, t열은 Z값과 카이제곱의 제곱근의 비율 값들(자유도 10 가정), F열은 Z값과 Chi값의 비율(자유도 10) 값들의 모음입니다. 녹색 음영으로 표시된 바와 같이 t의 제곱이 F값과 같음을 알 수 있습니다.