표준정규분포

심화편: z-score의 이해

by Yimhyehwa



1. Learning Focus


지난 단원에서 우리는 데이터 분포를 해석하는 기초를 다졌습니다. 평균과 표준편차를 통해 개별 데이터 포인트의 구체적인 위치를 파악했다면, 확률밀도함수(PDF)와 누적분포함수(CDF)를 통해서는 Data Set의 전체적인 흐름을 읽는 법을 배웠습니다. PDF가 데이터의 밀집도를 보여주는 '지도'라면, CDF는 특정 구간에 데이터가 포함될 '확률'을 면적으로 계산하는 '계산기' 역할을 했습니다.


우리는 또한 현실 세계의 다양한 '원재료'인 정규분포를, 평균 0과 표준편차 1이라는 '표준 규격의 완제품'인 표준정규분포로 변환하는 '표준화'(Standardization)' 과정을 살펴보았습니다. 이 과정을 통해 도출된 z-score는 서로 다른 데이터들을 동일한 잣대로 비교할 수 있게 해줍니다.


이번 시간은 표준정규분포의 심화편으로 이 z-score를 도구로 하여, 실제 데이터가 특정 범위에 존재할 확률을 정교하게 산출하는 방법을 탐구해 보겠습니다. 참고로 표준정규분포는 다양한 통계 검정에서 사용되는 임계값을 계산할 때 그 기반이 되는 개념이기도 합니다.


2. 왜 표준정규분포를 사용해야 하는가?


세상의 정규분포는 꽤 많습니다. 평균 175 및 표준편차 10인 Data Set, 평균 60 및 표준편차 8인 Data Set, 평균 500 및 표준편차 30인 Data Set, 평균 4.2 및 표준편차 1.1인 Data Set 등 모든 Data Set이 저마다 다른 규모, 단위, 폭을 가집니다. 이렇게 서로 다른 분포에서 확률을 계산하는 절차를 통일하려면, "어떠한 정규분포라도 평균과 표준편차를 표준화하여 하나의 동일한 축으로 변환"해야 합니다. 그 결과가 바로 z-score, 즉 표준점수입니다.


3. z-score에 대한 직관적 이해


z-score의 의미를 간명하게 정리하면, "해당 데이터 값이 평균에서 몇 표준편차 떨어져 있는가?" 입니다. z-score를 계산하려면 원래 데이터 갑을 평균 0, 표준편차 1로 변환해야 합니다. 이를 위해 '표준화 공식'에 해당 데이터 값을 대입하게 되는데 그 공식은 [z=(x-μ)/σ]입니다. 예를 들어 A고등학교 2학년 3반 학생 40명의 키가 평균 175cm(μ), 표준편차가 10cm(σ)라고 가정해 보겠습니다. 그렇다면 데이터가 180cm, 185cm, 165cm, 195cm인 경우 z-score는 다음과 같습니다.


180cm → 평균보다 +5cm → z=(180-175)/10= +0.5σ

185cm → 평균보다 +10cm → z=(185-175)/10= +1σ

165cm → 평균보다 -10cm → z=(165-175)/10= -1σ

195cm → 평균보다 +20cm → z=(195-175)/10= +2σ


3. z-score에 기반한 확률 계산


아래는 표준정규분포인 경우에 z-score에 따른 확률(%)을 나타내는 그림입니다. 원래 Data Set을 표준정규분포로 변환한 후 확률을 파악할 때는 실제 계산을 하지 않더라도 이 그림을 통해 확률을 찾아낼 수 있습니다.


image.png ChagGPT: Normal Distribution Diagram or Bell Curve Chart on Blackboard


① 데이터 포인트가 180cm일 때 평균보다 0.5σ 오른쪽에 있습니다. 이 분포에서 "180cm보다 작은 키일 확률"은 z=0.5의 왼쪽 면적에 해당합니다. 위 그림에서 z=0.5 이하의 면적은 평균 0을 중심으로 왼쪽 분포의 전체 확률 50%에 z=0과 z=0.5 사이의 면적인 19.1%를 더한 69.1%입니다. 즉, 180cm보다 작은 키일 확률은 69.1%입니다.


② 데이터 포인트가 185cm일 때 평균보다 1σ 오른쪽에 있습니다. 이 분포에서 "185cm보다 작은 키일 확률"은 z=1의 왼쪽 면적에 해당합니다. 위 그림에서 z=1 이하의 면적은 평균 0을 중심으로 왼쪽 분포의 전체 확률 50%에 z=0과 z=1 사이의 면적인 34.1%를 더한 84.1%입니다. 즉, 185cm보다 작은 키일 확률은 84.1%입니다. 만약 [평균 ±1 표준편차] 범위의 확률은 얼마일까요? 즉, z=-1인 165cm와 z=1인 185cm 사이의 키일 확률 [ P(165≤x≤185) ]을 계산하는 것입니다. z=-1 이하 면적은 15.9%입니다. 반면, z=1 이하 면적은 84.1%였습니다. 따라서 84.1%에서 15.9%를 빼면, 68.2%가 나옵니다.


③ 데이터 포인트가 165cm일 때 평균보다 1σ 왼쪽에 있습니다.이 분포에서 "165cm보다 작은 키일 확률"은 z=-1의 왼쪽 면적에 해당합니다. 위 그림에서 z=-1 이하의 면적은 0.1%, 0.5%, 1.7%, 4.4%, 9.2%를 모두 더한 11.5%입니다. 즉, 165cm보다 작은 키일 확률은 15.9%입니다.


④ 데이터 포인트가 195cm일 때 평균보다 2σ 오른쪽에 있습니다.이 분포에서 "195cm보다 작은 키일 확률"은 z=2의 왼쪽 면적에 해당합니다. 위 그림에서 z=0.5 이하의 면적은 평균 0을 중심으로 왼쪽 분포 전체 확률 50%에 z=0과 z=2 사이의 면적인 47.7을 더한 97.7%입니다. 만약 [평균 ± 2 표준편차 ]범위의 확률은 얼마일까요? 즉, z=-2인 155cm와 z=2인 195cm 사이의 키일 확률 [ P(155≤x≤195) ]를 계산하는 것입니다. z=-2 이하 면적은 2.3%입니다. 반면, z=2 이하 면적은 97.7%였습니다. 따라서 97.7%에서 2.3%를 빼면, 95.4%가 나옵니다.


4. 표준정규분포는 이론을 넘어 실무에도 적용 가능


이상과 같이 z-score를 통해 표준정규준포로 변환한 후, 확률을 계산하는 과정을 살펴봤습니다. 이러한 표준정규분포 이론은 단순한 통계 이론에 그치지 않고, 실무에 다양하게 활용될 수 있습니다. HR의 경우에도 성과평가 점수, 연봉, 근속기간 등을 비교할 때도 효과적인 도구가 됩니다.


예를 들어, 성과평가의 경우에 팀 A와 팀 B의 성과 평균이 다를 수 있습니다. 각 팀의 평가권을 갖고 있는 사람의 성향과 주관이 개입되기 마련입니다. 그렇다면 단순한 점수의 비교는 의미가 없을 수 있습니다. 따라서 각 팀의 평가 Scale(평균/표준편차)을 제거한 뒤에 비교를 할 필요가 있습니다. 이처럼 각 팀의 평가 Scale을 동일하게 맞추는 작업이 '표준화'입니다. 성과평가의 점수를 표준화한 "Standardizing Performance Scores"를 기준으로 한다면, 어느 팀의 평가든 동일한 축에서 공정한 비교를 가능하게 합니다.


또 다른 예로 연봉 분석을 생각해 보면, 직군별로 Pay Positioning이 다를 수 있습니다. 만약 조직 내 개발직군이 있고, 개발직군의 연봉 분포(Mean±SD)가 [ 7,000±1,000 ](만 원)이라고 가정해 보겠습니다. 개발직원의 직원 중 A의 연봉이 8,600만 원이라면 z=1.6입니다. z=1.6을 z-score table에서 찾아보면 상위 5% 수준입니다.


일반 조직에서는 성과와 보상을 매핑하여 Compensation Strategy를 수립하게 됩니다. 이러한 경우 HR에서는 상위 10%, 상위 25%, 하위 10% 등의 Cut-off를 할 때가 왕왕 있습니다. 표준정규분포를 활용한다면 z값과 Percentile을 매칭할 수 있습니다. 아래와 같이 z-score table을 이용하면 간편하게 계산할 수 있습니다.


image.png Reference: https://share.google/BBCQgTE2m9KjVxuau


앞서 우리가 예로 든 Data Set을 표준정규분포로 변환할 경우 z값이 0.5, 1.0, 2.0인 경우의 확률을 살펴봤습니다. 180cm인 경우 z=0.5입니다. ①의 박스를 보면, table의 왼쪽에 Z를 나타내는 0.5, 0.5을 기준으로 소숫점 자릿수에 따라 달라지는 확률이 있습니다. z=0.5은 0.50이기 때문에 0.69146(≒69.1%)입니다. 185cm인 경우 z=1.0입니다. ②의 박스를 보면, table의 왼쪽에 Z를 나타내는 1.0, 1.0을 기준으로 소숫점 자릿수에 따라 달라지는 확률이 있습니다. z=1.0은 1.00이기 때문에 0.84134(≒84.1%)입니다.


이와 같이 우리는 표준정규분포를 활용하여 어느 확률에 속할 그룹을 획정하는 작업을 z-score table로 간편하게 할 수 있습니다. 대표적인 예로 상위 10%, 상위 5%, 상위 2.5%, 상위 1%에 해당하는 z-score을 표시해 두었습니다. 각각 1.28(10%), 1.645(5%), 1.96(2.5%), 2.33(1%)입니다.







월, 화, 수, 목, 금, 토, 일 연재