목표 값과 측정 값의 차이는 우연인가, 유의한 차이인가
지금까지 표본 평균의 분포(중심극한정리), 평균의 표준오차(SEM), 신뢰구간(CI), 그리고 가설검정을 위한 개념과 단계별 절차를 살펴봤습니다. 특히 가설검정 단원을 학습하면서 모수에 대한 정보가 없고, 표본이 부족한 경우에 널리 활용되고 있는 t-분포를 통해 귀무가설의 기각 여부를 판단하는 새로운 개념도 짚어보았습니다.
오늘은 t-분포를 활용하여 통계적인 판단을 내리는 검정 방법 중 하나인 단일표본 t-검정(One sample t-test)에 대해서 살펴보겠습니다. 이 단일표본 t-검정은 "모집단의 평균이 어떠한 특정한 값과 일치하는지 여부를 통계적으로 검정(비교)할 때" 사용됩니다. 즉, 내가 갖고 있는 Data Set의 평균이 특정한 수치 값(기준 값)과 정말로 다른 지를 보는 것입니다. 이를 비즈니스 데이터 분석의 영역에 접목하여 보면, 우리가 Taraget 하고 있는 목표 값과 실제 Data Set으로 검증한 값과의 차이가 통계적으로 유의한 것인지 여부를 살펴보는 과정이라 하겠습니다.
배달 플랫폼을 운영하고 있는 가상의 기업이 있습니다. 이 기업의 비즈니스 목표는 고객의 수요에 대응하여 고객이 필요로 하는 물품을 배달하는 데 걸리는 평균 소요시간을 30분으로 유지하는 것입니다. 이러한 목표가 잘 달성되고 있는지 살펴보기 위해 배달시간에 관한 Data를 수집했고, 다음과 같은 표본 20개를 얻었다고 가정하겠습니다.
[ Data Exploration ] - Jamovi 활용
① 위 그림은 Data Set에 대한 기본적인 통계량과 정규성을 확인해 본 것입니다. 핵심 내용만 간단히 짚고 넘어가겠습니다. 우선 평균과 중앙값이 모두 33.0(분)으로 정확히 일치합니다. 이는 데이터가 치우치지 않고 균형이 잡혀 있음을 의미합니다. 데이터의 중심뿐만 아니라 변동성의 측면에서 표준편차가 1.82로 평균 33.0을 중심으로 데이터가 비교적 좁은 범위(30~36) 안에 모여 있음을 알 수 있습니다.
② 분포의 대칭성 측면에서 왜도 값이 0.0237로 0에 거의 수렴하는 수준입니다. 이는 히스토그램에서 보이듯 분포의 좌우가 고른 대칭을 띠고 있음을 통계적으로 뒷받침하고 있습니다.
③ 단일표본 t-검정을 사용하려면 데이터의 정규성 충족이 중요합니다. 따라서 이를 확인하는 단계가 필요한데, Q-Q plot을 보면 그래프상의 점들이 대각선 직선 위에 거의 완벽하게 놓여 있습니다. 이는 데이터가 정규성분포를 따른다는 강력한 증거라고 할 수 있습니다. 표본의 크기가 20개로 30개 미만이기 때문에 다소 적지만, Q-Q plot과 히스토그램이 정규성을 보여주고 있어 t-검정 수행에 문제가 없을 것으로 보입니다.
④ 이상치(Outlier)도 한번 살펴보겠습니다. 이상치는 단일표본 t-검정에서 "결과를 왜곡하는 값"과 같다고 볼 수 있습니다. t-검정은 "평균"을 가지고 계산하는데, 평균은 극단적인 값 하나에 영향을 많이 받기 마련입니다. 통계학에서는 가장 대중적으로 이상치를 판별하는 기준이 IQR(사분위 범위)을 이용하는 방법입니다.
IQR을 가지고 이상치의 하한과 상한을 계산할 때는, 각각에 대해 "1.5×IQR Rule"을 적용합니다. 즉, 하한의 경우에는 [Q1-(1.5×IQR)]을, 상한의 경우에는 [Q3+(1.5×IQR)]로 계산합니다. 현재 Data Set에서 중앙값이 33.0이고, IQR이 2.25로서 대칭 분포이기 때문에 대략적으로 [Q1=33-2.25/2=31.8]이고, [Q3=33+2.25/2=34.1]로 추정할 수 있습니다. 따라서 이 Data Set의 하한은 28.5, 상한은 37.4 정도로 계산됩니다. 실제 이 Data Set은 30~36의 Range를 갖고 있기 때문에 평균이 왜곡될 가능성이 낮습니다.
[가설 설정]
단일표본 t-검정은 귀무가설(H0)을 [H0: μ=μ0], 대립가설(H1)을 [H1: μ≠μ0] 으로 설정합니다. μ은 실제 Data Set으로 계산한 평균, μ0은 우리가 Target하는 기준 값입니다. 즉, 실제 평균 값이 목표하는 값의 차이가 통계적으로 유의한 것인지를 검정합니다.
[t-통계량: 표본 평균의 표준화 형태]
t-통계량을 계산하는 공식은 이전 단원에서 학습한 것과 동일합니다. "관측된 Data Set에서 계산한 평균이 우리가 기준으로 삼는 값과 얼마나 떨어져 있는지"를 수치로 얻는 과정입니다. 여기서 Data Set의 평균과 기준 값의 차이를 SEM 단위로 측정함으로써 t-통계량을 계산합니다. 그래서 t-통계량은 "관측 값의 평균과 기준 값의 차이가 몇 표준오차만큼 떨어져 있는 것인지"를 알려줍니다.
[ t-통계량 계산 ]
이번 검정은 관측 값의 평균과 기준 값이 통계적으로 유의하게 다른 것인지를 살펴보는 것이기 때문에 양측검정으로 이뤄지며, 유의수준은 0.05(5%)로 설정하겠습니다. 이제 t-통계량을 계산해보겠습니다. 앞서 보신 Data Exploration에서 관측 값의 평균이 33.0이고, 평균의 표준오차가 0.407이었습니다. 그리고 Target 값은 30.0이기 때문에 [t=(33.0-30.0)/0.407=7.38] 입니다.
[ p-value 계산 ]
이 Data Set의 자유도(df)=20-1=19입니다. df=19이고, 양측검정 방식을 따를 때 유의수준 5%의 기준이 되는 값은 아래 t-test table에서 표시된 바와 같이 2.093입니다. 위에서 계산한 t-통계량 7.38이 유의수준 5%의 값과 비교하여 직관적으로 현저한 차이를 보이고 있음을 알 수 있습니다.
그리고 위 table을 보면, df=19, 양측검정 기준으로 유의수준이 0.001일 때 기준 값이 3.883입니다. 우리가 계산한 t-통계량은 7.38이므로, 결국 t=7.38일 때, p-value는 0.001보다도 훨씬 낮다는 것을 알 수 있습니다. 이에 실제 평균 배송시간은 우리가 목표로 한 30분보다 통계적으로 유의미하게 지연되고 있는 상황임을 알수 있습니다.
[ 개념의 유래와 의미 ]
1960~1980년대 당시 심리학과 통계학 분야에서는 p-value만 보고 성공과 실패를 결정 짓는 경향이 강했습니다. 이러한 방식이 매우 위험하다고 주장했던 사람이 제이콥 코헨(Jacob Cohen) 박사였습니다. 코헨 박사는 정말로 중요한 건 효과의 크기(Effect size)라고 강조하며, 이를 계산하는 공식(d)과 해석의 기준(0.2/0.5/0.8)을 정립했습니다. 그러한 공로를 인정 받아 그의 성을 붙여 'Cohen's d'라고 부르게 되었습니다. 여기서 알파벳 d는 Difference(차이)의 첫 글자입니다.
코헨 박사는 사람들이 통계 결과에만 매몰되지 않기를 바란 것이었습니다. 즉, p-value를 통해 통계적으로 유의미한 차이인지 아닌지 여부만 볼 것이 아니라 "그래서 그게 얼마나 중요한 차이인 것인지"를 따져야 한다는 것이었습니다.
Cohen's d는 '그 차이가 얼마나 큰 것인지'를 알려주는 값입니다. 단일표본 t-검정에서 Cohen's d는 Data Set의 평균과 기준 값과의 차이를 표준편차로 나눈 값으로 계산합니다. 즉, [d=평균 차이/표준편차]로 평균의 차이가 데이터의 변동성 대비 얼마나 큰 지를 나타냅니다. 예를 들어 평균의 차이가 3점인데, 표준편차가 1이라면, d=3입니다. 즉, 평균의 차이가 데이터의 변동성 대비 3배나 됩니다. 반면 평균의 차이가 똑같이 3점인데 표준편차가 15라면, d=0.2입니다. 즉 평균의 차이가 데이터의 변동성 대비 0.2배 밖에 되지 않는 매우 미미한 차이입니다. 따라서 같은 평균 차이라도 데이터의 변동성에 따라 효과의 크기가 달라집니다.
[ Cohen's d와 t-test의 관계 ]
Cohen's d와 t-통계량의 공식을 생각해 보면, 결과적으로 위 그림과 같이 t-통계량은 [d값과 표본 크기의 제곱근]에 영향을 받습니다. 즉, t-통계량은 효과 크기와 표본 크기의 영향을 받게 되는 것입니다. 그래서 효과가 작아도 표본이 크면 t-통계량이 커질 수 있으며, 따라서 p-value가 작아질 수 있습니다. 이것이 가설검정의 한계입니다. 이에 p-value 뿐만 아니라 Effect size를 같이 보게 되는 것입니다.
[ Cohen's d 계산 ]
배송시간에 관한 Data Set에서 Cohen's d=[(33.0-30.0)/1.82]=1.65입니다. 통계학에서는 d가 0.2인 경우 효과 크기가 작다, 0.5인 경우 효과 크기가 중간 정도, 0.8인 경우에는 효과가 크다고 봅니다. 따라서 d=1.65 수준은 '차이가 매우 큰 수준'에 속합니다.