실제로 효과 있음을 발견할 확률에 대해
지난 시간에 단일표본 t-검정(One sample t-test)에 대해서 알아보았습니다. 우리가 계산한 t-통계량은 유의수준 5%, 양측검정 방식에 따라 시행한 결과 Target과 실제 측정 값(평균) 간의 차이가 통계적으로 유의하다는 것을 발견했습니다. 단지 통계적인 유의성을 발견한 것에 그치지 않고, 차이(효과)의 크기를 알려주는 Cohen's d 값이 크다는 것도 짚어보았습니다.
위와 같이 가설검정이라는 하나의 절차를 통해 우리가 생각했던 질문에 대한 통계적인 근거를 찾는 경우도 있지만, 데이터를 분석하는 입장에서는 여기에 더해 '판단의 오류' 부분도 염두해 두어야 합니다. 통계학에서는 기본적으로 제1종 오류를 중요하게 생각합니다. 즉, "효과가 없음에도 있다고 판단할 오류"를 우선합니다. 그러나 제1종 오류만 있는 것이 아닙니다. "실제 효과가 있음에도 우리가 발견하지 못하고 놓칠 확률"에 대한 고민도 해야 합니다. 이것이 제2종 오류입니다. 실제로 효과가 있을 때 그것을 통계적으로 발견할 확률, 이번 시간은 이를 계산하는 검정력(Power)에 대해서 살펴보겠습니다.
검정력(Power)은 [1-β]로 계산합니다. 여기서 β는 [제2종 오류의 확률], 즉 실제로 효과가 있을 때 그것을 통계적으로 발견하지 못할 확률을 뜻합니다. 만약 Power=0.71(71%)이라면, 실제로 효과가 존재할 때, 71%의 확률로 발견한다는 뜻입니다. 반대로 말해, β=29%이므로, 29%의 확률로 효과를 발견하지 못하는 오류를 범한다는 뜻입니다.
가설검정을 통해 p-value가 유의하지 않게 나왔다고 하여 곧바로 "효과가 없다."라고 단정해서는 안 됩니다. 왜냐하면 표본의 크기가 너무 작았거나 데이터의 변동성이 큰 탓에 검정력이 낮았을 가능성도 있기 때문입니다. 즉, 유의하지 않다는 의미를 효과가 없다는 의미와 완전히 동일하게 볼 것이 아니라 유의하지 않다는 의미를 "효과를 발견할 만큼 충분하지 않았을 수 있다."라는 관점에서 바라봐야 한다는 것입니다.
검정력은 크게 네 가지에 의해 결정됩니다. ① 효과크기(Cohen's d) 입니다. 효과크기가 클수록 Power가 증가합니다. ② 표본 크기(n) 입니다. 표본크기가 클수록 Power가 증가합니다. ③ 유의수준(α) 입니다. 유의수준을 크게 잡을수록 Power가 증가합니다. "이 정도면 차이가 있다고 인정해 주는 기준을 넉넉하게 잡겠다."는 것이기 때문에 검정력은 그에 비례하여 증가하게 됩니다. ④ 데이터의 변동성이 작을수록 검정력이 증가합니다.
검정력을 이해하려면 반드시 짚고 넘어가야 할 개념이 "비중심 파라미터"(δ, 델타)입니다. [δ=d√n] 입니다. 이는 "대립가설이 참일 때, 검정통계량의 분포의 중심이 얼마나 이동하는가?"를 의미합니다. 만약 귀무가설 H0가 참이라면, 중심은 0입니다. 반면 대립가설 H1이 참이라면, 중심은 δ가 됩니다. 즉, δ가 클수록 귀무가설의 분포와 멀어지고, 검정력은 커지게 됩니다.
예를 들어, d=0.5, n=25라면, [δ=d√n=0.5×5=2.5] 입니다. 이렇게 되면, 귀무가설 H0가 참일 때, t-분포의 중심이 0인 반면, 대립가설 H1이 참일 때, 비중심 t-분포의 중심은 2.5가 됩니다. 그럼 이 두 개의 분포를 바탕으로 측정되는 검정력을 측정한다는 의미는 무엇일까요? 아래와 같이 중심이 0인 t-분포의 산과 중심이 2.5로 이동된 t-분포라는 분포의 산을 그림으로 재구성하여 살펴보겠습니다.
5-A. 검정력 측정 프로세스
검정력의 측정 원리의 핵심은 "대립가설이 참일 때, 귀무가설의 기준선(유의수준)을 넘겨서 성공적으로 기각할 확률"을 계산하는 것입니다. 위 예시(d=0.5, df=24, δ=2.5)에서 보면, 결론적으로 평균이 2.5인 새로운 t-분포에서 2.064(유의수준 5%, 양측검정)보다 큰 영역의 넓이를 계산하면 됩니다.
5-B. 가설 설정
먼저 귀무가설 H0는 "평균=0인 t-분포, 유의수준 5% 양측검정의 임계값은 ±2.064, 자유도는 24" 입니다. 이에 대립하는 가설 H1은 "실제 평균 2.5인 t-분포" 입니다. 우리의 목표는 "실제 평균이 2.5인 분포에서 데이터가 2.064보다 크게 나와서 '차이가 있다'라고 올바르게 판단할 확률을 계산"하는 것입니다.
5-C. 계산 과정
우리는 평균이 2.5인 t-분포의 산에서 2.064라는 지점의 위치를 찾아야 합니다. 새로운 중심(2.5)을 기준으로 보면, 2.064는 중심에서 왼쪽으로 약 0.436만큼 떨어진 지점입니다. 이 지점보다 큰 영역(오른쪽 전체)의 넓이를 구하면, 그것이 바로 검정력입니다.
위 그림을 보면, 2.064가 대립가설의 중심인 2.5보다 왼쪽에 있기 때문에 대립가설의 입장에서는 절반(50%) 이상의 데이터가 기준선보다 오른쪽에 위치하게 됩니다. 그래서 검정력이 50%를 기본적으로 넘습니다. 좀 더 정밀한 확률 계산을 위해 실제 중심이 2.5인 세상으로 이동했다고 가정하고, 계산된 거리인 (-)0.436을 "나의 중심에서 왼쪽으로 0.436만큼 떨어진 지점"으로 인식합니다. 즉, P(t>-0.436)을 계산하는 것입니다.
Excel의 함수에서 [t.dist.rt(-0.436,24)]를 적용하면, 약 0.667(66.7%)가 나옵니다. 참고로 [t.dist.rt] 함수 뒤에 붙는 값들은 각각 t-통계량, 자유도입니다. 검정의 정밀함을 위해서 양측검정 방식을 따르는 것이 원칙이지만, 대립가설의 중심이 2.5임을 고려할 때, 귀무가설의 임계값인 -2.064라는 지점은 중심에서 무려 4.564만큼 왼쪽에 있습니다. 평균이 2.5인 t-분포의 산에서 데이터가 갑자기 -2.064보다 작게 나올 확률은 매우 희박합니다. 그래서 반대 꼬리 확률은 무시해도 될 정도로 작기 때문에, 우측의 영역만 계산해서 검정력을 판단해도 무방합니다.
5-D. 결과 해석
검졍력(1-β)이 66.7% 라는 것은, 실제 평균이 2.5일 때 우리가 이를 "차이가 있다."라고 통계적으로 잡아낼 확률이 66.7%라는 뜻입니다. 따라서 나머지 영역인 제2종 오류의 확률은 약 33.3%입니다. 실제로 평균이 2.5인 효과가 있음에도 불구하고, 우연히 값이 낮게 나와서(2.064 미만) "효과가 없다."고 놓칠 확률입니다. 보통 검정력은 80% 이상일 때 유효한 것으로 인정하기 때문에, 이 Data Set의 검정력은 다소 낮다고 볼 수 있겠습니다.
위 수식은 검정력을 결정하는 요소들이 유기적으로 연결되어 있습니다. 이 방정식을 "목표로 하는 점수를 얻기 위해 고려해야 하는 요소"로 차원을 옮겨 매핑해보겠습니다.
우선 좌변의 ① [Z_1-β]은 검정력(=최종 성적) 그 자체를 의미합니다. 이 값이 클수록 "실제 효과가 있을 때 그것을 찾아낼 확률"이 높다는 것을 의미합니다. 즉, 이 수식의 목표는 우변의 계산 결과 값을 크게 만드는 것에 있습니다.
우변의 ② [Δ√n/σ]는 두 집단 사이의 차이를 얼마나 명확하게 보여줄 수 있는지를 나타내는 수치(=최종 성적을 잘 맞기 위한 실력과 환경) 입니다. [Δ, 델타, 효과 크기]는 분자에 있습니다. 실제 평균 차이가 클수록 검정력은 높아집니다. [√n]은 표본크기입니다. 역시 분자에 있습니다. 조사한 데이터가 많을수록 증거가 확실해지기 때문에 검정력이 높아집니다. [σ]는 표준편차입니다. 이는 분모에 있습니다. 데이터의 변동성이 작을수록 분수 값이 작아져서 검정력이 높아집니다.
데이터의 변동성이 작다는 것은 데이터들이 평균 근처에 아주 촘촘하게 모인다는 것을 뜻합니다. 그러니까 앞서 비교했던 t-분포의 산이 홀쭉해진다는 말입니다. 분포의 봉우리인 중심 값이 위로 뾰족하고 옆으로는 홀쭉해진다면, 두 분포의 산의 중심 거리는 변하지 않더라도 옆으로 퍼지지 않기 때문에 서로 겹치는 면적이 줄어들게 됩니다. 따라서 귀무가설의 기준선을 확실히 넘어버리기 때문에, 효과가 뚜렷하게 보이게 됩니다.
우변의 ③ [Z_1-α/2]은 유의수준(=장애물)을 나타냅니다. 이 값은 우리가 설정한 유의수준을 말합니다. 이 값에 음수가 붙어 있다는 의미는, 이러한 장애물을 빼고 남은 점수가 바로 검정력이 된다는 뜻입니다. 따라서 유의수준을 5%에서 1%로 낮추면(더 엄격해지면), [Z_1-α/2] 값은 더 커집니다. 큰 값을 빼버리니 결과적으로 검정력은 줄어들게 됩니다.