일상에서 이진 분류와 가설검정으로 똑똑하게 의사결정 전략 짜기
제1종 오류(Type I Error)와 제2종 오류(Type II Error)라는 개념이 있습니다. 일반적으로 확률과 통계 이론 분야에서 많이 쓰이는 것으로 알려져 있는데요. 사실상 모든 학문과 연구 분야에서 실험적 연구 방법의 가장 근간에 있는 개념 체계 중 하나입니다. 만약 여러분이 어떠한 주제를 연구하시든 공부하시든 간에 상관없이, 특히나 논문 같은 것을 작성하고 가설을 바탕으로 연구를 진행하고 결론을 내는 연구작업을 진행한다면 반드시 마주치고 활용해야 할 생각의 틀, 즉 프레임워크(Framework)입니다.
개인적으로는 금융 공부를 하면서 예전부터 접해왔던 개념이지만, 용어가 친절하지 않고 단순한 개념이지만 혼동이 쉽게 오는 개념인 탓에, 제대로 정리를 해두지 않으면 금세 까먹기 쉬운 내용이라고 생각합니다. 그래서 이번 기회에는 가설의 수립과 채택, 그리고 1종 오류, 2종 오류에 관해서 현재 시점에서 제가 가장 쉽게 설명할 수 있는 방법으로 개념을 정리하고 기록을 시도해보려고 합니다.
우선 어떠한 실험을 할 때 우리는 가설을 세웁니다. 예를 들어 봅시다. 일상의 어떠한 예제에도 적용할 수 있습니다. 예를 들면, 좋아하는 이성이 생겼다고 가정해봅시다. 좋아하는 이성에게 고백하고 싶습니다. 하지만 혹시나 그 사람이 나를 좋아하지 않는다면 고백했을 때 차일까 봐 두렵습니다.
그래서 두 가지 경우의 수에 대해서 자연스럽게 생각해봅니다. 첫 번째는 "내가 좋아하는 사람이 나를 좋아하지 않는다."입니다. 그 반대는 "내가 좋아하는 사람이 나를 좋아한다"겠지요. 무조건 둘 중 하나의 경우만 존재할 것입니다. 하지만 그 사람의 마음은 확인해보지 않으면 나로서는 알 수 있는 방법이 없지요.
내가 행동할 수 있는 경우의 수도 딱 두 가지입니다. 첫 번째는 상대방이 나를 좋아한다는 가정하에 "고백"한다는 것이고, 나머지 하나는 상대방이 나를 좋아하지 않는다고 생각하여 "가만히 있는" 것일 겁니다.
정리하자면 상대방의 입장도 두 가지, 내가 취할 수 있는 행동도 두 가지이기 때문에 총경우의 수는 2 곱하기 2로 4 (2 x 2 = 4)가 될 것입니다.
정리하자면 아래와 같습니다.
1. H0 (귀무가설, 영가설): "그녀는 나에게 관심이 없다."
2. Ha (대립가설, 연구가설): "그녀는 나에게 관심이 없는 것은 아니다." (쉽게 말해 나에게 관심이 있다!)
우리의 실험과 연구 목표는 충분한 증거를 수집하여 귀무가설을 부정하고(reject the null hypothesis), 대립가설을 채택 (accept the alternative hypothesis)하는 것입니다.
1. 경우의 수 구분 (문제의 파악)
실제 상황에 대한 판단과 그에 따른 나의 경우의 수를 표로 정리하면 아래와 같습니다. 하나씩 자세하게 살펴봅시다.
현재 상황에서 기본 상태는 "상대방이 나에게 관심이 없다"입니다. 이 기본 상태를 통계학에서는 '귀무가설' 혹은 '영가설'이라고 부르기도 합니다. 저는 이 기본 상태를 반박하여 "상대방이 나에게 관심이 없다"는 것은 참이 아니다는 '대립 가설'을 세웁니다.
만약 증거수집과, 실험, 조사, 끝에 "상대방은 나에게 관심이 없다"라는 '귀무가설(H0)'을 부정할 수 있는 증거가 충분히 있다(has enough evidence)는 결론을 내리게 되면, 나는 "고백"을 하게 되겠죠. 이를 통계에서는 "reject the null hypothesis(H0)" (귀무가설을 부정한다)라고 합니다. 다른 말로 바꾸면, "accept the alternative hypothesis(Ha)" (대립 가설을 채택한다)라고도 말할 수 있습니다.
반대로 "상대방은 나에게 관심이 없다"라는 귀무가설(H0)이 참이라면, 대립 가설(Ha)인 "상대방이 나에게 관심 없는 것은 아니다"라고 말할 수 없다란 결론을 낼 수 있겠죠. 이중 부정이라 좀 헷갈리게 보일 수도 있겠습니다. 아무튼 원래의 목적이 귀무가설(H0)을 부정해야(rejection)하는데, 증거를 충분하게 수집하지 못해서(doesn't have enough evidence), 귀무가설(H0), 즉 기본 default 상태에 대한 부정에 실패(failed to reject the null hypothesis(H0).) 한 것입니다.
영가설, 즉 귀무가설을 부정함으로써 우리는 대립 가설인 "그녀가 나를 좋아한다"를 생각해볼 수 있습니다. "그녀가 나에게 관심이 없다"라는 결론을 내릴 수 있어야만 그 귀무가설의 부정을 통해서 "고백"이라는 액션을 취할 수 있다고 의사결정의 framework 상황을 구성해 본 것입니다. (물론 정의와 구분에 따라서 이 같은 가설의 내용과 디테일은 변경될 수 있습니다.)
그런데 만약 여러 가지 상황 또는 이유로 증거를 충분하게 수집하지 못 했다면 어떻게 될까요? 이유는 여러가지가 될 수 있습니다. 제가 적극적으로 나서지 않아서, 알아보지 않고 소극적이어서, 혹은 그녀가 괜한(?) 밀땅과 튕기기를 시전했는데 내가 그 신호를 잘 못 파악해서, ... 이유가 무엇이든 간에 "그녀가 내게 관심이 있다" 혹은 "관심이 없다"를 제가 실수로 착각하는 경우는 없을까요?
2. 오류의 종류 (Type 1 & Type 2 Errors)
오류의 종류를 두 가지의 경우의 수로 분류할 수 있습니다. 사실은 그녀가 나를 좋아하지 않았는데, 좋아한다고 착각해서 고백하는 경우가 첫 번째, 그리고 그녀가 사실은 나를 좋아했는데, 내가 그녀가 나를 안 좋아한다고 생각해서 고백할 수 있는데도 안 하는 것이 두 번째 경우의 수입니다. 둘 중에 어떤 경우가 더 마음에 아플까요?
간단하게 정리하자면 아래와 같습니다.
1. 안 좋아하는데 고백
2. 좋아하는데 안 고백
1번을 1종 오류라고 하고
2번을 2종 오류라고 합니다.
다시 한 번 더 정리한다면 아래와 같습니다.
제1종 오류: 귀무가설(H0)이 참, 대립가설(Ha)이 거짓인데 귀무가설(H0)이 거짓(False)이고, 대립가설(True)이 참인줄 알고 고백하는 경우
2.1. 1종 오류 (Type 1 Error, Alpha Error, False Positive)
사실은 귀무가설이 맞고, 대립가설이 틀렸는데 (사실은 음성, negative인데)
- H0: True (H0가 맞다면 negative, 음성, H0가 거짓이라면 positive, 양성)
- Ha: False (Ha가 맞다면 positive, 양성, Ha가 거짓이라면 negative, 음성)
귀무가설을 기각하면 안 되는데 기각해버린 것 (부족한 증거로 잘못 생각해서 positive라고 생각한 것, 사실은 음성 negative인데도 불구하고. 그러므로 잘못된 긍정/양성 결론.)
-> False Positive (사실은 negative가 맞는데, positive라고 잘못 판단한 것)
1종 오류를 저지를 확률은 a(알파, alpha)라고 합니다. 귀무가설이 참이므로 기각하면 안 되는데, 귀무가설(H0)을 기각하는 오류인 것입니다. 만약에 코로나 바이러스 검사를 했다면, 실제 바이러스가 음성(병에 걸리지 않았는데)인 것을 양성(병에 걸린 것으로)으로 판정하는 오류입니다. 1종 오류를 기각(rejection)의 오류, 과소신뢰의 오류라고도 부를 수 있습니다.)
a, 알파는 통계에서 유의 수준을 나타내기도 합니다. 어떠한 가설을 세웠을 때 그 가설이 성립한다고 생각했지만, 사실은 성립하지 않을 확률입니다. 일반적으로 통계에서 가설을 세울 때 전수 조사를 하기 보다는 샘플을 추출하여 검사를 하기 때문에, 모집단에서는 어떠한 가설이 참이 아니지만, 샘플의 데이터만 보고서 연구자가 세운 가설에 대해서 참이라고 잘못된 결론을 내릴 확률을 말하는 것입니다.
예를 들어, 만약에 종속변수와 독립변수 간의 상관관계에 대해 수치로 나타낸 회귀(regression) 모델이 있고, 이에 대한 유의수준(a)가 0.05, 5%라고 한다면, 그 모델은 5%의 확률로 의미가 없을 수 있다는 것입니다. 왜냐하면 사실은 의미가 없는데, 우연히 뽑은 샘플이 의미가 있는 것처럼 잘 못 추출할 가능성도 있다는 의미입니다.
영어로 표현하면 "the mistaken rejection of an actually true null hypothesis(사실은 참인 귀무가설을 실수로 기각한것)" 입니다. 실제로는 참이어서 귀무가설을 채택해야 함에도 불구하고 표본의 오차때문에 이를 채택하지 않는 오류를 말합니다.
1종 오류는 Producer's Risk, False Alarm이라고 불리기도 합니다.
조금 더 감을 잡기 위해 실제의 사례와 연결해보자면 여러가지 사례가 있을 수도 있습니다. 용의자에 대해서 유죄와 무죄를 판결할 때, 제1원칙은 '무죄추정의 원칙'입니다. 충분한 증거가 없다면 어떠한 개인을 함부로 유죄라고 판단해서는 안 됩니다. 여기서의 1종 오류는 수집된 증거를 통하여 사실은 죄가 없는 사람에게 유죄라는 선고를 내리는 것입니다. 수집된 증거가 모집단을 충분히 설명할 수 없는데도 샘플 증거만 사용하여 잘못된 결론을 내린 것입니다.
위의 연애와 고백의 사례로 본다면, "그녀는 나에게 관심이 없다"가 참인데도 불구하고, 신중하지 못 하게 고백을 해버린 상황이 됩니다.
통계학에서는 1종 오류를 매우 심각한 오류로 간주합니다. 일반적으로 1종 오류가 2종 오류보다 더 치명적(critical)이라고 보게 됩니다. 사회과학 혹은 자연과학에서도 기존의 가설을 부정하기 위해서는 그를 부정할 수 있는 충분한 증거가 없이 함부로 기각할 수 있게 만든다면 이론에 혼란이 오겠죠.
그래서 중요한 의사결정일 수록 보수적이게 되고, 임계치 (threshold), 기준(criteria)를 높일 수록 type 1 error는 줄어들게 되는 대신에 좀 더 보수적인 의사결정을 하게 되는 것입니다. 반대로 criteria 기준을 낮추고 개방성을 높일 수록, 조그만 증거에도 대립가설을 채택할 확률이 높아지게 됩니다. 반대로 제 2종오류의 가능성이 높아지는 것입니다.
2.2. 2종 오류 (Type 2 Error, Beta, False Negative)
제2종 오류: 귀무가설(H0)이 거짓이고, 대립가설(Ha)가 진실인데, 귀무가설을 참이라고 생각하고, 대립가설을 거짓이라고 생각하여 귀무가설을 기각하는데 실패하는 것입니다. (잘못된 증거로 신중하지 못 한, 섣부른 판결, 잘못된 선택을 한 것으로 보면 됩니다.)
영어 표현으로 보자면, failure to accept an alternative hypothesis that is actually true (사실은 참인 대립가설을 채택하는데 실패한것) or a failure to reject the null hypothesis that is actually false (사실은 거짓인 귀무가설을 기각하지 못 한 실수) 입니다. 2종 오류는 채택의 오류, 과대신뢰의 오류라고 부를 수 있습니다.
사실은 귀무가설이 틀렸고, 대립가설이 맞는데 (사실은 양성, 즉 positive인데)
- H0: False (H0가 맞다면 negative, 음성, H0가 거짓이라면 positive, 양성)
- Ha: True (Ha가 맞다면 positive, 양성, Ha가 거짓이라면 negative, 음성)
귀무가설을 기각해야 하는데 실패한 것 (잘못 생각해서 negative라고 생각한 것, 사실은 양성 positive 인데도 불구하고. 그러므로 잘못된 부정/음성 결론.)
-> False Negative (사실 positive가 맞는데, 잘못 생각해서 negative라고 결론 낸 것)
2종 오류를 저지를 확률은 b(알파, beta)라고 합니다. 귀무가설이 거짓(H0: False)이므로 기각해야 하는데, 귀무가설(H0)을 기각하는데 실패한 (failure to reject the null hypothesis) 오류인 것입니다. 앞서 예에서 이야기한 것처럼, 만약 코로나 바이러스 검사에서 실제 바이러스가 양성(코로나에 걸렸는데)인데 음성(병에 걸리지 않은 것)으로 판정하는 오류입니다.
베타(b), 2종 오류는 연구자가 증명하려고 했던 애초의 가설이 맞았는데도 불구하고, 증거 불충분으로 인해 증거가 맞다고 입증하는데 실패한 것입니다.
어떠한 가설을 세웠을 때 그 가설이 성립한다고 통계에서 Beta는 Error of Omission (누락 에러)라고 불리기도 합니다.
2종 오류, 즉 베타 위험은 통계 검정의 힘, statistical power(검정력)와 역의 상관관계를 가집니다. Statiscal Power(검정력)란 존재하는 실제 효과를 정확하게 테스트가 감지할 수 있는 정도입니다. 검정력을 식으로 나타내면 1 - b가 됩니다.
만약 검정력이 좋아지게 되면, 2종 오류, 즉 베타 에러를 범할 확률은 적어지게 됩니다. 다시 정리하자면, 검정력은 대립가설(Ha)이 사실 일 때, 이를 사실로서 결정할 확률을 말합니다.
검정력이 90%라고 하면, 대립가설이 사실임에도 불구하고 귀무가설을 채택할 확률, 즉 2종 오류, 베타 에러의 확률은 10%입니다.
참고로, 앞서 나왔던 1종 오류의 유의 수준(Significance Level)이 커질 수록 (5%에서 10%로), 즉 신뢰도가 나빠질 수록 검정력은 좋아집니다. (1종 오류(알파 에러), 유의 수준과 2종 오류(베타 에러), 검정력 (statistical power)는 양의 상관관계를 가집니다.)
샘플의 크기를 늘리고, 유의 수준을 높임으로써 statiscal power, 즉 검정력를 높이고 2종오류의 위험을 낮출 수 있습니다. 1종 오류와 2종 오류는 서로 trade-off 상충관계이기 떄문입니다.
실생활 사례에서 보면, 연구자의 가설이 참인데도 불구하고, 참임을 증명하는데 실패할 확률이라고 생각하면 됩니다. 앞서 언급했던 용의자의 유무죄 판결에서도, 사실은 유죄인 용의자에 대해 증거불충분으로 유죄라 결론 짓지 못 하고 무죄라는 판결을 내리게 되는 오류를 말합니다. 지나치게 신중하게 되면 저지르게 될 오류라고 볼 수도 있습니다.
3. 정리
어떤 분들에게는 이게 더 어려울 수 있겠지만, 기호와 알파벳을 통하여 간단하게 상황을 다시 표로 정리하자만 아래와 같습니다.
그림으로 다시 한 번 간단하게 정리하면 아래와 같습니다.
1종 오류는 False Positive, 2종 오류는 False Negative 입니다. 임계치를 높이고 보수적으로 될 수록 1종 오류는 감소하고, 2종 오류는 증가합니다. 이렇게 되면 유의 수준은 낮아지고, 검정력도 낮아지게 됩니다. 반면 criteria 기준을 낮추고 좀 더 개방적인 의사결정을 하게 된다면 1종 오류는 늘어나고, 2종 오류가 줄어들게 됩니다. 그렇게되면 통계적 용어로는 유의수준(significance level)이 높아지고, 통계의 검정력(statistical power)은 높아지게 됩니다.
일반적으로 1종 오류가 치명적이기 때문에 유의 수준(signifcance level)을 통제하려고 합니다. 이렇게 유의수준이 통제된 상태에서 검정력을 높이는 것이 통계 검정의 정확성을 높이는 key factor 중 하나라고 볼 수 있습니다. 이러한 유의 수준을 p값이라고 부르기도 합니다. 혹은 a라고 부르기도 합니다. p값은 0.05, 0.01 등 굉장히 작은 값으로 제한하기도 합니다.
유의수준, p값이 커지면 검정력은 좋아지나 신뢰도가 낮아집니다. 신뢰도가 낮아지면 그만큼 신뢰 구간이 길어져서 검정력이 좋아지게 됩니다.
참고로 덧붙이자면, 표준편차가 검정력은 반비례합니다. 표준편차가 높아지면 정규분포의 넓이가 넓어지고 꼬리가 길어지는 현상이 발생하기 때문입니다. outlier 즉 극단값의 발생 빈도나 확률이 높아질 수 있기 때문입니다. 그리고 표본 크기 (sample size)가 클수록 검정력이 좋아집니다. 또한 두 모집단 간 차이가 작으면 검정력이 나빠집니다.
1종 오류와 2종 오류의 치명성에 대해서는 사회과학, 자연과학 등 학문이나 분야에 따라 그 치명성을 달리보는 경우가 있습니다. 앞서는 일반적으로 1종 오류의 치명성을 높게 보지만, 때에 따라서 2종 오류를 상대적으로 더 치명적(critical)이게 보는 경우도 다수 존재합니다.
예를 들면 회계에서 감사의견의 적정과 부정적 오류에 대하여 감사대상이 사실은 적정하지만 감사의견을 부적정으로 내는 경우에 이는 1종 오류에 해당하는데 1종 오류에 대한 비용이 더 크기 때문에, 1종 오류를 통제하는 데 주력해야 할 수도 있습니다.
또한, 만약 양치기 소년 우화에서 "늑대가 나타났다"라는 대립가설을 세웠다는 가정을 살펴보면, 2종오류의 상황은 "늑대가 나타났다"라는 대립가설이 참인데도 불구하고, 귀무가설인 "늑대는 없다"를 기각하지 못 하고 가만히 있는다면, 늑대에게 물릴 수 있는 위험에 노출되는 것이므로 이 경우에는 2종 오류가 더 높을 수 있습니다. 뿐만 아니라 앞서 언급했었던 코로나 양성 검사에 있어서도 현실적으로 생각했을 때 2종 오류인 FN (False Negative) 거짓된 음성이 더 치명적이라는 생각은 쉽게 해볼 수 있습니다.