귀무가설, 대립가설, 1종오류, 2종오류 , 유의수준과 유의확률
이 포스트에서는 유의수준과 p-value(유의확률)이 무엇인지, 그 전에 귀무가설과 대립가설, 1종오류와 2종오류가 무엇인지 등을 정리한다.
귀무가설과 대립가설의 예를 들어보자. 내가 얻고자 하는 결론은 다음과 같다.
20대 남자들의 키와 30대 남자들의 키가 다르다.
이 결론을 얻기 위해서 20대 남자 30명과 30대 남자 30명을 대상으로 키를 측정했다. 자 여기서 기술 통계(descriptive statistics )와 추론 통계(inferential statistics)의 차이가 나온다. 우리가 표본으로 모은 총 60명(20대 30명, 30대 30명)의 키는 물론 다를 것이다. 이 경우에는 그냥 두 집단의 평균값을 계산해버리면 간단히 구할 수 있다. 이것이 기술통계이다. 하지만 우리가 알고 싶은건 전체 모집단(전체 인구) 중 20대와 30대의 키가 다르냐? 하는 것이다. 이러면 표본을 갖고 '추론'을 할 수 밖에 없다. 추론 통계가 필요한 것이다. 추론 통계는 보통 어떠한 가설을 세우고 그 가설을 입증하는 방법으로 이루어진다. 이때 처음 세운 가설을 '귀무가설( null hypothesis)'이라고 하고 그와 반대되는 실험자가 입증해야 하는 가설을 '대립가설(alternative hypothesis)'이라 한다.
귀무가설: 20대 남자들과 30대 남자들의 키가 같을 것이다.
대립가설: 20대 남자들과 30대 남자들의 키가 다를 것이다.
이제 실험자가 해야하는 것은 추론 통계를 통해 귀무가설을 기각하는 것이다. 귀무가설을 기각할 수 있느냐 없느냐에 따라서 실험의 결과가 통계적으로 유효한가? 유효하지 않은가가 나뉜다.
무죄추정의 원칙과 비슷하다.
범죄자가 범인이라는 가설을 입증하기 위해서는 처음에 '범죄자는 범인이 아니다.'라는 귀무가설을 세우고 그 귀무가설을 기각할 수 있는 '범죄자는 범인이다.'를 입증할 수 있는 자료를 모으는 것이다.
여기서 1종오류와 2종오류가 생긴다. 귀무가설을 기각해야하는 실험자의 입장에서 범할 수 있는 두 가지 오류이다. 간단히 정리하면 다음과 같다.
1종오류: 귀무가설이 참인데 기각한 경우.
2종오류: 귀무가설이 거짓인데 기각하지 않은 경우.
1종 오류는 귀무가설이 참인데 이를 잘못하여 기각한 경우이다. 죄가 없는 범인이 죄가 있다고 말한 경우와 같다. 2종 오류는 귀무가설이 거짓인데 이를 기각하지 않은 경우이다. 죄가 있는 범인이 죄가 없다고 말한 경우이다. 보통 2종 오류보다 1종 오류를 더 심각하게 다룬다. 범인이 아닌 사람이 30년간 옥살이를 해야한다고 생각해보면 간단하다. 범인을 범인이 아니라고 한 경우에는 다시 잡아들이면 되지만, 범인이 아닌 사람을 범인이라고 한 경우에는 어떻게 할 방법이 없다.
유의수준은 1종 오류를 범할 수 있는 최대 허용 한계이다.
유의수준을 0.05(5%)로 정했다면 0.05면 100번 실험을 했을 때 1종 오류를 범할 수 있는 최대 허용 한계를 5번으로 정하겠다는 말이다. 유의 수준은 보통 α(알파)로 표기한다. 더하여 대부분 실험에서 유의 수준은 0.05(5%)로 정한다. 0.05가 5%인 이유는 0을 0%, 1을 100% 정하기 때문이다. 왜 0.05(5%)인지는 모른다. 업계 표준이다. 물론 더 정밀도가 필요한 실험에서는 0.01(1%)로 정하기도 한다. 정밀도가 낮은 실험에서는 0.1(10%)로 정하기도 한다.
p-value는 1종 오류를 범할 확률이다.
p-value가 0.05(5%)라는 말은 100번 중에 95번은 1종 오류를 범하지 않았고, 5번만 1종 오류를 범했다는 말이다. 이 말은 95%의 신뢰도로 귀무가설을 기각한다는 말이된다. 당연히 p-value는 확률이기 때문에 아래와 같은 공식이 성립된다.
p값은 확률, 즉 0≤p-value≤1 이다.
보통 p-value값이 유의 수준보다 낮다면 실험이 통계적으로 유의미하게 이루어졌다고 말한다. 위에서 유의 수준을 0.05(5%)로 잡는다 하였다. 그러면 0.05보다 p-value(1종 오류가 일어날 확률)이 작으면 된다. 이게 그렇게 p-value를 0.05이하로 맞추고 싶은 이유이다.
p-value값이 낮다고 귀무가설을 더 강하게 기각할 수 있는 것은 아니다. 더 작은 유의수준에 대해서도 신뢰성을 입증할 수 있을 뿐이지, 귀무가설은 유의수준보다 p값이 낮다면 똑같이 기각할 수 있다. 실험에 신뢰도는 올라가겠지만 귀무가설을 더 강하게 기각하는 것은 아니라는 말이다.