brunch
매거진 오몽단상

베타 오류를 부르는 세상

알파 오류와 베타 오류, 어느 것이 더 심각한가?

by 여운설

통계 검증에서는 우리가 직접 알 수 없는 모수나 모집단의 특성을 판별할 때 두 가지 판단 오류를 범할 가능성이 있다. 바로 알파 오류(1종 오류)와 베타 오류(2종 오류)다. 알파 오류는 원래 참이어야 할 귀무가설을 잘못 기각하는 오류를 뜻한다. 반대로 베타 오류는 실제로는 거짓인 귀무가설을 잘못 채택해 기각하지 못하는 오류를 말한다.


귀무가설이란 알고자 하는 모집단과 표본 간에 유의미한 차이가 없다고 가정하는 명제다. 예를 들어 한국인 평균 키가 172cm라고 가정해 보자. 전 국민의 신장을 모두 측정해 평균을 낸다면 정확한 모수를 알 수 있겠지만, 현실적으로는 시간과 비용이 막대하게 들기 때문에 일반적으로는 1,000명 혹은 10,000명 등 일정 규모의 표본을 뽑아 평균 신장을 추정한다.


표본조사 결과, 조사대상자의 평균 키가 170cm라고 하자. 이때 표본이 갖는 신뢰 수준에 따라 실제 한국인 평균 키를 가늠할 수 있다. 만약 귀무가설로 설정한 172cm가 표본에서 계산된 95% 신뢰구간 안에 포함된다면, 우리는 172cm를 한국인의 평균 키로 받아들일 수 있다. 그러나 표본 신뢰구간 밖에 위치한다면, 표본의 결과는 귀무가설을 지지하지 않으므로 172cm라는 평균 키 추정은 기각해야 한다는 뜻이 된다.


이를 알파 오류와 베타 오류에 대입해 비유하면 다음과 같다.

알파 오류는 실제로 한국인의 평균 키가 172cm와 비슷한데도 이를 부정해 172cm가 아니라고 판단하는 경우다. 이는 참인 것을 잘못 기각하는 오류로, false positive(거짓양성)라고도 부른다.

반면 베타 오류는 한국인의 평균 키가 실제로는 172cm가 아닐 수도 있는데도 이를 잘못 받아들여 172cm라고 인정하는 경우다. 이는 거짓인 것을 기각하지 못하는 오류로, false negative(거짓음성)라고 한다.


알파 오류와 베타 오류를 좀 더 현실적인 상황으로 비유해 보자. 살인사건이 발생해 수사기관이 피의자를 특정해 기소했다고 가정하겠다. 알파 오류는 피의자가 사실은 무고한데도 진범으로 몰려 억울하게 유죄 판결을 받는 상황이다. 실제로 무고한 시민이 중형을 선고받고 옥살이를 한 사례는 적지 않다. 이것이 1종 오류다.

반면 베타 오류는 피의자가 실제로는 진범인데 수사 과정이 미흡해 증거가 부족하여 풀려나는 경우다. 진범에게는 다행이겠지만, 그가 거주하거나 활동하는 지역 주민들에게는 큰 공포와 불안을 안겨준다. 과거 아동 성폭행범 조두순이 출소를 앞두고 아내 명의로 세입자 계약을 하자, 이사 소식만으로도 해당 지역 사회가 큰 혼란에 빠진 일이 있었다. 이는 베타 오류가 불러온 불안의 대표적인 사례라 할 수 있다.


이처럼 통계 검증에서 알파 오류와 베타 오류는 모두 진실을 왜곡할 위험성을 내포하고 있다. 그러나 둘 중 더 치명적인 것은 베타 오류라고 할 수 있다. 흉악범이 구속되지 않고 사회에 남아 있으면 추가 범죄가 발생할 가능성이 높고, 선의의 피해자가 연이어 생길 수 있기 때문이다. 애초에 범죄자는 사회로부터 격리해야 한다는 점에서 베타 오류의 위험성은 결코 가볍지 않다.


나의 경험도 이를 잘 보여준다. 나는 태생적으로 소화기가 약해 늘 위장 질환을 걱정해왔다. 그래서 정기적으로 건강검진과 내시경 검사를 받았지만, 매번 아무 이상이 없다는 결과만 들었다. 나는 그 결과를 그대로 믿었지만, 20년 전 검사 후 3개월 만에 위장에 천공이 두 군데나 생겨 결국 위 유문부를 통째로 절제하는 큰 수술을 받았다. 위궤양이 심해져 구멍이 뚫리기 직전이었는데도, 검사에서는 정상으로 나왔던 것이다. 오진으로 인해 결국 더 큰 병으로 발전한 셈이다.


병이 없는데도 있다고 진단되면 불필요한 치료와 비용만 들면 된다. 그러나 병이 있는데도 없다고 판단되면, 적절한 치료 시기를 놓쳐 병이 악화되거나 합병증으로 이어져 돌이킬 수 없는 상황이 될 수도 있다. 호미로 막을 일을 가래로도 못 막는다는 말이 딱 맞는 경우다.


그렇다면 이러한 통계적 오류나 판단 착오를 줄이려면 어떻게 해야 할까? 수리통계학에서는 역회귀(reverse regression) 라는 기법을 활용할 수 있다.


우리가 일반적으로 사용하는 회귀식은 직접 회귀(direct regression) 라고 부른다. 이는 독립변수가 종속변수에 일정한 영향을 미친다고 보고, 그 관계를 식으로 표현한 모델이다. 반면 역회귀란 이 직접 회귀식의 독립변수와 종속변수를 서로 뒤바꾼 형태다.


예를 들어 ‘소득이 높을수록 평균 수명이 길다’는 가설을 검증한다고 해보자. 통상적으로는 소득을 독립변수, 평균 수명을 종속변수로 놓고 분석한다. 이것이 일반적인 직접 회귀식이다. 소득과 수명 데이터를 입력하면 회귀분석을 통해 절편(알파, α)과 기울기(베타, β)가 도출된다. 이렇게 얻어진 알파와 베타를 이용하면 소득 정보만으로도 평균 수명을 예측할 수 있다.


이 관계를 역회귀로 바꿔보면, 이번엔 평균 수명을 독립변수로, 소득을 종속변수로 놓는다. 사회과학적 관점에서 ‘수명이 소득에 영향을 준다’는 해석은 조금 어색할 수 있다. 하지만 역회귀는 어디까지나 모집단의 진정한 값을 좀 더 정밀하게 추정하기 위한 수리적 기법일 뿐, 인과관계의 의미를 논하는 것은 아니다.


즉, 같은 소득과 수명 데이터를 가지고 직접 회귀를 하든, 역회귀를 하든 데이터 자체는 변하지 않는다. 단지 변수의 위치가 바뀌었을 뿐이다. 따라서 소득과 평균 수명의 평균값은 직접 회귀와 역회귀 모두에서 동일하다.


이를 좀 더 직관적으로 이해할 수 있도록, 그림으로 표현해 보자.


[그림] (직접) 회귀식과 역회귀가 갖는 의의


직접 회귀식과 역회귀식 모두에서 사용된 소득과 수명의 평균은 동일하다. 즉, 위 그림에서 보듯이 직접 회귀식으로 구한 소득과 수명의 평균과 역회귀로 얻은 평균은 같다는 뜻이다. 다만 회귀식의 절편(알파, α)과 기울기(베타, β)는 달라지므로, 동일한 평균점을 지나더라도 직선의 형태는 서로 다르게 나타난다.


우리가 궁극적으로 알고자 하는 모집단의 진정한 소득과 수명의 평균은 모든 사람을 대상으로 한 전수조사를 하지 않는 한, 표본조사를 통해 추정할 수밖에 없다. 그런데 현실에서는 소득과 수명 데이터가 오랜 기간에 걸쳐 축적되거나 표본만으로 수집되다 보면, 표본의 기울기(베타)가 실제보다 낮게 추정되는 편향이 자주 발생한다. 베타가 낮게 추정되면 그에 따라 절편(알파)은 상대적으로 높게 계산되는 현상이 나타난다.


수리적으로 살펴보면, 역회귀식에서의 베타는 직접 회귀식에서의 베타보다 일반적으로 더 높게 나온다. 따라서 역회귀식의 절편은 직접 회귀식의 절편보다 낮아질 수밖에 없다. 이러한 차이를 활용하면 모집단의 절편(알파)을 추정할 때 유용하다. 예를 들어, 모집단의 알파를 정확히 알 수 없더라도, 직접 회귀식의 절편이 양수이고 동시에 역회귀식의 절편(모수 추정값의 하한선) 또한 양수라면, 모집단의 절편이 최소한 0보다 크다는 사실만큼은 확실히 말할 수 있다. 그러나 만약 역회귀식의 절편이 음수라면, 비록 직접 회귀식의 절편이 양수로 추정되더라도 모집단의 절편이 반드시 양수라고 단정할 수는 없다.


위의 그림은 이러한 점을 직관적으로 보여준다. 왼쪽 그림에서는 역회귀식의 절편이 0보다 작게 나타나므로, 비록 직접 회귀식의 절편이 양수이고 95% 신뢰 수준에서 통계적으로 유의하다고 하더라도 모집단의 절편이 반드시 양수라는 보장은 없다. 반면 오른쪽 그림에서는 역회귀식의 절편이 양수로 나타나므로, 모집단의 절편은 직접 회귀식에서 추정한 값보다는 작을지라도 적어도 0보다는 크다는 사실은 통계적으로 충분히 신뢰할 수 있다.


만약 종속변수 Y 값이 0보다 클 때 대립가설을 채택하기로 가정한다면, 역회귀식의 절편(알파)이 0보다 크다는 사실은 반드시 성립해야 한다. 비록 모집단의 전체 실체를 완벽히 알 수는 없더라도, 추정된 절편의 하한선이 0보다 크다면 최소한 이를 부정할 수는 없는 것이다. 그러나 만약 역회귀식의 절편이 음수로 나타난다면, 그 순간부터는 진실이 무엇인지 확신하기 어렵다. 이 경우에는 대립가설을 섣불리 채택하거나 기각하기 전에 더욱 신중하고 철저한 추가 조사와 검증이 필요하다. 표본조사 결과가 대립가설의 채택을 지지하더라도, 그 결과가 곧 절대적인 진실임을 보장하지는 못하기 때문이다.


대부분의 사회과학 연구자들은 통계 검증을 할 때 주로 직접 회귀식만으로 결론을 도출하는 경향이 강하다. 그 대신 검증의 신뢰도를 높이기 위해 신뢰 수준을 99%로 상향해 신뢰구간을 넓히고, 이 구간을 벗어날 때 대립가설을 채택하는 방식을 사용한다. 이렇게 하면 역회귀를 추가로 분석하는 번거로움을 줄일 수 있다. 물론 이 과정에서도 알파 오류(1종 오류)나 베타 오류(2종 오류)가 발생하면 결론이 왜곡될 수 있다. 다만 대부분의 경우, 이러한 오류는 후속 연구나 재분석을 통해 교정될 수 있어 현실적으로 큰 문제로 이어지지 않는 경우가 많다.


그러나 만약 누군가의 오판으로 무고한 시민이 억울하게 중형을 선고받거나, 죄 없는 사람이 범죄자라는 낙인을 쓰고 살아야 한다면 이는 개인에게 돌이킬 수 없는 고통을 남긴다. 반대로, 사회로부터 격리되어야 할 중범죄자가 수사나 판단의 실수로 풀려나 추가 범죄를 저지르거나 새로운 피해자가 발생한다면 그 피해는 사회 전체에 돌이킬 수 없는 상처를 남긴다.


이러한 점에서 역회귀와 같은 정밀하고 보완적인 분석은 단순한 추가 작업이 아니라, 사회의 공동선을 지키고 누군가의 정당한 권리를 희생시키지 않으면서 전체 효용을 극대화하는 ‘파레토 최적(Pareto optimum)’을 실현하기 위한 하나의 사회적 비용이라고 볼 수 있다.


얼마 전, 아들이 50억 원의 성과급을 받은 것으로 논란이 되었던 모 의원에 대한 1심 판결이 나왔다. 결과는 뇌물 혐의 무죄였다. 재판부는 아들을 통한 뇌물 수수의 정황이 의심되긴 하지만, 50억 원이 알선수재의 대가라고 보기는 어렵고, 결정적 증거로 제시된 통화 녹음도 제삼자의 전언에 의존해 증거 능력이 없다고 판단했다. 사실 뇌물의 대가성을 법정에서 구체적으로 입증하기란 매우 까다로운 일이다. 이러한 사법부의 판단이 법리적으로는 타당할 수도 있다. 그러나 언론에서 충분히 조명하지 않는 몇 가지 사실은 여전히 중요하다. 김만배 일당이 이 의원 측에 50억 원을 전달하기 위해 여러 방안을 논의했고 실제로 돈이 흘러갔다는 점, 당시 이 의원이 청와대 민정수석으로서 대장동 입찰 과정에서 하나은행 등에 실질적 영향력을 미칠 수 있었던 지위에 있었다는 점, 그리고 무엇보다 아들이 아버지로부터 상속을 받을 수 있으므로 이는 제삼자를 거친 사전 증여나 경제적 공동체로 해석될 수 있다는 점 등이다.


그렇다면 수사당국은 단순히 뇌물죄만 주위적 기소로 제시할 것이 아니라, 제삼자 뇌물죄나 공직자 부정청탁 등 다른 혐의도 예비적으로 함께 기소해 무죄 가능성을 대비했어야 한다. 하지만 상당수 의혹에 대해 수사나 기소가 충분히 이루어지지 않았다.


형사사법체계를 통계조사에 빗대어 보면, 표본을 수집하고 분석해 추정치를 산출하는 역할은 수사기관인 검찰과 경찰이 맡는다. 이들은 사건이 발생하면 이를 수사해 유죄를 추정할 수 있을 때 기소하고, 재판 과정에서도 공소 유지와 입증을 담당한다. 이는 표본을 추출해 회귀식을 만들어 가설을 검증하는 과정과 닮아있다. 사법부는 검찰과 변호인의 주장을 두고 최종적으로 가설을 채택하거나 기각한다. 판사 역시 인간이기에 완벽한 판단은 어렵다. 그럼에도 불구하고 표본이 진실한 모수를 대변하는지를 깊이 따져 신중히 결론을 내리는 것이 법정의 역할이다. 어쩌면 이 불확실성과 어려움 때문에 법의 여신이 눈을 가린 것이 아닐까?


그렇다면 이 체계에서 ‘역회귀’에 해당하는 추가적이고 정밀한 분석은 누가 책임져야 할까? 일차적 책임은 검사에게 있다. 직접회귀식처럼 기본 수사를 마친 후, 수집한 자료와 증거를 바탕으로 논리적 빈틈을 보완하는 추가 수사가 바로 역회귀에 해당한다. 만약 검찰이 이를 소홀히 하면 사법부는 공판의 원활한 진행을 위해라도 소극적 지휘를 통해 검찰에 보완수사를 촉구해야 한다.


이번 50억 원 성과급 사건만 보아도 검찰의 수사 의지와 재판부의 보완 지휘 모두 아쉬움이 크다. 이런 일이 반복되면 시민들은 수사기관을 ‘법꾸라지’를 넘어 ‘법폭’, ‘법피아’로 비난할지 모른다. 작년 12월 대통령 장모의 요양급여 불법수급 혐의에 대해 대법원이 최종 무죄를 선고한 것도 같은 맥락이다. 재판부는 유죄로 의심할 정황은 충분했지만 증거가 부족해 무죄를 선고했고, 판결문에서조차 검찰의 미흡한 수사를 우회적으로 지적했다.


영어 단어 Justice는 ‘정의’를 뜻한다. 이는 로마신화에서 정의의 여신 유스티티아(Justitia) 에서 유래했다. 눈을 가린 채 저울과 칼을 든 유스티티아는 공정함과 준엄함을 상징한다. 검찰이 휘두르는 칼은 정의를 위해 공정해야 한다. 죄가 없는 사람을 중죄인처럼 몰아세워 칼을 휘둘러서도 안 되며, 반대로 진짜 중범죄자를 앞에 두고 허공에서 칼춤만 추다 흐지부지 칼을 거둬서도 안 된다.


검찰이 더 이상 ‘그들만의 검찰 공동체’라는 오명을 쓰지 않기 위해서는 어떤 의도나 선입견 없이 철저하고 공정한 수사와 공판을 수행해야 한다. 이는 사회과학에서 의도하지 않은 베타 오류를 피하기 위해 데이터 자체를 왜곡 없이 분석하는 기본 원칙과 다르지 않다. 정의로운 칼을 기대하며, 검찰이 본연의 역할을 다해주길 바란다.

keyword