민감도, 특이도
코로나 진단 결과의 정확도에 대해서 이야기할 때 주로 민감도(Sensitivity), 특이도(Specificity)라는 두 지표를 통계적 기준치로 삼습니다. 이 지표를 이해하기 위해서는 먼저 의료 진단상 음성과 양성이 나올 수 있는 4가지 상황을 먼저 가정할 수 있어야 합니다.
검사자의 실제 상태(True condition)는 코로나에 걸렸거나(disease), 그렇지 않은 경우 2가지로 나뉩니다. 이러한 통계적 모델을 이진 분류 모형이라 하며 해당 모델에서 나올 수 있는 결과, 즉 검사자의 검사 결과는 양성(Positive)과 음성(Negative)으로 나뉘게 됩니다. 이때 나올 수 있는 4가지 상황은 아래와 같습니다.
검사자는 코로나에 걸렸고, 코로나 검사 결과도 양성인 경우(True Positive)
검사자는 코로나에 걸렸으나, 코로나 검사 결과는 음성인 경우(False Negative)
검사자는 코로나에 걸리지 않았고, 코로나 검사 결과도 음성인 경우(True Negative)
검사자는 코로나에 걸리지 않았으나, 코로나 검사 결과는 양성인 경우(False Positive)
진단 시 중요한 것은 감염자를 '양성'으로 진단을 해내는 것과 반대로 비-감염자를 '음성'으로 진단을 해내는 것입니다. 전자의 경우 전체 감염자(1, 2) 대비 검사 결과가 양성(1)인 비율을 뜻하는 민감도로, 후자의 경우 전체 비-감염자(3,4) 대비 검사 결과가 음성(3)인 비율을 뜻하는 특이도로 각각의 정확성을 평가할 수 있습니다.
연구 관점에서 좀 더 직관적으로 이해해보면 민감도가 높은 검사는 "실제 감염자를 잘 판별해내는 검사"를 의미하고, 특이도가 높은 검사는 "실제 비-감염자를 잘 판별해내는 검사"를 의미합니다. 그리고 당연하게도, 두 케이스 모두 잘 구분해내는 것이 pcr이나 진단키트의 검사 목표입니다.
그렇다면 현재 선별 진료소에서 진행하는 pcr검사나 자가진단키트는 이러한 민감도, 특이도가 어느 정도일까요? 현재 국내에 상용되고 있는 pcr의 민감도와 특이도는 약 99%로 알려져 있고, 자가진단키트는 각각 90% 에 근사합니다.(설명을 위해 단순화하였습니다. 자세한 수치는 아래 분석 후 부가 설명하겠습니다.)
이렇게 민감도, 특이도를 알 수 있다면 "진단 검사 결과가 틀릴 가능성"을 계산해볼 수 있습니다. 틀릴 가능성에 대해서는 2가지 케이스로 나눠 이야기합니다. 하나는 음성이라 판독했는데 실제 검사자는 양성일 경우, 다른 하나는 양성이라 판독했는데 실제 검사자는 음성일 경우입니다.
일반적으로 의료 진단 상황에서 전자의 경우가 굉장히 위험한 케이스기 때문에(암 환자를 음성으로 오진했다고 생각해봅시다) 실험에서 이 확률을 줄이는 것을 최우선으로 하지만 후자의 경우 또한 불필요하게 의료 리소스를 낭비시킬 수 있고 잘못된 처방으로 인해 자칫 위험한 상황을 발생시킬 수 있다는 점에서 주의해야 합니다.
그럼 지금부터 실제 국내 코로나 상황을 고려하여 "코로나 검사 결과가 틀렸을 가능성"을 알아보겠습니다.
2021년 12월 기준, 국내 코로나 확진 환자는 575,615명입니다. 국내 총 인구는 5천만 명이 조금 넘으니 감염 비율은 전체의 약 1%에 해당합니다. 전 국민이 모두 1회 검사를 완료한 경우를 가정했을 때, 감염자와 비-감영자 수 그리고 진단 방식 별 민감도와 특이도에 따른 진단 결과는 아래와 같습니다.
먼저 PCR의 오류 가능성부터 살펴보겠습니다. 검사 결과가 음성일 때의 오류, 즉 결과가 음성인데 이 검사자가 실제로는 양성일 확률은 '음성 판정을 받은 49,010,000 명(False Negative 5,000 + True Negative 49,005,000) 중 위음성(거짓 음성, False Negative) 5,000 명'으로 계산할 수 있고 결과는 0.0001(0.01%)입니다. 이는 만 명중에 한 명 나올 확률로, 가능성이 희박해 보입니다. 그러나 반대로 양성일 때의 오류를 확인해보면 진단 결과가 매우 의심스러워지기 시작합니다.
검사 결과가 양성일 때의 오류, 즉 결과가 양성인데 이 검사자가 실제로는 음성일 확률은 '양성 판정을 받은 990,000 명(True Positive 495,000 + False Positive 495,000) 중 위양성(거짓 양성, False Positive) 495,000 명'으로 계산할 수 있고 결과는 0.5(50%)입니다. PCR로 양성이 나왔을 때 실제 감염되었을 확률이 50%에 불과한 것입니다. 민감도와 특이도가 무려 99%인 PCR의 검사 결과를 보니 자가진단키트의 결과는 어떨지 심히 걱정스럽습니다.
자가진단키트의 경우 검사 결과가 음성일 때의 오류 가능성(확률)은 '음성 판정을 받은 44,600,000 명(False Negative 50,000 + True Negative 44,550,000) 중 위음성(거짓 음성, False Negative) 50,000 명', 즉 0.001(0.1%)이며 검사 결과가 양성일 때의 오류 가능성(확률)은 '양성 판정을 받은 5,400,000 명(True Positive 450,000 + False Positive 4,950,000) 중 위양성(거짓 양성, False Positive) 4,950,000 명', 즉 0.917(92%)입니다. 진단 키트 결과 음성이 나오면 어느 정도 신뢰할 수 있지만 양성이 나온 경우 90%가 넘는 확률로 틀렸을 가능성이 있다는 것입니다.
도대체 이렇게 오류의 가능성이 높은 진단을 어떻게 신뢰할 수 있을까요? 사실 이는 전체 모수를 표본으로 해서 나타나는 통계적(이론적) 확률입니다. 실제 우리는 전수조사를 하지 않습니다. 5천만 인구 중 비-감염자는 감염자에 비해 압도적으로 많을 것이라고 우리는 예상할 수 있습니다. 따라서 양성으로 나올 수 있는 두 케이스인 '감염자의 99%'와 '비-감염자의 1%'를 비교했을 때, '비-감염자의 1%'가 '감염자의 99%'를 규모적으로 압도하기 때문에 이러한 결과가 발생합니다. 즉, 마치 통제된 실험 환경처럼 5천만 인구가 동시에 진단을 실시한 경우 '통계적'으로 그럴 수 있다는 뜻입니다.
하지만 실상은 그렇지 않습니다. 우선 증상이 있는 경우나 확진자와 동선이 겹쳐서 '양성으로 의심될 만한 상황'이 발생해야 PCR이든 자가진단이든 실시하게 됩니다. 따라서 양성 비율도 실험 환경보다 더 높을 것이고, 뿐만 아니라 진단 의료계 역시 이러한 통계적 사실에 기반하여 특이도를 100%에 가깝게 끌어올리는 것이 일반적입니다. 앞서 비-감염자 1%의 규모가 얼마나 대단한지 이미 체감할 수 있었습니다. 모수의 1%는 인구통계적으로 결코 무시할 수 없는 수치입니다.
실제 검사에 사용되는 PCR은 민감도 99~100%, 특이도 100%(99.99999...%)에 해당합니다. 진단키트의 정확도는 업체마다 다르지만 많은 케이스는 특이도가 민감도보다 5~10%가량 높습니다. SD바이오센서의 경우 민감도 90% 특이도 96%, 휴마시스의 경우 민감도 89.4% 특이도 100%라고 합니다.
앞서 언급한 것처럼 99.9%와 99%는 전혀 다른 수준입니다. 유튜브 등에서 정확도를 매우 높은 수치처럼 보이는 99%로 가정하고 '코로나 검사가 통계적으로 신뢰할 수 없다'라고 하는 경우가 많습니다. 하지만 이는 0.1%~1%를 무시하고 대규모 비-감염자를 가상으로 '양성 판정'해버린 케이스입니다.
이번에는 실제 상용되는 PCR과 진단키트의 민감도, 특이도와 근사하게 수치를 조정(PCR의 특이도는 100%에 가깝게, 자가진단키트의 특이도는 100%에서 조금 떨어지게)해서 '코로나 검사 결과의 오류 가능성'에 대해서 확인해보겠습니다. 참고로 이번에도 전체 모수를 표본으로 할 것입니다. 이유는 2가지인데, 하나는 '오류를 낮추는 방향으로 통계가 편향될 가능성을 차단하기 위해서', 다른 하나는 '코로나 기간과 현재 검사자 수가 늘어나면서 검사자 대비 양성 비율이 실제로 1%에 가깝게 형성되고 있어서'입니다. 감염률 1%와 근사해지고 있다는 뜻입니다.
위 수치를 토대로 살펴보면, PCR의 경우 검사 결과가 음성일 때 오류 가능성은 0.01%(False Negative 5,000 / (False Negative 5,000 + True Negative 49,495,050)), 양성일 때 오류 가능성은 0.9%(False Positive 4,950 / (False Positive 4,950 + True Positive 495,000))며 자가진단키트의 경우 검사 결과가 음성일 때 오류 가능성은 0.1%(False Negative 50,000 / (False Negative 50,000 + True Negative 49,475,250)), 양성일 때 오류 가능성은 5%(False Positive 24,750 / (False Positive 24,750 + True Positive 450,000))입니다.
이렇게, 본 분석을 통해 우리는 다음과 같은 사실을 이해할 수 있었습니다.
코로나가 장기화되고 검사자가 늘어날수록, 통계적 유의미성은 더 높아지는 방향(집단 표본이 모수에 근사 해지는 방향)으로 지속해서 미세 조정된다.
특이도가 100%에 가깝게 나오는 현대 진단 기술을 고려할 때, 통계적 오류라고 여겨지는 '위음성'의 가능성이 검사를 신뢰하지 못할 만큼 높지 않다.