P-value 0.05는 왜 과학의 문지방이 되었을까

우리는 왜 0.048에는 안도하고 0.06 앞에서는 침묵할까?

by 디딤돌

회의실에서 비슷한 장면을 자주 봅니다.

- 분석 결과가 공유됩니다. 누군가 가장 먼저 묻습니다.

- P 값이 얼마에요? 0.048 입니다.


그 순간 회의실 안의 공기가 조금 풀립니다.

반대로 "0.06 입니다" 라는 답이 나오면, 묘한 침묵이 흐릅니다.

숫자는 거의 비슷한데, 해석은 전혀 다른 방향으로 흘러갑니다.


0.048과 0.06.

실제로는 같은 종류의 불확실성 위에 놓인 숫자들입니다.

그런데 우리는 오래전부터 이 둘을 서로 다른 세계에 속한 값처럼 다뤄왔습니다.


왜 하필 0.05 였을까요?

그리고 왜 그 숫자는 하나의 통계적 기준을 넘어 과학의 문지방처럼 받아들여지게 되었을까요.


1) 0.05는 원칙이라기보다, 편의에서 출발했습니다.

p-value를 실무적 언어로 널리 퍼뜨린 인물로 자주 언급되는 사람은 로널드 피셔 (Ronald A. Fisher)입니다. 1925년 Statistical Methods for Research Workers에서 0.05를 유의수준의 기준으로 제시했습니다. 다만 그 출발은 오늘날 우리가 떠올리는 것처럼 절대적인 규칙이라기보다, 어디까지나 하나의 실용적 기준에 가까웠습니다.


중요한 것은 여기서 0.05가 자연법칙처럼 발견된 숫자가 아니라는 점입니다.

그것은 해석을 돕기 위한 기준선이었지, 진실과 거짓을 가르는 경계는 아니었습니다.


하지만 과학은 종종 편의를 제도로 바꾸고, 제도를 다시 상식으로 굳혀갑니다. 0.05 역시 그 과정을 거쳤습니다.

연구자는 선을 의식해 설계를 하고 (심지어 P값 낚시를 하는 경우도 종종 보입니다), 리뷰어는 그 선을 기준으로 결과를 읽고, 회의실에서는 그 선을 넘었는지 아닌지가 결론의 분위기를 좌우하게 됩니다.

그래서 0.05는 숫자 하나를 넘어, 연구를 통과시키는 문지방처럼 기능하기 시작했습니다.


2) p-value는 생각보다 적게 말해줍니다

p-value는 본래 자신이 말할 수 있는 범위 안에서 꽤 정직한 지표입니다. 다만 우리는 종종 그 숫자에, 애초에 맡겨지지 않았던 역할까지 기대해왔습니다.


p-value는 귀무가설이 참이라는 가정 아래, 현재 관측된 결과 혹은 그보다 더 극단적인 결과가 나올 확률을 뜻한다 합니다. 이 정의는 익숙해보이지만 실제 해석에서는 자주 다른 뜻으로 바뀝니다.


현장에서는 종종 이렇게 단순화됩니다.

"p < 0.05 면 효과가 있다."

하지만 p-value는 사실 그 말을 직접 해주지 않습니다. 즉 귀무가설이 참일 확률이 말해주지 않습니다. 효과가 얼마나 큰지도 말해주지 않습니다. 이 결과가 반복될 가능성을 보장하지도 않습니다. 더구나 임상적으로 의미 있는 차이인지까지 판단해주지는 않습니다.


2016년 미국통계학회(ASA)가 이례적으로 p-value에 대한 공식 성명을 발표한 것도 바로 이 지점 때문이었습니다.

p-value는 데이터가 특정 통계 모양과 얼마나 상충하는지를 보여주는 지표이지, 그 자체로 과학적 중요성이나 효과의 실재를 선언하는 도장은 아니라는 것입니다.


어쩌면 우리가 p-value에서 반복해서 오해하는 것은 통계학의 문제가 아니라, 해석의 욕망일지도 모르겠습니다. 불확실한 결과 앞에서 우리는 종종 숫자 하나가 단정적인 답을 대신해주기를 바랍니다.

하지만 통계는 원래 그런 방식으로 작동하지 않습니다.


3) 기준선이 절대화되면, 분석은 질문보다 문지방을 향하게 됩니다.

기준선이 강해질수록, 사람들은 질문에 답하기보다 그 선을 통과하는 방향으로 움직이기 시작합니다.


이 과정에서 가장 자주 언급되는 것이 p-hacking 입니다.

분석 방법을 조금 바꾸고, 구성을 조정하고, 관찰 기간을 달리하고, 하위군을 다시 나눠보며 원하는 결과가 나올 때까지 경로를 탐색하는 방식입니다.

겉으로는 모두 통계적 선택처럼 보일 수 있지만 그 선택이 사전에 규정되지 않았다면 그 결과는 독립적인 증거라기보다 선택된 분석 경로의 산물일 가능성을 함께 품게 됩니다.


출판 편향도 같은 구조 위에 있습니다. 유의한 결과는 출판되고, 유의하지 않은 결과는 서랍 속에 남아 문헌 전체가 실제보다 더 선명한 효과를 말하는 것처럼 보이게 됩니다.


이러한 문제가 얼마나 구조적인지를 상징적으로 보여준 글이 Ioannidis의 2005년 논문입니다. 그는 널리 받아들여진 연구 결과들조차 재현 가능성의 관점에서 다시 봐야 한다고 지적했습니다. 특히 표본이 작고 효과가 작으며 선택의 여지가 많은 환경일수록, 유의한 결과라는 사실만으로 참에 가깝다고 말하기 어려울 수 있다는 점을 말하고 있습니다.


결국 0.05 자체의 문제라기보다, 그 숫자에 부여된 제도적 무게입니다. 숫자는 원래 연속적인데 우리의 해석은 그것을 이분법적으로 바꿉니다. 그리고 그 순간부터 분석은 불확실성을 설명하는 작업이 아니라, 통과 여부를 판정하는 절차처럼 변해갑니다.


4) RWE 에서는 이 오해가 더 위험해집니다

이 문제는 Real-World Evidence (RWE)에서 더 예민하게 드러납니다.

청구자료나 EMR 처럼 대규모 의료 데이터를 다룰 때는, 표본 수 자체가 매우 큽니다.

그럼 임상적으로 거의 해석하기 어려운 작은 차이도 통계적으로는 쉽게 유의해질수 있습니다.


예를 들어 두 치료군의 절대 위험 차이가 매우 작더라도, 수십만 명을 비교하면 p-value는 충분히 작아질 수 있습니다.

그때 통계적으로 "차이가 있다"라고 말할 수 있을지 몰라도, 임상적으로 정말 의미 있는 차이인지는 전혀 다른 질문입니다.


하지만 RWE의 더 본질적인 어려움은 단지 표본 수가 크다는데 있지 않습니다.

관찰자료에는 언제나 교란요인, 측정오차, 선택 편향, 시간축의 불일치 같은 문제가 남아 있습니다. 우리가 마주하는 불확실성은 단순한 표본오차만이 아닙니다.


그럼에도 실무에서는 마지막 표의 p-value 하나가 논의를 정해버리는 장면이 적지 않습니다. 어쩌면 그것은 가장 다루기 쉬운 숫자이기 때문일 것입니다.

질문의 정의가 적절했는지, time zero는 잘 맞췄는지, 비교군은 임상적으로 설득력이 있는지, 민감도 분석에서 결과가 얼마나 흔들렸는지 훨씬 더 많은 설명을 요구합니다.


반면에 p-value는 한 줄로 말할 수 있어 편리합니다.

그래서 RWE에서는 더더욱 p-value를 중심에 두기보다, 그 숫자가 어떤 설계 위에서 만들어졌는지를 먼저 물어야 합니다.

효과 크기(effect size)는 어느 정도인지, 신뢰구간은 어디까지 열려 있는지, 다른 분석 전략에서도 방향성이 유지되는지, 관찰된 차이가 실제 의사결정에 영향을 줄 만큼의 크기인지를 함께 봐야합니다.


좋은 RWE는 깔끔하게 한번에 정리되지 않습니다. 오히려 여러 층의 불확실성을 끝까지 드러내면서, 그럼에도 어디까지 말할 수 있는지를 조심스럽게 정리해가는 작업에 가깝습니다.


5) 그래서 0.05는 버릴 숫자가 아니라, 제자리를 찾아야 할 숫자입니다.

그렇다고 0.05가 쓸모없다는 뜻은 아닙니다. 기준선은 필요합니다. 문제는 기준선이 사고를 대신하는 순간입니다.


2019년 Nature에 실린 논평에서 많은 연구자들은 "통계적으로 유의하다"라는 표현 자체를 버리자고 제안했습니다. 결과를 하나의 선 아래와 위로 나누는 언어가, 오히려 실제 데이터가 가진 연속성과 불확실성을 가려버린다는 것입니다.


이 흐름이 말하는 것은 p-value를 폐기하자는 주장이 아니라, 해석을 더 풍부하게 만들자는 요청에 가깝습니다.

효과의 크기는 어느 정도인지, 불확실성의 범위는 어디까지인지, 임상적 맥락에서 그 차이는 어떤 의미를 갖는지, 다른 설계와 분석에서도 비슷한 그림이 나오는지를 함께 읽자는 것입니다.


마치며

피셔가 제시했던 하나의 편의적 기준은, 오래 지나며 과학의 문지방처럼 받아들여지게 되었습니다. 그 사이 수많은 연구가 그 선을 넘기 위해 설계되고, 해석되고, 출판되었습니다.


하지만 좋은 분석은 문지방을 넘었는지를 확인하는 일로 끝나지 않습니다. 그 숫자가 어떤 질문 위에서 만들어졌는지, 얼마나 흔들릴 수 있는지, 그리고 실제로 무엇을 말해줄 수 있는지를 끝까지 묻는 데서 시작됩니다.

통계는 확신을 인증하는 도구가 아닙니다.


오히려 확신의 범위를 정리하는 도구에 가깝습니다.그래서 0.05를 대하는 더 좋은 태도는, 그것을 숭배하거나 폐기하는 것이 아니라 제자리에 놓는 일인지도 모르겠습니다. 숫자 하나로 세상을 유의한 것과 유의하지 않은 것으로 나누는 순간, 우리는 데이터가 말하는 것의 절반을 스스로 지워버리게 되니까요.


참고문헌

- Fisher, R.A. (1925). Statistical Methods for Research Workers. Oliver and Boyd.

- Wasserstein, R.L., & Lazar, N.A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133.

- Ioannidis, J.P.A. (2005). Why Most Published Research Findings Are False. PLOS Medicine, 2(8), e124.

- Greenland, S., et al. (2016). Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology, 31(4), 337–350.

- Amrhein, V., Greenland, S., & McShane, B. (2019). Scientists rise up against statistical significance. Nature, 567, 305–307.

- Nuzzo, R. (2014). Statistical Errors. Nature, 506, 150–152.

작가의 이전글RWE는 왜 항상 '뭔가 찜찜한 결론'으로 끝나는가