P-value 제대로 쓰기
학계에 이만한 스테디셀러이자 핫토픽인 통계개념이 없는데, 바로 통계 가설검정에 자주 쓰이는 P-value이다. 사실 이 P-value 자체에는 문제가 없다. 문제는 학계와 의료계, 교육계, 법학계 등 많은 분야에서 P-value가 잘못된 방식으로 해석되고 또 잘못된 방식으로 교육되고 있다는 점이다. 2011년도를 기점으로 이 P-value에 거의 '재앙급*'의 논란이 있었는데, 이는 아래의 두 사건이 발단이 되었다. (*실제로 여러 학자들이 'Statistical Crisis'라는 표현을 자주 썼다)
첫번째 사건.
학계에서는 Simmons, Nelson, Simonsohn 세 명의 심리학자들이 심리학계에 만연한 위양성(false-positive)문제를 통계적으로 검정한 화제의 2011년 논문 이후로, P-value에 대한 논란이 정점에 이르렀다. 위양성이란 틀린 결과값이 옳은 결과값이라고 잘못 추정된 경우를 의미한다. 의료계에서 자주 쓰이는 이 개념은 쉽게 말하면, 암세포가 음성인데 양성이라고 잘못 판단하여 암에 걸렸다고 오인하는 경우를 뜻한다.
이 논문의 저자들은 심리학 논문들에서 '비상식적인' 수준의 가설들이 통계적으로 유의미하다고 보고되는 경우들이 너무 빈번하며, 똑같은 가설 검정에 매우 다른 결과값들이 보고된다는 점, 그리고 상당수의 연구들이 '재현'이 불가능하다는 점을 의아하게 생각하여 연구에 착수했다.
이들은 학계에서 빈번하게 발생하는 다음의 연구 관행들이 얼마나 큰 위양성 문제를 일으키는 지 시뮬레이션을 통해 추정했다.
1. 여러 종속변수(dependent variables)들 사이에서 특정 종속변수를 선정하는 임의성
2. 표본 크기를 선정하는 데 있어서의 임의성
3. 공변인(covariate) 사용에 있어서의 임의성
4. 실험조건(분석조건)의 일부만을 보고하는 임의성
이들이 지적하는 4개의 대표적인 연구 관행은 사실상 통계적으로 유의미한 결과값이 나올 때까지 데이터 분석을 수행하여, 유의미하게 나온 결과만을 바탕으로 논문을 쓰는 '탐색적 행태'를 나타낸다. 여기서 '통계적으로 유의미한 결과값'을 판단하는 데 압도적으로 자주 사용되는 값이 바로 P-value이다. 이러한 탐색적 행태는 단연코, 심리학계 뿐만 아니라 의학, 사회과학, 이공계 등등 모든 연구분야에서 나타나는 행태이기 때문에 더욱 주목할 필요가 있다.
이 4가지 행태에 대해 적어도 한번 이상 위양성 결과값이 발생 확률을 시뮬레이션을 통해 검토해 본 결과, 각각 p<0.05 에서 9.5%, 7.7%, 11.7%, 12.6% 의 위양성 발생 확률이 계산되었다. 이 4가지를 한꺼번에 할 경우? 무려 60.7%의 위양성 확률이 나왔다. 이 결과값도 놀랍지만, 더 놀라운 점은 이런 연구결과가 우리 중학교 통계 수준의 기초 통계 지식만으로도 유도가 가능한 추론이라는 점이다. (불량감자칩일 확률이 2%일 때, 4개의 감자칩 중에서 적어도 하나 이상의 불량 감자칩이 나올 확률만 계산할 수 있어도 위와 같은 위양성 확률을 잡아낼 수 있다! 칸 아카데미를 참고하시오!)
물론 이 논문이 출판된 이후로 엄청나게 많은 논란과, 반박과, 비판과 옹호가 있었으며 이로 인해 연구자들이 2년 후에 <Life after P-hacking> 이라는 후속논문을 출간하여 부연설명을 이어갔다.
이 글을 읽는 혹자는 "이런 건 너무 어렵고 복잡해. 학계에서 학자들이 알아서 할 일이지" 라고 치부해버릴 수도 있으나, 이 일이 얼마나 우리의 일상생활에 무서운 해를 끼칠 수 있는 지 두번째 사건을 통해 알아보겠다.
두번째 사건.
2011년 미국 대법원의 Matrixx Initiatives Inc. 대 Siracusano 사건은 P-value의 해석을 둘러싼 굉장히 큰 사건이자 우리 일상에 피부로 와닿는 사건이다. 이 사건은 Matrixx 제약사에서 만든 감기약의 부작용인 후각 상실이 '통계적으로 유의미하지 않기' 때문에 고지 의무가 없었다고 주장한 제약사에 대해 투자자들이 집단 소송을 제기한 사건이다.
이 사건에 대해서 미국 대법원은 기존의 판례들을 뒤집고, '통계적으로 유의미하지 않더라도' 약물 부작용을 보고하지 않은 제약회사를 고소할 수 있다는 만장일치 판결을 내린 케이스다. 즉, 그간 제약회사에서는 신약이나 새로운 치료법을 개발해 낼 때, 이 'P-value'에 근거한 통계적 유의미성을 준거기준으로 부작용의 여부를 판단해왔는데, 미국 대법원에서 이 같은 P-value 기준의 약물 부작용 해석에 제동을 걸기 시작한 것이다.
위에서 학계에서 만연한 탐색적 연구 행태가 위양성 발생 확률을 적게는 9%, 많게는 61%까지 높일 수 있다는 결과를 함께 고려해보면, 그간 제약회사나 의학계에서 부작용을 측정하는 통계 검정 방식에 얼마나 큰 오류들이 있었는지 짐작해볼 수 있다. 이는 실생활에서 우리가 접하는 약물들과 치료법들이 실질적으로 '보고되지 않은' 위험한 부작용을 포함하고 있을 확률이 생각보다 높다는 뜻일 수도 있다.
실제로 미국 대법원은 제약회사 소송건 뿐만 아니라 고용에서의 차별, 교육에서의 차별 등 여러 분야에서 이 P-value 해석에 기반하여 사법적 판단을 내려오고 있다. 위의 감기약 사례처럼 P-value가 유일무이한 임계기준이 아님에도 불구하고 이 값이 유의미하지 않았다는 이유만으로 부작용을 보고하지 않는다면 어떻게 되겠는가? 혹은 어떤 공장에서 내뿜는 오염물질을 테스트해보니 P-value가 유의미하지 않기 때문에 전혀 문제가 없다고 손쉽게 판단해버리면 어떻게 되겠는가?
이처럼 P-value에 대한 해석은 학계의 '고명한 학자'들만의 논란이 아니라 일상생활에서 모든 사람들이 돌이킬 수 없는 피해를 받지 않기 위해 진지하게 고민해봐야 할 문제다.
이 같이 학계와 사법계에서 발단이 된 두 큰 사건을 계기로, 2014년 미국통계협회는 P-value에 대한 성명서를 발표했다.
비공식적으로, P-value는 특정 통계 모델에서 데이터의 통계적 요약(예: 비교 대상인 두 그룹 간의 표본 평균 차이)이 관찰된 값과 같거나 더 극단적일 확률을 의미한다.
1. P-값은 데이터가 특정 통계 모델과 얼마나 적합하지 않는지를 나타낸다.
-가장 일반적으로 모델이란 일련의 가정 하에 구성된 소위 "귀무 가설"을 의미한다. (예: 평균값, 변수 간 차이 없음)
-P-값이 작을수록, P-값을 계산하는 데 사용된 기본 가정 하에, 데이터와 귀무가설의 통계적 비적합성이 크다는 것을 의미한다.
2. P-값은 연구된 가설이 참일 확률 또는 데이터가 무작위적인 우연에 의해 생성되었을 확률을 측정하는 값이 아니다.
-연구자들은 종종 P-값을 귀무 가설이 사실일 확률 또는 무작위적 우연에 의해 관찰데이터가 발생했을 확률에 대한 진술로 사용하고자 한다. P-값은 그 둘 중 어느 쪽에도 해당되지 않는다. 이는 특정 가설 설명과 관련된 '데이터'에 대한 진술이며 '설명' 자체에 대한 진술이 아니다.
3. 과학적 결론과 비즈니스 또는 정책 결정은 p-값이 특정 임계값을 통과했는지 여부에만 근거해서는 안 된다.
-결론은 바로 한쪽에서는 '참'이 되고 다른 한쪽에서는 '거짓'이 됨을 나타내는 것이 아니다. 연구자는 연구 설계, 측정의 품질, 연구 중인 현상에 대한 외부 증거, 데이터 분석의 기반이 되는 가정의 타당성 등 다양한 맥락적 요소를 고려하여 과학적 추론을 도출해야 한다.
4. 적절한 추론을 위해서는 완전한 보고와 투명성이 필요하다.
-P-값 및 관련 분석은 선택적으로 보고해서는 안된다. 데이터 드래징, 유의성 추적, 유의성 질의, 선택적 추론, "p-해킹" 등 유의미한 결과만을 선택적으로 체리피킹하는 것은 출판된 문헌에 통계적으로 유의미한 결과를 과도하게 포함시키는 결과를 초래하므로 지양해야 한다.
5. P-값 또는 통계적 유의성은 효과의 크기나 결과의 중요성을 나타내지 않는다.
6. P-값은 그 자체로는 모델이나 가설에 대한 증거의 옳은 척도를 나타내지 않는다.
나 역시 이 일련의 P-value 사건들이 손톱 밑의 가시처럼 느껴질 때가 종종 있다. 명성이든 성과든 원하는 결과를 얻기 위해서 P<0.05가 나올 때까지 이리저리 분석을 거듭해본 적이 한두번이 아니다. 그러다보면 간혹 내가 하는 연구는 과연 진실로 유의미한 것인가, 혹은 통계적으로만 유의미한 것인가라는 회의에 빠지곤 한다.
한번쯤 자기 연구의 진정성에 대해 고민을 해본 사람이라면, 외면하고픈 씁쓸한 이 진실을 파고들 필요가 있다. 여전히 배워가는 과정에서 많은 실수들, 그리고 무지로 인한 잘못된 결과들을 만들어낼 수 있지만 그런 무지와 실수를 최대한 줄여보고자 하는 시도마저도 이 시대에 꼭 필요한 자질이 아닐까 싶다. 가짜 뉴스와 거짓된 정보들이 판치는 시대에서 말이다.
<참고문헌>
*Grabowski, B. (2016). “P < 0.05” Might Not Mean What You Think : American Statistical Association Clarifies P Values. JNCI Journal of the National Cancer Institute, 108(8), djw194.
*Mary W. Gray, P-values: What Do They Prove?, https://chance.amstat.org/2015/02/p-values/
*Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology : Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science, 22(11), 1359‑1366.
https://chance.amstat.org/2015/02/p-values/
*Wasserstein, R. L., & Lazar, N. A. (2016). The ASA Statement on p-Values : Context, Process, and Purpose. The American Statistician, 70(2), 129‑133.