(그게 문제야. 우연히 유의미한 거, 진짜일까?)
그날은 통계가 잘 풀리는 날이었어.
p값이 줄줄 나왔고,
유의미한 결과도 세 개나 나왔지.
"됐다!"
혼잣말이 절로 나왔어.
그런데 발표 끝나고,
교수님이 딱 한마디.
“몇 개 돌렸죠?”
“...10개요.”
“그러면 우연히라도
하나는 유의미하게 나오죠.”
순간 멍했다.
왜냐고?
나는 그걸 성공이라고 생각했거든.
형이 깨달은 건 이거였어.
검정 횟수가 많아질수록
p값이 작게 나올 확률도 높아진다.
그건 데이터의 신호가 아니고,
우연이 만든 착시였던 거야.
예를 들어,
아무 상관없는 변수 20개를 비교하면
그중 하나쯤은 p < .05가 나올 수 있어.
그게 우연히 나온 유의미함,
즉 가짜 양성(false positive)이야.
나는 그날 통계를
복권처럼 돌리고 있었던 거야.
계속 뽑다 보면
하나쯤은 되겠지?
맞아.
그렇게 되긴 해.
근데 그게 진짜 의미 있는 결과는 아니야.
그래서 그때부터 형은
다중 비교 할 때
보정(correction)을 배우기 시작했어.
보페로니(Bonferroni),
홀름(Holm),
FDR 같은 것들.
이름은 어렵지만,
뜻은 하나야.
"한꺼번에 너무 많이 보지 마.
그럼 눈속임에 속는다."
형이 너한테 꼭 해주고 싶은 말.
분석할 땐 꼭 물어봐.
“나는 지금 질문 하나를 하고 있나?”
아니면
질문 20개 던지고
그중 하나라도 맞은 걸 자랑하고 있는 건가?”
그 차이가
논문을 살릴 수도,
무너뜨릴 수도 있어.
실제 연구에서도
다중 비교를 고려 안 하면
엉뚱한 정책이 생기고,
틀린 결론이 책으로 나와.
그래서 요즘 논문은
p값보다 효과 크기(effect size)와
모델 설계의 정교함을 더 중요하게 봐.
그게 시대의 흐름이야.
형처럼
돌리고 또 돌리다
혼자 환호하지 말고,
돌리기 전에
딱 하나만 물어봐.
“나는 지금
무엇을 검정하고 있는가?”
그게 없으면
통계는 그냥
데이터 뽑기 기계가 돼버려.
8화 – 데이터 정리는 분석보다 어렵다
SPSS는 돌렸는데,
내가 뭘 돌렸는지는 몰랐다.