7화 – 열 개 돌리면 하나는 걸린다

(그게 문제야. 우연히 유의미한 거, 진짜일까?)

May 24. 2025

그날은 통계가 잘 풀리는 날이었어.
p값이 줄줄 나왔고,
유의미한 결과도 세 개나 나왔지.

"됐다!"
혼잣말이 절로 나왔어.

그런데 발표 끝나고,
교수님이 딱 한마디.

“몇 개 돌렸죠?”

“...10개요.”

“그러면 우연히라도

하나는 유의미하게 나오죠.”

순간 멍했다.

왜냐고?
나는 그걸 성공이라고 생각했거든.

형이 깨달은 건 이거였어.

검정 횟수가 많아질수록
p값이 작게 나올 확률도 높아진다.

그건 데이터의 신호가 아니고,
우연이 만든 착시였던 거야.

예를 들어,
아무 상관없는 변수 20개를 비교하면
그중 하나쯤은 p < .05가 나올 수 있어.
그게 우연히 나온 유의미함,
즉 가짜 양성(false positive)이야.

나는 그날 통계를
복권처럼 돌리고 있었던 거야.
계속 뽑다 보면
하나쯤은 되겠지?

맞아.
그렇게 되긴 해.
근데 그게 진짜 의미 있는 결과는 아니야.

그래서 그때부터 형은
다중 비교 할 때
보정(correction)을 배우기 시작했어.

보페로니(Bonferroni),
홀름(Holm),
FDR 같은 것들.

이름은 어렵지만,
뜻은 하나야.

"한꺼번에 너무 많이 보지 마.
그럼 눈속임에 속는다."

형이 너한테 꼭 해주고 싶은 말.

분석할 땐 꼭 물어봐.
“나는 지금 질문 하나를 하고 있나?”

아니면
질문 20개 던지고
그중 하나라도 맞은 걸 자랑하고 있는 건가?”

그 차이가
논문을 살릴 수도,
무너뜨릴 수도 있어.

실제 연구에서도
다중 비교를 고려 안 하면
엉뚱한 정책이 생기고,

틀린 결론이 책으로 나와.

그래서 요즘 논문은
p값보다 효과 크기(effect size)와
모델 설계의 정교함을 더 중요하게 봐.

그게 시대의 흐름이야.

형처럼
돌리고 또 돌리다
혼자 환호하지 말고,

돌리기 전에
딱 하나만 물어봐.

“나는 지금
무엇을 검정하고 있는가?”

그게 없으면
통계는 그냥
데이터 뽑기 기계가 돼버려.

8화 – 데이터 정리는 분석보다 어렵다
SPSS는 돌렸는데,
내가 뭘 돌렸는지는 몰랐다.

keyword