7화 – 열 개 돌리면 하나는 걸린다

(그게 문제야. 우연히 유의미한 거, 진짜일까?)

by 라이브러리 파파

그날은 통계가 잘 풀리는 날이었어.
p값이 줄줄 나왔고,
유의미한 결과도 세 개나 나왔지.

"됐다!"
혼잣말이 절로 나왔어.


그런데 발표 끝나고,
교수님이 딱 한마디.

“몇 개 돌렸죠?”

“...10개요.”

“그러면 우연히라도

하나는 유의미하게 나오죠.”

순간 멍했다.

왜냐고?
나는 그걸 성공이라고 생각했거든.

형이 깨달은 건 이거였어.

ChatGPT Image 2025년 5월 24일 오전 10_10_23.png

검정 횟수가 많아질수록
p값이 작게 나올 확률도 높아진다.


그건 데이터의 신호가 아니고,
우연이 만든 착시였던 거야.


예를 들어,
아무 상관없는 변수 20개를 비교하면
그중 하나쯤은 p < .05가 나올 수 있어.
그게 우연히 나온 유의미함,
가짜 양성(false positive)이야.


나는 그날 통계를
복권처럼 돌리고 있었던 거야.
계속 뽑다 보면
하나쯤은 되겠지?


맞아.
그렇게 되긴 해.
근데 그게 진짜 의미 있는 결과는 아니야.


그래서 그때부터 형은
다중 비교 할 때
보정(correction)을 배우기 시작했어.


보페로니(Bonferroni),
홀름(Holm),
FDR 같은 것들.


이름은 어렵지만,
뜻은 하나야.

"한꺼번에 너무 많이 보지 마.
그럼 눈속임에 속는다."


형이 너한테 꼭 해주고 싶은 말.

분석할 땐 꼭 물어봐.
“나는 지금 질문 하나를 하고 있나?”


아니면
질문 20개 던지고
그중 하나라도 맞은 걸 자랑하고 있는 건가?”


그 차이가
논문을 살릴 수도,
무너뜨릴 수도 있어.


실제 연구에서도
다중 비교를 고려 안 하면
엉뚱한 정책이 생기고,

틀린 결론이 책으로 나와.


그래서 요즘 논문은
p값보다 효과 크기(effect size)와
모델 설계의 정교함을 더 중요하게 봐.

그게 시대의 흐름이야.


형처럼
돌리고 또 돌리다
혼자 환호하지 말고,

돌리기 전에
딱 하나만 물어봐.


“나는 지금
무엇을 검정하고 있는가?”


그게 없으면
통계는 그냥
데이터 뽑기 기계가 돼버려.


다음 화 예고

8화 – 데이터 정리는 분석보다 어렵다
SPSS는 돌렸는데,
내가 뭘 돌렸는지는 몰랐다.



keyword
매거진의 이전글4화 – 회귀분석이 나한테 말 걸었어