(모형이 복잡해질수록, 해석은 무너진다)
그때 형은
욕심이 많았어.
"이것도 넣어야지."
"저 변수도 중요하지."
"혹시 모르니까 이거까지 넣자."
결국
독립변수가 9개.
계층적 회귀분석.
세 단계.
그래프는 복잡했고,
표는 길어졌고,
해석은 없어졌다.
교수님이 물으셨지.
“이 중에
핵심 변수는 뭐예요?”
나는 대답을 못 했어.
왜냐면
그걸 생각해본 적이 없거든.
“그냥 다 중요한 것 같아서…”
그게 문제였던 거야.
모형을 꾸미느라
메시지를 잃은 거.
그날 이후 형은
무조건 이 질문부터 적어.
이 변수는 질문과 직접 연결되는가?
이 변수는 해석 가능한가?
이 변수가 빠지면 오히려 더 명확해지는가?
분석은
많은 변수를 보여주는 기술이 아니라,
핵심 변수를 남기는 기술이야.
형은 그 이후로
모형을 '넣는 순서'보다
'빼는 기준'으로 설계해.
실제로 9개 넣었던 변수 중
4개만 남겼더니
모형 설명력은 조금 떨어졌지만
문장은 3배 더 자연스러워졌어.
복잡한 모형은
설득력이 아니라,
해석의 부담을 키워.
읽는 사람도, 발표하는 나도
말을 잃게 되더라.
형이 너한테 꼭 말하고 싶은 건 이거야.
모형은
많이 넣을수록 좋아 보이고,
적게 남길수록 강해진다.
분석은
무언가를 증명하는 싸움이 아니라,
무엇을 ‘말할 수 있는가’를 남기는 선택이야.
버릴 줄 아는 분석가가
끝까지 살아남아.
그게 형이 배운 결론이야.
24화 – 신뢰구간(confidence interval)은
숫자의 표정이다
(p값은 말하지만, 구간은 느낌을 만든다)