11화-좋은 모형많이넣는게아니라,잘넣는데서 시작한다

(복잡하면 멋져 보이지만, 해석은 안 된다)

by 라이브러리 파파

May 26. 2025

그때 나는

논문 결과가 너무 애매해서

이런 생각을 했어.

‘이 변수도 넣어볼까?’

‘아, 저것도 괜히 넣어볼까?’

결국 독립변수를

7개나 넣고 회귀 돌렸지.

결과는?

R²는 올랐고,

p값도 몇 개는 나왔어.

근데 정작 보고서 쓰려니까

아무 말도 못 하겠더라.

그냥

숫자가 있는 거지,

메시지가 없었어.

교수님이 그 보고서 보시고

딱 한 마디 하셨어.

“이건 해석이 아니라

숫자 나열이에요.”

형이 그때 깨달은 건 이거야.

변수는 많이 넣는 게 아니라,

‘이걸 왜 넣는지’가 먼저다.

많이 넣으면 R²는 올라가.

그건 맞아.

근데 그건

'예측력'이 아니라 '착시'일 수도 있어.

특히 논문에서는

예측보다는 설명이 중요하거든.

그래서 형은

변수 고를 때

이 세 가지 질문을 해.

1. 이 변수는 이론적으로 연결되는가?

2. 이 변수는 독립적으로 의미를 갖는가?

3. 이 변수를 빼면 모형이 더 명확해지는가?

형은 그때 이후로

모형을 꾸미는 게 아니라, 다듬기 시작했어.

예전엔

변수를 덕지덕지 붙였다면,

지금은

안 써도 될 건 과감히 빼.

그래야

남는 변수가 말이 돼.

진짜 멋진 모형은

숫자보다 설명이 예쁜 거야.

형이 마지막으로 하고 싶은 말.

변수는 ‘넣는 것’보다 ‘설명하는 것’이 더 어렵다.

그리고 좋은 설명은

복잡함이 아니라

필요한 최소한에서 시작된다.

다음 화 예고

12화 – 데이터는 항상 깨끗하지 않다

누락값, 이상값, 섞인 범주…

먼지부터 털고 분석하자

keyword

매거진의 이전글10화 – 이상치는 무섭지 않아12화 – 분석보다 먼저먼지부터 털어야 했다매거진의 다음글