11화-좋은 모형많이넣는게아니라,잘넣는데서 시작한다

(복잡하면 멋져 보이지만, 해석은 안 된다)

by 라이브러리 파파

그때 나는

논문 결과가 너무 애매해서

이런 생각을 했어.


‘이 변수도 넣어볼까?’

‘아, 저것도 괜히 넣어볼까?’


결국 독립변수를

7개나 넣고 회귀 돌렸지.




결과는?

R²는 올랐고,

p값도 몇 개는 나왔어.


근데 정작 보고서 쓰려니까

아무 말도 못 하겠더라.


그냥

숫자가 있는 거지,

메시지가 없었어.




교수님이 그 보고서 보시고

딱 한 마디 하셨어.


“이건 해석이 아니라

숫자 나열이에요.”




형이 그때 깨달은 건 이거야.


변수는 많이 넣는 게 아니라,

‘이걸 왜 넣는지’가 먼저다.




많이 넣으면 R²는 올라가.

그건 맞아.

근데 그건

'예측력'이 아니라 '착시'일 수도 있어.


특히 논문에서는

예측보다는 설명이 중요하거든.




그래서 형은

변수 고를 때

이 세 가지 질문을 해.


1. 이 변수는 이론적으로 연결되는가?


2. 이 변수는 독립적으로 의미를 갖는가?


3. 이 변수를 빼면 모형이 더 명확해지는가?




형은 그때 이후로

모형을 꾸미는 게 아니라, 다듬기 시작했어.


예전엔

변수를 덕지덕지 붙였다면,

지금은

안 써도 될 건 과감히 빼.


그래야

남는 변수가 말이 돼.


진짜 멋진 모형은

숫자보다 설명이 예쁜 거야.




형이 마지막으로 하고 싶은 말.


변수는 ‘넣는 것’보다 ‘설명하는 것’이 더 어렵다.

그리고 좋은 설명은

복잡함이 아니라

필요한 최소한에서 시작된다.



다음 화 예고


12화 – 데이터는 항상 깨끗하지 않다

누락값, 이상값, 섞인 범주…

먼지부터 털고 분석하자


keyword
매거진의 이전글10화 – 이상치는 무섭지 않아