(복잡하면 멋져 보이지만, 해석은 안 된다)
그때 나는
논문 결과가 너무 애매해서
이런 생각을 했어.
‘이 변수도 넣어볼까?’
‘아, 저것도 괜히 넣어볼까?’
결국 독립변수를
7개나 넣고 회귀 돌렸지.
결과는?
R²는 올랐고,
p값도 몇 개는 나왔어.
근데 정작 보고서 쓰려니까
아무 말도 못 하겠더라.
그냥
숫자가 있는 거지,
메시지가 없었어.
교수님이 그 보고서 보시고
딱 한 마디 하셨어.
“이건 해석이 아니라
숫자 나열이에요.”
형이 그때 깨달은 건 이거야.
변수는 많이 넣는 게 아니라,
‘이걸 왜 넣는지’가 먼저다.
많이 넣으면 R²는 올라가.
그건 맞아.
근데 그건
'예측력'이 아니라 '착시'일 수도 있어.
특히 논문에서는
예측보다는 설명이 중요하거든.
그래서 형은
변수 고를 때
이 세 가지 질문을 해.
1. 이 변수는 이론적으로 연결되는가?
2. 이 변수는 독립적으로 의미를 갖는가?
3. 이 변수를 빼면 모형이 더 명확해지는가?
형은 그때 이후로
모형을 꾸미는 게 아니라, 다듬기 시작했어.
예전엔
변수를 덕지덕지 붙였다면,
지금은
안 써도 될 건 과감히 빼.
그래야
남는 변수가 말이 돼.
진짜 멋진 모형은
숫자보다 설명이 예쁜 거야.
형이 마지막으로 하고 싶은 말.
변수는 ‘넣는 것’보다 ‘설명하는 것’이 더 어렵다.
그리고 좋은 설명은
복잡함이 아니라
필요한 최소한에서 시작된다.
다음 화 예고
12화 – 데이터는 항상 깨끗하지 않다
누락값, 이상값, 섞인 범주…
먼지부터 털고 분석하자