9화 – 설명력도 허세를 벗어야 보인다

(R²가 높다고 다 좋은 건 아니더라고)

by 라이브러리 파파

형은 어느 날
회귀분석을 돌렸어.

딱 나왔지.

R² = 0.708

와,
70퍼센트야?
이건 거의 설명 끝났다는 거 아니야?


그래서 PPT에
“본 회귀모형은 높은 설명력을 보입니다.”
라고 써넣었어.


근데 발표 중 교수님 질문.

“조정된 결정계수도 확인했나요?”

그 순간,
정적.

“어... 아뇨. 그건...”

그러자 교수님이 덧붙이셨지.


“그 값이 진짜입니다.”

그때 처음으로
R² 와 Adjusted R²의 차이를 제대로 공부했어.



간단하게 말하면 이거야.

R²는 그냥 ‘잘 맞는다’는 느낌값

Adjusted R²는 그중에 진짜 중요한 것만 추려낸 값


예를 들어,
독립변수 막 넣잖아?
R²는 올라가.
무조건이야.


쓰레기 변수도 넣으면
일단 겉보기 성능은 올라간다고.

근데 Adjusted R²는 달라.
“쓸데없는 변수 빼고도 설명 가능한가요?”
이걸 묻는 거야.


형은 그걸 몰랐던 거지.
모형은 멋져 보였고,
그래프는 예뻤고,
R²는 0.7 넘었고.

근데 실제로 그 모형이
‘의미 있는 변수’로만 설명된 건 아니었던 거야.


그래서 Adjusted R² 를 보니까

0.52

와...
R²는 70인데
조정된 건 52야?


그건 마치
인스타 사진만 예쁜데
실물은 그냥 평범한 거랑 비슷했지.

형이 그때 느낀 건
숫자도 ‘꾸밈’이 가능하다는 거였어.


그래서
설명력이 높다는 말은 이제
조건부로만 쓰기로 했어.

"본 회귀모형은 다중 설명변수를 포함했으나,
조정된 설명력을 기준으로 볼 때
일부 변수는 설명 기여도가 낮은 것으로 해석된다."


이런 식으로.
딱 듣기만 해도
좀 똑똑한 느낌 들지 않아?
그래, 그게 바로 조정값의 힘이야.


형이 정리해 줄게.


“내가 얼마나 잘 설명했는지”에 대한 착각을 줄 수 있고,

Adjusted R²
“실제로 중요한 걸로 설명했는지”를 보여줘.


네가 회귀모형 만들고 나서
“R²가 높아요!”
이런 말 하고 싶어질 때,

잠깐만 멈춰.
조정된 설명력도 같이 보자.

그 숫자가
진짜 네 모델이 말하는 힘이야.


다음 화 예고

10화 – 이상치는 무섭지 않아
진짜 무서운 건 내가 이상치를 모르는 거야



keyword
매거진의 이전글8화 – SPSS는 돌렸는데 내가 뭘 돌렸는지는 몰랐다