(R²가 높다고 다 좋은 건 아니더라고)
형은 어느 날
회귀분석을 돌렸어.
딱 나왔지.
R² = 0.708
와,
70퍼센트야?
이건 거의 설명 끝났다는 거 아니야?
그래서 PPT에
“본 회귀모형은 높은 설명력을 보입니다.”
라고 써넣었어.
근데 발표 중 교수님 질문.
“조정된 결정계수도 확인했나요?”
그 순간,
정적.
“어... 아뇨. 그건...”
그러자 교수님이 덧붙이셨지.
“그 값이 진짜입니다.”
그때 처음으로
R² 와 Adjusted R²의 차이를 제대로 공부했어.
간단하게 말하면 이거야.
R²는 그냥 ‘잘 맞는다’는 느낌값
Adjusted R²는 그중에 진짜 중요한 것만 추려낸 값
예를 들어,
독립변수 막 넣잖아?
R²는 올라가.
무조건이야.
쓰레기 변수도 넣으면
일단 겉보기 성능은 올라간다고.
근데 Adjusted R²는 달라.
“쓸데없는 변수 빼고도 설명 가능한가요?”
이걸 묻는 거야.
형은 그걸 몰랐던 거지.
모형은 멋져 보였고,
그래프는 예뻤고,
R²는 0.7 넘었고.
근데 실제로 그 모형이
‘의미 있는 변수’로만 설명된 건 아니었던 거야.
그래서 Adjusted R² 를 보니까
0.52
와...
R²는 70인데
조정된 건 52야?
그건 마치
인스타 사진만 예쁜데
실물은 그냥 평범한 거랑 비슷했지.
형이 그때 느낀 건
숫자도 ‘꾸밈’이 가능하다는 거였어.
그래서
설명력이 높다는 말은 이제
조건부로만 쓰기로 했어.
"본 회귀모형은 다중 설명변수를 포함했으나,
조정된 설명력을 기준으로 볼 때
일부 변수는 설명 기여도가 낮은 것으로 해석된다."
이런 식으로.
딱 듣기만 해도
좀 똑똑한 느낌 들지 않아?
그래, 그게 바로 조정값의 힘이야.
형이 정리해 줄게.
R²는
“내가 얼마나 잘 설명했는지”에 대한 착각을 줄 수 있고,
Adjusted R²는
“실제로 중요한 걸로 설명했는지”를 보여줘.
네가 회귀모형 만들고 나서
“R²가 높아요!”
이런 말 하고 싶어질 때,
잠깐만 멈춰.
조정된 설명력도 같이 보자.
그 숫자가
진짜 네 모델이 말하는 힘이야.
10화 – 이상치는 무섭지 않아
진짜 무서운 건 내가 이상치를 모르는 거야