진짜보다 나은 가짜 : 모델링 이야기
우리는 앞 장에서 우리가 통제할 수 없는 우연, 측정할 수 없는 오차에 대해서 이야기했습니다. (이를, 잔차(Residual)라고도 합니다.) e가 존재하는 한, 우리는 Y를 완벽하고 정확하게 예측할 수 없음을 알았습니다.
통계학은 이런 불확실함 속에서 최선의 답을 찾아주는 역할을 합니다. 따라서 통계학을 ‘타협의 미학’이라고도 할 수 있습니다. 우리가 신이 아닌 이상 세상의 작동 원리인 진짜 함수 f를 100% 알아낼 수는 없습니다. 대신 우리는 데이터라는 단서를 모아 f와 가장 닮은 가짜 함수, 즉 추정 함수(Estimated Function)를 만들 수 있습니다. 이것을 f의 머리 위에 모자를 씌워 f^(hat) (f-hat, 에프 햇)이라고 합니다. 이 에프 햇을 찾는 것이 바로 모델링이며, 모델을 통해 우리는 Y의 변화를 예측할 수 있습니다.
모델링을 이해하는 가장 좋은 비유는 '지도 제작'입니다.
루이스 보르헤스(Jorge Luis Borges)의 소설 “과학적 엄밀함에 관하여(De rigor en la cinecia)”의 아주 짧은 초단편 소설에서, 제국과 영토와 정확히 똑같은 크기의 1:1 비율 지도를 만드는 지도 제작자들의 이야기가 나옵니다. 산 하나를 덮는 데 산만한 종이가 필요하고, 강을 덮는 데 강 만한 종이가 필요한 이 지도는 정작 아무짝에도 쓸모가 없었습니다. 따라서, 후대 사람들이 그 거대한 지도의 무용함을 깨닫고 사막에 버려져 풍화되었다는 이야기입니다. 이 이야기는 좋은 지도가 어떤 것이어야 하는지에 대한 시사점을 던지고 있습니다. 반대로 우리나라 김정호 선생이 만드신 대동여지도(보물 850호)는 접어서 휴대 가능하고, 중요한 정보를 효율적으로 압축함으로써 지도만 보고도 목적지까지 쉽게 찾아갈 수 있게 제작되었습니다.
결국, 좋은 지도는 현실을 완벽하게 복제하는 것이 아니라, 중요한 정보(신호, f)는 남기고 불필요한 정보(소음, e)는 과감히 생략하는 것입니다. 서울에서 부산으로 가는 길을 찾고 싶은 사람에게 가로수의 개수나 보도블록의 색깔은 중요하지 않습니다. 오히려 그런 정보가 너무 많으면 길을 찾는 데 방해가 될 뿐입니다.
우리가 Y를 찾아가고자 만드는 모델(f^hat})도 마찬가지입니다.
* f (진리): 현실 세계의 복잡하고 미묘한 모든 인과 관계.
* f^(hat) (모델): 우리가 파악할 수 있는 주요 패턴만을 단순화하여 재구성한 식.
우리의 목표는 Y = f(X) + e라는 복잡한 세상에서 e를 걷어내고, Y ≒ f^hat(X)라는 단순하지만 효율적인 근사식을 얻는 것입니다.
여기서 모델링의 가장 큰 딜레마가 발생합니다. 우리는 데이터(X, Y)를 관찰하여 f^(hat)을 만듭니다. 이때 모델이 데이터를 너무 완벽하게 설명하려고 애쓰다 보면 치명적인 실수를 저지르게 됩니다. 바로 우연히 발생한 오차(e)까지 법칙(f)인 줄 착각하고 학습해 버리는 것입니다.
이를 통계학에서는 과적합(Overfitting)이라고 합니다. 마치 수능 기출문제를 공부하면서 문제의 출제 원리(f)를 익히는 게 아니라, "3번 문제의 답은 2번"이라는 식으로 정답 자체(Y)를 달달 외워버리는 학생과 같습니다. 이 학생은 기출문제(과거 데이터)에서는 만점을 받겠지만, 숫자가 조금만 바뀐 실전 문제(미래 데이터)에서는 낙제점을 받게 될 것입니다.
반대로 세상을 너무 단순하게만 바라보면 중요한 패턴조차 놓치게 되는데, 이를 과소적합(Underfitting)이라고 합니다. "공부를 하면 성적이 오른다"는 너무나 뻔한 명제만 가지고는 구체적으로 몇 시간을 공부해야 목표 점수에 도달하는지 알 수 없는 것과 같습니다.
결국 훌륭한 모델링이란, 너무 단순하지도(Underfitting) 않고 너무 복잡하지도(Overfitting) 않은 균형점을 찾아내는 줄타기입니다.
우리는 인정해야 합니다. 우리가 만든 f^(hat)은 결코 f가 될 수 없습니다. 아무리 정교한 경제 모델도 내일의 주가를 완벽히 맞출 수 없고, 최첨단 AI도 인간의 대화를 100% 이해할 수는 없습니다. 거기에는 언제나 e가 숨어 있기 때문입니다.
하지만 f를 영원히 알 수 없다 해도, 잘 만들어진 f^(hat)은 우리에게 훌륭한 나침반이 되어줍니다. 100%의 진리가 아니라도 좋습니다. 90%, 아니 80% 정도만 현실을 설명할 수 있어도, 우리는 그 지도를 들고 불확실한 미래라는 바다를 항해할 수 있습니다.
결국 좋은 모델이란 "어떻게 하면 소음(e)에 현혹되지 않고, 진실의 목소리(f)만을 골라내어 가장 유용한 지도(f^(hat))를 그릴 수 있을까?"라는 고민을 지속적으로 하면서 찾은 결과입니다.