brunch

X의 홍수와 차원의 저주

왜 과적합이 발생할까?

by 김응석

데이터가 많으면 무조건 좋을까?


우리는 흔히 정보가 많을수록 더 정확한 판단을 내릴 수 있다고 믿습니다. 기업은 소비자 행동을 예측하기 위해 수백, 수천 개의 변수를 수집하고, 투자자는 주가를 맞추기 위해 환율, 금리, 심지어 날씨까지 모든 데이터를 AI모델에 쏟아붓습니다. "데이터를 있는 대로 다 넣고 돌리면, 컴퓨터가 알아서 정답(Y)을 찾아주겠지"라는 막연한 기대 심리입니다.

하지만 통계학의 관점에서 변수(X)의 무분별한 증가는 축복이 아니라 재앙에 가깝습니다. 수학자들은 이를 '차원의 저주(Curse of Dimensionality)'라고 부릅니다.

변수(또는 차원)가 하나 늘어날 때마다, 데이터를 설명하기 위해 필요한 공간의 크기는 기하급수적으로 늘어납니다. 비유하자면, 변수가 하나인 것은 1차원 직선 위에서 잃어버린 동전을 찾는 것과, 변수가 2개 또는 3개인 경우는 드넓은 태평양 한가운데(2차원)나 광활한 우주 공간(3차원)에서 동전을 찾는 것의 차이라고 할 수 있습니다. X의 변수가 늘어날수록 데이터 사이의 거리는 멀어지고, 공간은 듬성듬성해집니다. 이렇게 희소해진 데이터 공간에서는 그 어떤 정교한 함수 f를 가져와도, 실제 패턴(Signal) 보다 우연한 소음(Noise)을 패

턴으로 착각할 확률이 급격히 높아집니다.

10장_1.png 차원의 저주


과적합(Overfitting)은 결국 우연함의 유혹이다.


X가 너무 많아지면 필연적으로 '우연한 상관관계'가 발생합니다. 예를 들어, 지난 10년 동안 '미국 치즈 소비량'과 '토목공학 박사 학위 수여 건수'의 상관 계수(r)는 놀랍게도 0.947에 달합니다. 만약 우리가 Y(토목공학 박사 수)를 예측하기 위해 수만 개의 X를 뒤지다 보면, 치즈 소비량 같은 엉뚱한 변수를 "이것이 결정적인 원인이다!"라고 선택하게 됩니다.

이런 변수들을 모두 모델에 포함하면 어떻게 될까요? 과거의 데이터(Y)는 기가 막히게 설명해 냅니다. 오차항(e)이 거의 0에 수렴하는 완벽한 공식을 만든 것처럼 보입니다. 하지만 이 공식은 미래를 예측하는 순간 처참하게 실패합니다. 이것이 바로 과적합(Overfitting)입니다. 너무 많은 X가 만들어낸 소음까지 학습해 버린 탓에, 정작 중요한 본질을 놓치게 된 것입니다.



덜어냄의 미학: 중요한 것만 남기는 기술

따라서 불완전한 세상에서 Y를 제대로 해석하기 위해서는, 더하는 것보다 빼는 것이 훨씬 중요합니다. 통계학과 머신러닝에서는 수많은 X 중에서 진짜 영향력 있는 변수만을 골라내는 다양한 방법론(Feature Selection)을 사용합니다.


1. 도메인 지식의 활용: 데이터만 들여다보기 전에, 상식과 전문 지식을 동원해 인과관계가 없을 법한 변수를 미리 제거해야 합니다.

2. 규제(Regularization): 수식적으로 복잡한 모델에 페널티를 부과하는 방법입니다(Lasso, Ridge 등). 이는 X의 영향력을 억지로 0으로 만들거나 줄여서, 정말 강력한 신호를 보내는 변수만이 살아남도록 강제합니다.

3. 오컴의 면도날: 앞장에서 설명한 오컴의 면도날을 이해하고 적용하는 것입니다. "동일한 현상을 설명하는 두 가지 이론이 있다면, 더 간단한 쪽이 진실일 확률이 높다." Y=f(X)+e에서 f는 단순할수록 강력합니다.


우리는 정보 과잉의 시대에 살고 있습니다. 세상의 모든 X를 다 고려하겠다는 욕심은 우리의 통찰력을 흐리게 만듭니다. 잡다한 소음을 과감히 버리고 핵심적인 소수의 X에 집중할 때, 비로소 불확실한 안개 너머의 Y가 선명하게 보이기 시작할 것입니다.


아무리 정교한 논리(f)를 구축했다 하더라도, 애초에 입력 변수 X가 결과 Y와 아무런 인과적 연결고리가 없다면 그 공식은 그저 '운 좋게 맞아떨어진' 껍데기에 불과합니다. 이것이 바로 통계학에서 가장 유명하면서도, 현실에서 가장 빈번하게 무시되는 경고인 "상관관계는 인과관계가 아니다(Correlation does not imply causation)"입니다.

10장_2.png 우연한 관계 : 니콜라스 케이스 영화 수 VS 수영장 익사 사고 수

최근 이 경고가 우리에게 더욱 섬뜩하게 다가오는 이유가 있습니다. 바로 우리가 고려해야 할 변수, 즉 X의 개수가 감당할 수 없을 만큼 폭발적으로 늘어났기 때문입니다. 바야흐로 '빅데이터'의 시대, 우리는 X의 홍수 속에서 AI와 함께 살아가고 있습니다.

현명하게 기술을 활용하기 위해서 우리가 해결하려는 문제의 본질(실제 상황) 대한 깊고 넓은 이해가 더욱더 요구되는 시점입니다.


keyword
작가의 이전글AI는 마법사가 아니다.