brunch

복잡할수록 오히려 바보가 된다.

오컴의 면도날과 과적함

by 김응석

예측을 위해서 데이터를 다루는 분석가들이 흔하게 빠지기 쉬운 유혹이 하나 있습니다. f(X)가 인간의 영역이라면, 우리의 지성과 기술을 총동원하여 과거의 데이터를 완벽하게 설명하는 f(X)를 만들면 되지 않을까?"라는 생각입니다. 즉, 우리가 가진 데이터 안에서 오차 e를 0으로 만들어버리는 완벽한 공식을 세우고 싶은 욕망입니다. 하지만 통계학은 냉정하게 경고합니다. "너무 완벽하게 맞추려 하지 마라. 그것은 독이다." 이것이 바로 데이터 분석에서 가장 경계해야 할 **과적합(Overfitting)의 문제입니다.


- 암기왕의 비극: 이해인가, 암기인가?


여기 수학 시험을 준비하는 두 학생, '현명한 학생 A'와 '성실한 학생 B'가 있다고 상상해 봅시다.

* 학생 A (적절한 모델): 공식의 원리를 이해하려고 노력합니다. 문제 유형에 따라 어떻게 접근해야 하는지 패턴을 익힙니다. 모의고사에서 틀리는 문제도 더러 있지만, 전반적인 흐름을 파악합니다.
* 학생 B (과적합된 모델): 지난 10년 치 기출문제의 정답과 풀이 과정을 토씨 하나 틀리지 않고 달달 외웁니다. 이 학생은 기출문제(과거 데이터)를 다시 풀게 하면 100점을 맞습니다. 오차가 전혀 없죠.


문제는 '내일 치러질 진짜 시험(미래의 데이터)'입니다. 숫자와 상황이 조금만 바뀌어도 학생 B는 속수무책으로 무너집니다. 그는 원리(f(X))를 배운 것이 아니라, 문제에 포함된 특수한 상황과 우연들, 즉 잡음(e)까지 모두 규칙이라고 착각하고 외워버렸기 때문입니다.


혹시, 족보를 달달외우고 있으면서도 실제 시험은 썩 좋지 않았던 지인들을 보신 적은 없으신지요?


- 잡음(Noise)까지 학습하는 미련함

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
김응석작가님의 멤버십을 시작해 보세요!

데이터 사이언티스 김응석의 브런치입니다.

133 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 6개의 멤버십 콘텐츠 발행
  • 총 6개의 혜택 콘텐츠
최신 발행글 더보기
작가의 이전글지도는 영토가 아니다