[데이터과학]
데이터는 예측하지 않는다-데이터에 관한 꼭 알아야 할 오해와 진실, 김송규 저, 좋은습관연구소, 2024.
이 책의 제목인 ‘데이터는 예측하지 않는다’를 여러 번 읽고 음미해 보았다. 중의적으로 쓴 것 같기도 하고 역설법 같기도 하다. 그동안 데이터로 예측분석을 하지 않았던가 하는 의문이 들기도 했다. 데이터 마이닝 및 데이터 분석 전문가인 에릭 시걸은 그의 저서 <예측 분석(Predictive Analytics)>에서 “예측 분석은 금융 리스크를 줄이고, 의료 서비스를 개선하고, 스팸 메일을 줄이고, 범죄 퇴치를 강화하고, 매출을 끌어올린다.”라고 했다. 그런데 이 책의 저자는 “데이터를 기반으로 한 엄밀한 의미의 (미래)예측은 사실상 불가능하다.”라고 한다. 왜 그럴까를 곰곰이 생각하게 하는 제목과 내용이다. 아마도 데이터에 대한 오해와 진실을 엄격하게 구분해 보고 문제의 본질을 탐구하자는 취지로 이런 표현을 했지 않을까 짐작해 본다.
저자의 주장을 정리해 보면, 데이터는 기본적으로 과거의 산물이고 근본적으로 재현되지 않는다. 따라서 예측이라기보다는 패턴에 가깝다. 예측과 패턴을 구분하는 기준은 시간의 영향력이다. 주가나 환율처럼 시간의 영향이 크면 예측의 문제이고 반대로 시간의 영향력이 작으면 패턴의 문제라는 것이다. 결국 “미래의 예측이 아니라 과거 데이터의 ‘패턴’을 찾는 것이다.”라고 한다. 그런데 “패턴 기반의 데이터 분석은 엄밀하게 보면 예측은 아니지만, 그와 비슷한 효과를 낼 수 있다.”라고 한다. 이런 주장을 따라가다 보면 결과적으로 패턴을 찾는 것이 미래에 대한 예측이 아닌가 생각하게 된다. 아마도 데이터 분석이 가지는 태생적인 한계점을 설명하기 위한 역설법 정도로 이해하고 넘어가려고 한다.
제목이 제기한 문제로 인해 이 책에서 주장하고자 하는 데이터에 관한 오해와 진실을 잊을 뻔했다. 데이터가 모든 문제를 해결할 수 있을 것 같은 분위기가 팽배하다. 이런 문제를 이미 여러 전문가들이 제시했지만 한 손에 잡히도록 강렬하게 제시한 경우는 아마도 이 책이 처음이지 않나 생각한다. 이 책의 저자인 김송규 교수는 컴퓨터 과학과 경영 과학을 전공했고, 현직 컴퓨팅 전공 교수이며 응용 수학자이기 때문에 데이터의 환상을 깨고 현실적인 문제를 직설적으로 제기할 수 있었을 것이다. 빅데이터 관련 기업의 데이터 과학자라면 아마도 데이터로 모든 문제를 해결할 수 있다는 환상을 설파했을 것 같다.
다행스럽게도 이 책에서 제기한 데이터의 오해와 진실을 파고 들어가 보면 데이터가 가진 문제점을 통찰할 수 있다. 대표적으로 데이터는 과거의 산물인데 그것을 간과하고 데이터가 미래를 예측해 줄 것으로 오해한 것이다. 빅데이터의 대표적인 사례로 소개되었던 미국 타깃 매장에서 여고생의 구매품목으로 그 학생의 부모도 몰랐던 임신을 예측한 것은 이 책의 주장을 빌리면 예측이 아니라 패턴인 것이다. 유사한 구매 상황이 된다면 동일한 패턴을 보이는 고객을 찾으면 아마도 임신한 사람일 가능성이 높을 것이다. 예측이 아니라 패턴이 맞는 것 같다.
그리고 이 책은 데이터 사이언스에 대한 환상에서 깨어나도록 돕고 있다고 생각한다. “데이터 사이언스는 과학이 아니다. 데이터를 기반으로 도출된 해답은 실제에 대한 답(진실)을 주는 것이 아니라, 답을 얻기 위해 학습에 사용된 데이터의 대푯값에 따른 결과만 정답으로 제공할 뿐이다. 그리고 이러한 대푯값은 데이터의 다수결에 의해 결정된다.” 데이터 사이언스라고 하면 뭔가 대단한 것이 있고 모든 것을 할 수 있을 것 같지만 대학교에서 데이터 사이언스를 가르치는 교수인 저자가 데이터 사이언스는 과학이 아니라고 하고 근본적인 한계점을 제기한 본심을 깊이 새길 필요가 있을 것 같다. 나아가 인문학적 소양을 갖춰야 한다고 강력하게 주장한다. 즉, 사람이 문명인으로 살아가는 데 필요한 기본적인 학문(지식)을 갖춰야 한다는 것이다.
데이터 분석 스킬과 코딩에 매몰되지 말고 열린 사고로 문제의 본질을 볼 수 있는 혜안과 통찰이 필요하다면 이 책이 많은 도움이 될 것이다.
우리가 데이터 분석을 어려워하는 이유는 지식이 부족해서가 아니라 어떻게 적용할지 몰라서이다.
데이터는 ‘과거’에 대한 산물일 뿐, 데이터가 아무리 많다 하더라도 미래를 직접 대변해 줄 수는 없다.
데이터를 기반으로 한 엄밀한 의미의 (미래)예측은 사실상 불가능하다.