데이터과학과 통계가 가지는 태생적 한계
우리가 빅데이터에 열광하는 이유는 아마도, 많은 양의 데이터를 통해서 시장을 예측하고, 경제를 예측하고, 소비자의 성향을 예측해서 보다 정확한 미래 전략을 구축할 수 있다는 믿음 때문일 것이다. 또한, 어떤 두가지 혹은 여러가지 이슈에 대한 인과관계를 보다 많은 데이터를 이용해 찾아낼 수 있다고 생각한다. 그리고, 이러한 믿음은 많은 경영대학원이 빅데이터에 관련한 과목들을 개설하고, 학생들을 가르치고 있다. 한가지 재미 있는건 통계학이라는 이름으로 과목을 개설하면 인기가 없지만, Business Analytics이라는 이름으로 개설하면 많은 학생들이 급관심을 가진다는 점이다. 어쨋든 이전 글에서는 언급 했듯이 빅데이터가 가지는 태생적인 한계는 바로 Data Science(데이터 과학)이 가지는 한계로 인해 기인한다 하였다 (이전글 참조). 그래서, 빅데이터를 제대로 할려고 하면, 데이터 과학에 대한 노하우를 가지고 있어야지만 한다. 그렇지 않을 경우, 빅데이터는 단순히 허공에 울리는 메아리에 지나지 않는다. 자, 그렇다면 데이터과학이 이 세상의 모든 복잡한 문제들을 해결(특히, 미래를 예측하는류의 문제 해결)해줄수 있을까? 이번 글을 통해 여러분이 그 해답을 찾아보길 바란다.
데이터과학은 데이터를 다루는 학문이다. 이러한 정량화(혹은 수치화)된 데이터를 분석하는데 사용되는 학문이 바로 통계학(Statistics)이다. 현재 데이터 과학에서 사용하는 기법들이 아무리 바뀌고, SPSS, SAP과 같은 소프트웨어 팩키지를 사용한다고 해도, 여기서 사용되는 분석기법들이 통계학의 영역을 벗어 날수 없다. 물론, 보다 효율적인 데이터 처리라 던가, 빠른 분석계산, 계산된 자료들이 시각화(Visualization)와 같은 분야가 있을수 있다. 하지만, 분석 기법자체는 통계학이 근간을 이룬다.
데이터과학(Data Science)은 분석기법에 있어 통계학(Statistics)의 한계를 벗어날수 없다.
이에, 통계학 자체가 가지는 태생적인 한계에 대해서 이야기하고자 한다.
당연한 이야기지만, 데이터 수집은 "과거"의 데이터이다. 하지만, 많은 통계학자들이 많은 데이터과학자들이 이러한 데이터를 통해 미래를 예측할 수 있다고 믿고 있다는 점이다. 아이러니 하게도 빅데이터가 마케팅적인 측면이 강함에도 불구하고 사실상 데이터 과학자나 통계학자들의 지지를 받게 되는데, 그러한 지지를 받은데는 바로 이러한 믿음(즉, 통계적 기법이 미래를 예측 할수 있다라는 믿음) 때문이었다. 처음 빅데이터라는 명칭이 인기를 끌게 되었을 당시, 기존의 통계학자(혹은 데이터과학자)들이 생각하기에는 기존의 기법들로 미래에 대한 예측이 정확하지 못한 이유가 바로 충분하지 못한 데이터 때문이라고 생각했었다. 그리고, 이러한 문제는 데이터량이 충분히 많아 진다면(즉, 빅데이터를 이용한다면), 보다 정확한 미래 예측이 가능할 것이라 생각했다.
그렇지만, 중요한 것은 데이터는 "과거"에 대한 산물이라는 것이다. 즉, 데이터 량이 아무리 많아져도 그 또한 "과거"의 산물일 뿐 미래를 직접 대변 할수는 없다. 많은 통계학자들이 많은 양의 데이터를 이용하여, 미래를 예측한다거나, 영향력에 대한 분석을 한다. 이렇게 과거에 대한 데이터를 미래를 파악하기위해서 사용할 때는 한가지 큰 가정(Assumption)을 가지고 있다. 그리고, 이러한 가정이 통계학이 가지는 가장 큰 한계점이다. 통계적 데이터를 이용할때는
과거의 사건들이 현재나 미래에도 재현(Recursive)된다
는 전제에서 출발한다. 즉, 과거의 사건이 재현 된다는 전제하에서만이 통계를 통한 예측이 가능하다는 것이다. 하지만, 근본적으로 미래는 재현이 되지 않는다. 이는 시간이 흐르는 것과 다르지 않으며, 어제가 오늘과 같지 않고, 오늘과 내일이 같지 않은 것과 같다. 비슷하게 보일 뿐이지 같은게 아니라는 거다. 따라서, 통계를 통한 (혹은, 데이터 과학을 통한 혹은 빅데이터를 통한) 미래 예측은 시뮬레이션처럼 미래를 모사하는 것만이 가능할 뿐이지, 미래를 예측 할 수는 없다.