brunch

You can make anything
by writing

C.S.Lewis

by 해건 May 29. 2016

데이터분석의 미학

모른다는 것을 안다는 것

 학부에서 경제학을 전공한 필자는 가설과 모델이라는 말을 참 많이 들었던 기억이 난다. 학부 4년을 간단하게 정리해보라고 한다면 결국은 경제학의 수많은 모델들을 탐색한 시간이었다고 대답할 것이다. 그리고 이러한 모델들의 배경에는 수많은 가설들이 존재했다. 경제학은 참 명료했다, 위대한 학자가 만들어낸 경제적 현상을 설명하는 모델이 있었고 이는 발생했던 현상을 설명하는데 유용했다. 모델이 설명하지 못하는 것이 있다면 그것은 가설과 부합하지 않거나 다른 모델을 통해 설명할 수 있는 현상이었다. 그래서인지 경제학은 사회과학이었지만 자연과학과 너무나도 닮아있었다.

경제학도들의 필독서 맨큐의 경제학

 경제학을 공부하면서 나는 아웃라이어에 대해 그렇게 주목하지 않았다. "모델은 현상에 대해 설명력을 갖는다."라는 사실이 중요했지 애초부터 가설을 이용해 세상의 복잡성을 제거한 모델이 설명하지 못하는 것이 있다는 것 자체가 너무나 당연했기 때문이다. 하지만 그 당시 내가 조금만 더 눈을 돌려 빅데이터의 시대가 오고 있다는 것을 알 수 있었다면 아마도 설명하지 못하는 부분에 대해서 더 주목했을 것 같다는 생각이 든다. 세계가 빅데이터에 열광하는 것은 우리 사회의 현상들을 모두 설명할 수 있는 만큼의 충분히 다양하고 방대한 정보들이 그 속 어딘가에 존재하고 있을 것이라는 믿음 때문이다. 지금은 밝혀내지 못한 사실의 실마리가 방대한 데이터의 어딘가에는 존재하고 있다고 우리는 믿고 싶어 한다. 그래서 필자는 학부 때와는 다르게 요즘 이렇게 말하게 된다. "왜 모르는 것은 모르는 채로 존재해야 하는가?"

 며칠 전 논문을 읽다가 공감되는 문장을 발견했다. "모른다는 것을 안다는 것은 데이터 분석의 시작이다." 데이터 분석은 매우 탐색적인 과정이다, 주어진 조건으로 결과를 도출해야 할 필요는 없다. 데이터 분석은 내가 어떠한 종류의 데이터를 필요로 하고 이를 어떻게 구할 것인지를 단계 단계마다 다이내믹하게 반복해나가는 과정이다. 그래서 내가 모른다는 것을 안다는 것은 다음 단계로 넘어가기 위해 매우 중요한 것이다. 아마도 이 세상에 존재하는 방대한 데이터 속에는 우리가 필요로 하는 정보가 존재할 것이라고 필자는 믿는다. 그리고 이러한 믿음은 마치 인간과 생명의 기원을 수백억 년 전 우주의 탄생에서부터 탐색해 나가고자 하는 자연과학자들의 신념과도 비슷하다고 볼 수 있다. 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari