brunch

You can make anything
by writing

C.S.Lewis

by 조형재 May 14. 2019

함정 데이터

나심 탈레브의 «행운에 속지 마라»를 읽다 말고 쓰기

데이터가 함정이 되는 경우도 있다. ... 역사 전반이 아니라 최근의 역사에만 지나치게 몰두하면서 <전에는 이런 일이 전혀 없었다>라고 주장하는 데 있다


과거 데이터에는 좋은 정보도 있지만 나쁜 정보도 있다. 좋은 정보를 신호라고 하고, 나쁜 정보는 소음이라고 하자. 신호와 소음을 구분하는 일은 쉽지 않다. 신호인지 소음인지 진짜 확실하게 구분하려면 미래가 되어야 한다. 미래를 가볼 수 있는 능력을 가지지 않는 한, 데이터로 예측을 하는 일에는 항상 원리적인 불확실성이 남게 된다.


현재와 과거 데이터로 미래를 예측하는 기술의 힘이 점점 강력해지고 있다. 산업의 근간 에너지인 석유에 비유하기도 한다. 데이터의 힘은 강력하고 앞으로 점점 강력해질 것이라는데 동의한다. 하지만 동시에 심심하면 '데이터'라고 이름 붙여서 모든 게 해결될 것 같이 말하는 것도 경계해야 한다. 첫째, 데이터 기반 예측이라는 건 원리적으로 불확실한 부분이 항상 남아있기 때문이다. 둘째, 같은 데이터로 다른 결론이 나오기도 한다.


같은 데이터로 다른 결론이 나오는 문제는 또 2가지 문제로 나눌 수가 있다. 하나는 해석의 문제, 다른 하나는 재현의 문제이다. 해석의 문제는 같은 데이터를 놓고 여러 사람이 여러 해석을 하는 것이다. 다른 태도 때문일 수도 있고 어떤 선입견 때문일 수도 있다. 재현의 문제는 똑같은 조건에서 똑같은 결과가 나오지 않을 수도 있는 것이다. 보통 여러 번 반복(재현)하면 엇비슷해진다고 생각하지만, 어떤 경우에는 그렇지 않을 수도 있다. 이런 상황에서는 데이터가 힘을 쓰긴 어렵다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari