19. 데이터 분석으로 미래를 예측할 수 있을까?

데이터, 데이터과학, 빅데이터, 그리고, 수학

May 18. 2017

이 글은 얼마전 모사이트에 기고를 했다가, 데이터과학에 종사하는 분들께 욕(?)을 바가지로 먹으면서 강제로 내렸던 글입니다 (물론, 칭찬을 해주신 분들도 많습니다..^^). 해당 사이트가 데이터과학을 교육하는 곳인지라, 욕을 생각보다 많이 먹었던 모양입니다. 그럼에도 불구하고, 그 때 올렸던 글을 그대로 다시 브런치로 옮긴 이유는, 아직까지는 제가 성질머리가 못되 먹어서(?)인듯 합니다...ㅎ 기고한 글은 내려졌지만, 이 글은 꼭 남겨야겠기에 여기 다시 적습니다. 아울러, 이 글와 관련하여 몇가지 규칙(?)을 정하였으니, 읽으시기 전에 확인 부탁드립니다. 브런치는 어떤 면에서는 개인적인 공간이니, 이정도는 이해주시리라 믿습니다.

1. 이 글과 관련한 논쟁은 얼마든지 환영합니다. 단, 얼굴까고 직접 보면서 하는 논쟁만 취급합니다. 댓글로 논쟁을 도발하지는 마세요. 바로 삭제 합니다.

2. (만나서) 저와 논쟁을 하시기전엔, 반드시 집합/명제에 대한 공부를 하시길 추천 드립니다. 아, 그렇다고 깊은 수준을 요구하는건 절대로 아닙니다. 고등학교 수학정석에 나오는 딱! 그 수준만 아시면 됩니다. 주제가 무엇이든지간에 집합/명제는 합리적인 논쟁을 하기위한 가장 우수한 도구입니다.

3. 저는 데이터를 직접 다루지는 않지는 않지만, 확률(Stochastic)과 통계(Statistics)의 차이를 아는 몇 안되는(?) 사람입니다. 데이터과학에 대한 글인데, 이게 무슨 개소리냐구요? 그렇게 생각하신다면, 그냥 제 글은 무시하시면 됩니다. 당신에게는 그냥 개소리니까요.

논쟁 도발이 아닌 댓글은 얼마든지 환영합니다.

감사합니다.

-= Amang =-

우리가 빅데이터에 열광하는 이유는 아마도 많은 양의 데이터를 통해서 시장을 예측하고, 경제를 예측하고, 소비자의 성향을 예측해서 보다 정확한 미래 전략을 구축할 수 있다는 믿음 때문일 것이다. 또한, 여러가지 이슈의 인과관계를 보다 많은 데이터를 이용해 찾아낼 수 있다고 생각한다. 데이터과학은 데이터를 다루는 학문이다. 또한 이러한 정량화(혹은 수치화)된 데이터를 분석하는데 사용되는 학문이 바로 통계학(Statistics)이다. 따라서 데이터 과학에서 사용하는 기법들이 아무리 바뀌어도 사용되는 분석 기법들은 통계학의 특성을 벗어 날 수 없다. 이번 회에서는 통계학 자체가 가지는 ‘태생적인 한계’에 대해서 이야기하고자 한다.

데이터는 과거의 산물

데이터를 다루는 사람들은 많은 양의 데이터 수집을 통해 보다 정확한 미래를 예측할 수 있다고 믿는다. 빅데이터가 마케팅적인 측면이 강함에도 불구하고 데이터 과학자나 통계학자들의 지지를 받게 됐는데, 그러한 지지를 받는 이유는 바로 이러한 믿음(즉, 통계적 기법이 미래를 예측 할수 있다라는 믿음) 때문이었다. (현재와 비교하여) 데이터의 양이 부족했던 시기에 연구를 했던 통계학자(혹은 데이터과학자)들은 기존의 데이터 분석 기법으로 미래를 정확하게 예측하지 못한 이유를 ‘충분하지 못한 데이터 때문’이라고 생각했었다. 그리고 이러한 문제는 데이터의 양이 충분히 많아 진다면(즉, 빅데이터를 이용한다면) 충분히 해결될 것이라고 여겨졌다. 그리고 오늘날 빅데이터가 등장하면서 그 믿음은 더욱 확고해졌다. 하지만 여기서 데이터 과학은 커다란 한계를 드러내게 된다. 어찌됐던 데이터는 "과거"의 산물이라는 사실이다. 즉, 데이터의 양이 아무리 많아져도 그 또한 "과거"의 산물 일 뿐 미래를 직접 대변 할 수는 없다.

많은 통계학자들이 데이터를 이용하여 미래를 예측하거나 영향력을 분석한다. 그것이 가능한 이유는 과거의 데이터를 미래를 파악하기위해 사용할 때 한가지 큰 가정(Assumption)을 전제로 하기 때문이다. 그 가정은 바로 “과거의 사건들이 현재나 미래에도 재현(Recursive) 된다”는 것이다. 모든 통계학의 예측모델은 바로 이 “재현성”을 기반으로 한다. 즉, 과거의 사건이 재현 된다는 가정 하에서만이 통계를 통한(혹은 데이터 분석을 통한) 예측이 의미가 있다는 거다. 그리고 아무리 데이터의 양이 많아지고, IT 기술이 발전하여 분석하는 기술이 혁신적으로 바뀐다 하더라도 이 가정을 벗어날 수 없다.

하지만 이 가정은 바로 지금 말한 데이터가 가지는 한계(데이터는 과거의 산물)와 연결된다. 데이터과학(혹은 빅데이터 혹은 통계학)으로는 실질적 미래를 예측 할 수 없다. 데이터를 이용한 예측의 기본 가정이 현실과는 다르기 때문이다. 미래는 재현 되지 않는다. 이는 어제가 오늘과 같지 않고, 오늘과 내일이 같지 않은 것과 같다. 조금 더 쉽게 표현하자면, 2017년 1월 1일과 1999년 1월 1일이 다른 것을 생각하면 될 것이다. 비슷하게 보일 뿐이지 같은게 아니라는 거다. 통계를 통한(혹은, 데이터 과학을 통한 혹은 빅데이터를 통한) 미래 예측은 과거를 기반으로 미래를 모사(Simulation)하는 것만이 가능할 뿐이지, 실질적 미래를 예측 할 수는 없다. 데이터 과학이 아무리 발달 한다고 하더라도 자연의 순리를 거스를 수는 없는 일이다.

데이터를 기반으로 한 예측모델을 통해 얻어진 값(혹은 대답)들은 기본적으로 “과거와 똑같은 상황이 일어난다고 전제 했을때...”라는 기본 전제가 포함이 되어 있다. 아무리 값이 정확하다고 해도, 그 값은 “과거”의 것이기 때문이다. 우리가 과거의 값을 현재 혹은 미래에 사용할 수 있는 것은 그 값이 현재(혹은 미래)의 값이기 때문이 아니라, 위에 언급했던 것 처럼 과거가 현재나 미래에도 재현이 된다는 “가정”을 했기 때문이다.

예측과 패턴

요즘 데이터 과학이 인공지능(AI)과 뭉쳐지면서, 이를 이용한 다양한 서비스들이 나오고 있다. 구글에서 특정 키워드로 검색을 했을 때, 그와 관련된 검색정보 (및 광고)를 같이 띄운다던가 (예를 들어, DSLR 카메라를 검색하면, 렌즈를 같이 보여준다던가 하는 것), 아마존 에코가 이용자가 원할 것으로 생각되는 상품을 미리 제안을 한다던가 하는 것들이 바로 데이터 과학(혹은 빅데이터)을 이용한 좋은 응용사례라 할 수 있다. 특히, 아마존 에코의 경우는 이 예제가 AI의 좋은 응용사례로도 자주 언급이 된다. 이즈음에서 이 글을 읽는 독자들 중에는 이런 의문을 가지는 사람도 있을 것이다. “데이터 과학으로는 미래 예측이 불가능하다고 했는데, 아마존 에코처럼 사용자가 원하는 상품을 “미리”(정확하게) 제안을 하는 것은 미래 예측이 아닌가?”

답을 미리 이야기하자면, 경기 승패 결과의 예측이라든지, 대통령 선거 결과라던지, 내년 경제 전망이라던지 하는 것들은 ‘도박에 가까운 단순’ 예측에 가깝고, 구글이나 아마존의 사례처럼 이용자들이 구매할 물품을 미리 제안한다던지, 사용자가 어떤 단어를 검색 했을 때 그 다음 검색할 단어를 미리 제안 한다던지, 콜센터에서 사용자가 했던 질문에 대한 추가 질문을 미리 판단 한다던지 하는 것들은 ‘패턴(Pattern)’에 가깝다. 예측과 패턴은 모두 앞으로 일어날 일에 대한 결과를 추측한다는 면에서는 닮은 구석이 많다. 이러한 이유로 사람들은 예측과 패턴을 같은 의미로 사용하기도 한다. 하지만, 예측과 패턴은 엄연히 다르다. 이 둘을 구분하는 기준은 바로 “시간”의 영향력(혹은 재현성)이다. 즉, 시간의 영향력이 크면 (시간에 따라 결과가 크게 달라 진다면) ‘단순’예측의 문제가 되고, 시간의 영향력이 없거나 작으면 패턴의 문제가 된다. 패턴은 데이터와 마찬가지로 ‘과거의 산물’이다. 시간의 영향력이 적다는 의미는 바로 시간과는 관계없이 특정 조건(혹은 상황)이 되면, 그 결과값(혹은 추측값)이 같다는 것을 의미한다. 바꿔 이야기하면 재현성이 높다는 의미이다. 즉, 시간에 관계없이 조건만 맞으면 (동일한 결과가) 재현 된다는 것을 뜻한다.

예측을 목적으로 하는 데이터 분석의 경우 정작 목표로 잡아야 할 것은 단순한 미래의 예측이 아니라 과거 데이터에서 ‘패턴’을 찾는 것이다. 그리고, 어떤 문제(혹은 상황)의 경우에는 처음 보기에는 시간의 영향력이 큰 것으로 보이나, 다르게 접근하게 되면 시간과는 관계가 없는(혹은 적은) 패턴의 형태(혹은, 재현성이 강한)를 가지게 될 수도 있다. 이러한 패턴의 형태가 되면, 조건이 맞으면 예상되는 결과를 도출해 낼 수 있는 것이다. 패턴은 엄밀한 의미의 예측은 아니지만, 그와 비슷한 효과를 얻을 수 있다. 데이터 과학에 있어 보다 정교한 예측값을 얻고자 하는 노력은 아주 중요하다. 하지만, 보다 중요한 것은 찾고자 하는 값이 시간의 영향이 얼마나 미치는지를 파악하는 것(특정 조건에 따라 재현이 되는지)이다. 2017년 대통령 선거, 다음 운동경기에 대한 승부 등은 시간의 영향을 많이 받는다. 즉, 해당 시간이 지나면 해당 사건(Event)은 다시 재현 되지 않는다. 이러한 단발성(혹은, 비 재현성) 예측 분석은 데이터 과학이 아니라 “도박”이다. 이에 반해, 아마존 에코가 사용자의 이전 구매상품에 대한 데이터를 기반으로 향후 구매할 상품을 제안한다던가, 콜센터에서 특정 질문이후에 추가될 질문을 미리 예상한다던지 하는 류의 추측은 다시 재현이 되는, 즉 시간에 (거의) 관계 없이, 조건에 따라 재현이 되는 “패턴”에 가깝다. 여기서, “가깝다”고 표현한 이유는 미래에 대한 측정 값은 그것이 단순 예측이건, 패턴이건 시간의 영향에서 자유로울 수 없기 때문이다.

결론

데이터 과학(혹은 분석)에 있어서, “예측”은 자주 등장하는 주제 가운데 하나이며, 많은 사람들이 관심을 갖는 분야이기도 하다. 위에서도 언급했지만, 데이터를 기반으로 한 엄밀한 의미의 (미래)예측은 사실상 불가능하다. 이러한 한계에도 불구하고, 데이터를 기반으로 추측된 값이 갖는 의미와 속성을 정확하게 안다면 틀림없이 여러모로 유용한 도구가 될 수 있다. 어떠한 문제점이나 현상에 대한 패턴을 찾아간다는 의미에서의 예측은 데이터 분석에서 여전히 의미가 있기 때문이다. 다만 이러한 패턴을 찾아가는 분석이 의미를 가지기 위해서는 문제 자체에 대한 본질과 함께 데이터 분석이 가지는 태생적인 속성들을 함께 고려하여야 한다.

또한, 데이터 과학을 제대로 사용하기 위해서는 단순히 데이터 과학이 가지는 속성만을 알아서는 안된다. 데이터과학(더 정확히는 데이터 분석)의 기반이 되는 통계학이 가지는 속성, 통계학의 기반이 되는 확률론이 가지는 속성, 더 나아가서는 확률론의 모집합이 되는 수학이 갖는 속성을 되도록이면 다양하게 파악하고 있어야 한다. 이러한 속성들을 무시하고 데이터 분석을 할 경우, 많은 양의 데이터로 정교한 분석을 한다고 하더라도 아무런 의미가 없는 경우가 발생하는 것이다. 만약, 누군가(전문가 혹은 데이터 전문 회사)가 당신(회사)에게 자신들의 분석기술로 (미래를) 맞췄다는 이유만으로 당신에게 어필 한다면, 일단 경계하시라. 이러한 부류는 도박과 통계(혹은 데이터과학)의 기본적인 속성 차이 조차 모를 가능성이 높다.

keyword

매거진의 이전글18. 과연 TK(대구경북)가 문제인가? (2차 개정)20. 데이터과학을 시작 할때 도움이 되는 것들 (상)매거진의 다음글