1. 빅데이터가 거품이 아닐수밖에없는 이유
빅데이터라는 말이 널리 쓰이고 열렬한 환호를 받고 있다는 것은 분명한 사실인 듯하다. 그렇다 보니 우스갯소리로 보고서를 통과시키기 위한, 좋은 학점을 받기 위한 마법의 단어로써 빅데이터가 역할을 한다는 말도 있다. 하지만 단순 우스갯소리가 아니라 빅데이터의 실체에 대해 의구심을 가지면서 혹자는 이렇게 묻는다.
빅데이터, 그거 사실은 실체 없는 거품 아니야?
이런 질문은 나 역시 주변인에게 들어본 적이 있을 뿐만 아니라 이를 주제로 출간된 책을 읽어본 적도 있다.
사실을 알고 보면 빅데이터가 별거 없지만 그냥 매체에서 빅데이터라는 말을 강조하니까 사람들이 착각하는 거 아니냐는 것이 이 질문의 핵심이다. 조금 더 강하게는 빅데이터라는 그럴듯한 말로 사람들을 선동하는 것이 아니냐고 문제를 제기하는 사람도 있다. 이런 질문에는 다음과 같이 대답을 하고 싶다.
절대 거품이 아니에요, 저는 오히려 데이터의 중요성이 과소평가받고 있다고 생각합니다.
빅데이터 분석을 전공하고 이를 직업으로까지 선택한 사람으로서 빅데이터가 거품이 아닐까라는 질문에 대해 나 역시도 심각하게 고민을 했다. 고민을 해본 결과, 특정 사람들이 빅데이터를 거품이라고 칭하는 데는 그럴듯한 측면이 있다고 생각한다. 하지만 앞으로 빅데이터는 지금까지 보다 훨씬 더 유용하게 이용될 것이라는 것에는 분명한 이유가 있고 이를 증명하는 사례도 많이 있다. 이 글에서는 빅데이터가 거품이 아닌 이유에 집중해서 이야기를 해보려고 한다.
빅데이터를 거품이라고 말하는 사람들은 크게 다음과 같은 이유를 든다.
데이터로 추론/예측에는 한계가 있고, 가능한 경우라 할지라도 사람의 논리력으로도 충분하다.
데이터가 굳이 많을 필요가 있나? 스몰데이터와 차이점은 무엇인가?
빅데이터에 투자된 엄청난 액수에 비해 빅데이터로 무언가를 보여준 게 있나?
하나하나 자세히 살펴보도록 하자.
데이터로 추론/예측에는 한계가 있고, 가능한 경우라 할지라도 사람의 논리력으로도 충분하다.
이 내용은 반은 맞고 반은 틀린 이야기이다.
먼저, 빅데이터로 하는 추론과 예측에 한계가 있다는 점은 분명한 팩트이다. 사실 빅데이터라는 것이 모든 걸 다 가능하게 한다고 맹신하는 사람도 꽤 많이 보아왔다. 하지만 실제로 데이터를 분석하다 보면 목적에 맞는 데이터가 제대로 구비되어 있지 않거나, 우리가 통제 못하는 외부 변수들이 너무도 많은 경우가 허다하다. 이런 경우에는 분명히 말하지만 빅데이터로 무언갈 분석하고 추론/예측하는데 한계가 있다. 사실 이 내용은 빅데이터 분석에 막연한 환상을 가지고 있는 사람들에게 내가 해주고 싶은 이야기이기도 하다.
하지만 중요한 것은 빅데이터 기반 추론/예측의 한계는 분명히 있지만 반대로 빅데이터 분석을 통해 유의미한 결론을 내는 것이 가능한 영역 역시 무궁무진하게 많다. 이 부분과 관련해서는 빅데이터, 그거 거품 아니야? 의 2번째 장에서 더 많이 이야기해보도록 하겠다.
다음으로 빅데이터 분석을 통해 추론/예측이 가능한 경우라도 이는 사람의 논리력으로도 역시 충분히 가능하다는 것은 사실이 아니다. 이러한 이야기는 빅데이터 분석의 결론이 우리가 당연하게 여기는 내용인 경우가 많기 때문일 수 있다. 하지만 우리의 상식과는 다른 결론이 나오는 경우도 흔치 않게 발견할 수 있으며(기저귀와 맥주를 동시에 구매하는 구매 패턴이 많다는 것을 빅데이터 분석으로 발견했다는 이야기는 가장 유명한 관련 사례이다.) 우리가 생각하는 그럴듯한 결론도 처음부터 단서 없이 도출하려고 하면 실패하기 십상이다. 시간이 지나고 보면 이 기업의 성장을 충분히 예측할 수 있었는데 우리가 늘 '내가 왜 그 생각을 못하고 그 기업 주식을 안 사뒀지?'라고 하는 것과 비슷한 느낌이다. 물론, 관련 분야의 전문가나 분석가의 지식 및 논리력으로 가설을 세우고 이를 검증해나가는 형식 역시 데이터를 분석함에 있어 가장 많이 이용되는 행태이다. 하지만 이 경우에도 빅데이터는 '검증'이라는 매우 중요한 역할을 수행하고 있다.
데이터가 굳이 많을 필요가 있나? 스몰데이터와 차이점은 무엇인가?
확실히 단순하게 큰 데이터를 다룰 줄 아는 것이 아니라 작은 데이터라도 인사이트를 잘 이끌어 낼 줄 아는 능력을 갖추는 게 훨씬 중요하다.
하지만, 데이터를 분석함에 있어 그 데이터가 Big 하냐는 중요한 이슈 중에 하나이다. 모든 데이터 분석에는 기본적으로 통계 개념이 밑바탕에 있으며 통계학의 주된 목표는 표본의 특성이 아니라 모수의 특성을 설명하려고 한다는 점이다. 결국, 데이터(표본)의 수가 늘어날수록 이 부분에서 상대적으로 장점을 가진다.
흔히들 하는 통계 분석은 결론적으로 각 변수의 유의성이라는 것을 검증할 때가 많다. 내가 생각하는 이 요인이 실제 결과에 통계적으로 유의미하게 영향을 미치는 것인가? 에 대답하기 위한 지표라고 생각하면 된다. 이때, 변수의 유의성을 검증할 때 데이터의 숫자가 연산 자체에 영향을 미치게 된다(계산 공식에 데이터 수가 포함된다).
빅데이터로 무언가를 예측하는 모델을 만들 때도 마찬가지다. 머신러닝 모델을 구성할 때 데이터 수가 부족하면 '학습'이 안된다. 특히 이 현상은 요즘 핫한 딥러닝 기법을 이용해 모델을 구성할 때 더 명확해진다. 예를 들어, 학습 알고리즘은 똑같이 적용하고 두 가지 알파고를 학습시킨다고 해보자. 이때 한 알파고에는 부족한 데이터 숫자로 학습을 시키고 다른 알파고에는 충분한 양의 데이터로 학습을 시킨다. 이후 이 두 알파고끼리 바둑 대결을 시키면 분명히 많은 데이터로 학습시킨 알파고가 대결에서 승리한다.
빅데이터에 투자된 엄청난 액수에 비해 빅데이터로 무언가를 보여준 게 있나?
이 부분에 대한 나의 생각은 상대적으로 간단하다. 아직 데이터를 잘 다루는 인재가 부족하다. 빅데이터 분야를 공부한다는 것은 생각보다 넓은 범위의 전공을 다루어야 한다. 잘하기가 쉽지 않은 구조이다. 그리고 빅데이터라는 말이 유행한지는 꽤 지났지만 아직 그 유행으로 새로운 세대가 공부를 하고 현업에서 무언가를 보여주기에는 시간이 짧다(빅데이터를 공부하는 대부분의 학생은 심지어 대학원 과정도 거의 필수로 진학한다). 개인적으로 지금 수준에서도 빅데이터가 뭔가 많이 보여줬다고 생각하지만 이게 부족하다고 생각이 든다면, 조금만 더 기다려보라고 말하고 싶다.
데이터 분석을 전공하고 직업으로 삼고 있는 사람으로서 빅데이터 성공 사례를 너무나 많이 접해왔다. 또한, 다른 글에서 더 자세히 언급하겠지만 빅데이터는 그 자체로 기능을 하기도 하지만 다른 기술들과 결합되어 엄청난 파급력을 가질 수 있다. 주변인들에게 데이터의 가치를 강조하면서 내가 항상 하는 이야기를 곁들여보겠다.
기술의 발전으로 데이터가 많이 쌓이고 있다는 것은 논란의 여지가 없는 사실이다.
결국 쌓이고 있는 데이터를 누군가는 잘 활용하고 누군가는 그렇지 못하다. 이 점에서 나는 경영학을 전공하던 학부시절 배웠던 Competitive Advantage 개념이 생각난다. 어떤 기업은 데이터를 활용해 이득을 취하는 반면, 어떤 기업은 그렇지 못한다. 이것이 경쟁우위가 아니고 무엇일까. 이런 의미에서 사실상 모든 기업은 데이터를 잘 다뤄야 한다고 말하는 사람도 있다. 관련하여 유명하면서도 내가 좋아하는 문구로 마쳐보겠다.
Every company is a data company