케네스 쿠키어 <빅 데이터가 만드는 세상>
(이 글은 2013년에 책을 읽고 썼다. 책에서 말했던 세상이 이미 도래했지만 이 책은 여전히 읽어볼 만하다. 우리가 살아가고 있는 빅 데이터 시대가 어떤지 생각해보면 좋겠다.)
“빅 데이터란 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해내는 일이다. 그리고 이 과정에서 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.” (19쪽)
이제 정보의 홍수라는 말로 인터넷 시대를 표현하기는 부족하다. 요즘에 축적되는 정보의 양은 거대한 정보의 우주라 표현해도 부족할 것 같다. 이 거대한 데이터를 이용하는 데 있어 핵심이 되는 것은 '예측'이다. 엄청난 양의 데이터에 수학을 적용하여 확률을 추론하려는 노력을 빅 데이터라고 할 수 있다.
이 책에서는 빅 데이터의 이용으로 인류가 겪게될 변화를 다루고 있다. 많아진 데이터의 양, 들쭉날쭉한 데이터, 인과성과 상관성, 데이터화, 가치, 영향, 리스크, 통제라는 주제로 이 변화를 설명하고 있다. 책의 첫 장에서 저자들은 커다란 변화를 앞둔 인류 에게 지금 우리가 어디쯤 서 있는지, 어떻게 여기까지 왔는지, 우리 앞에 놓인 혜택과 위험에 대해 시급히 안내하기 위해 이 책을 썼다고 밝히고 있다.
빅 데이터라는 것이 이 시대에 진정 유의미한 자취를 남기게 될 것인지 아니면 수 많은 트렌드 중의 하나처럼 자취를 감추게 될 지 궁금해진다. 저자들이 빅 데이터로 인한 변화의 키워드로 선정한 단어들을 하나씩 살펴본다.
많아진 데이터
빅 데이터의 핵심은 정보들 사이의 관계를 파악하고 이해하는 것이다. 이제 우리는 무작위 샘플링을 넘어서 거대한 데이터 전체를 분석할 수 있게 되었다. 많은 양의 데이터를 활용할 수 있게 된 지금에는 샘플링이라는 개념이 합리성을 잃게 된다. 전체 데이터를 사용할 수 있게 되자 정보의 방대함에 가려져 있던 세부 사항과 연결점을 찾아내는 일도 가능해졌다.
그렇다. 빅 데이터라는 개념이 출현한 지는 꽤 시일이 지났지만 최근들어 신문지상이나 여러 잡지들의 기고문들에 자주 등장하고 있다. 빅 데이터는 말 그대로 빅 데이터이다. 하지만 이것은 데이터의 양이 단순히 많아진 것을 의미하는 것은 아니다. 이 책을 읽어나가다보면 현대 사회는 근본적 변화의 소용돌이 앞에 놓여 있음을 깨닫게 될 것이다.
들쭉날쭉한 데이터
소규모의 데이터를 다루던 과거에는 정밀성이 중요했다. 가능한 한 오류를 줄이기 위해 허용가능한 기준을 좁혔다. 하지만 빅 데이터 시대엔 이 기준을 느슨하게 함으로써 더 많은 데이터를 손에 넣을 수 있다.
양이 많아지면 질을 압도하기도 한다. 빅 데이터는 숫자를 정확함보다 확률적인 것으로 바꿔놓는다. 기계 번역 분야에서 기존엔 이룰 수 없었던 수준이 구글이 빅 데이터를 이용함으로써 혁신적으로 높아졌다. 고품질의 데이터라기보다는 더 많은 데이터를 사용했기 때문에 구글의 번역 시스템이 잘 작동했던 것이다.
대규모 데이터를 활용하는 유익을 누리려면 데이터의 들쭉날쭉한 특성을 없애야 할 오류로 볼 것이 아니라 정상적인 것으로 받아들여야 한다. 빅 데이터는 우리에게 무질서와 불확실성에 더 익숙해지라고 요구한다. 전통적인 습관이 몸에 배어 있는 현대의 사람들이 이러한 비상식적 요구에 어떻게 반응하게 될까? 이 요구에 적응하는 부류와 그렇지 않은 부류가 있을 것이다.
인과성과 상관성
분야를 막론하고 세일즈맨들은 고객이 왜 구매 목록에 체크를 하는지, 왜 그런 의사 결정을 내리는지 숨은 이유를 이해하라는 말을 늘 들어왔다. 하지만 빅 데이터는 기저에 깔린 원인을 몰라도 가치 있는 상관성을 찾아내는 것을 도와주었다.
상관성은 두 데이터 값 사이의 통계적 관련성을 수량화한다. 상관성이 강하다는 건 하나의 데이터 값이 변화할 때 다른 하나도 변할 가능성이 매우 높다는 것이다. 빅 데이터의 시대에는 오로지 가설에만 의지해 어떤 변수를 검토할지 결정하는 것은 더 이상 효율적이지 않다. 상관성에 기초한 예측은 금융 신용 평가, 보험회사의 건강 위험요소 확인, 할인 소매점의 마케팅에 이르기까지 다양하게 사용된다.
인과성의 경우 과거 작은 데이터 시대엔 우리의 직관이 틀렸다는 사실을 증명하는 데 오랜 시간이 걸렸다. 하지만 이제는 빅 데이터와 상관성을 이용해 우리의 인과적 직관이 틀렸음을 증명하는 일이 일상화될 것이다.
최근까지는 우리 주변 세상을 분석하고 이해하려면 테스트할 이론이 필요했지만 빅 데이터 시대에는 이론이 필요하지 않다. 그냥 데이터를 살피면 되기 때문이다. 하지만 이것은 사실이 아니다. 빅 데이터도 이론에 기초하고 있다. 상관성과 인과성을 확실히 구별할 필요가 있다. 우리는 종종 이 둘을 같은 것으로 착각하여 빅 데이터가 열어주는 상관성의 세계에서 인과성을 찾으려고 헛된 노력을 하게 될 때가 있다. 이러한 모습이 우리가 주의해야 할 것이라 생각한다.
데이터화
데이터화는 한 번도 데이터로 취급된 적이 없는 정보를 발굴해 수량화된 형태로 만들어 고유한 가치를 창조해내는 것이다. 이를 위해서는 대상을 측정할 방법과 기록할 방법을 알아야 하고 이것을 수량화하고 기록하려는 욕구가 있어야 한다.
데이터 기록 방식과 세상을 측정하는 방식이 발전해 가면서 더 효율적인 데이터화를 이끌었다. 책속의 내용, 세상에서의 지리적 위치, 휴대전화 이용 패턴, 인간관계, 경험, 기분, 트위터의 메시지, 운동 정보에 이르기까지 세상의 수 많은 정보들이 데이터화되어 이용되고 있다.
세상을 정보로 보게 되면, 즉 훨씬 더 깊고 넓게 탐험할 수 있는 데이터의 바다로 보게 되면 우리는 이전에 보지 못했던 관점으로 현실을 보게 될 것이다. 책에 소개되어 있는 사례들을 살펴보면 이런 것까지 데이터화할 수 있는가라는 생각이 들 정도로 하찮은 것들까지도 빅 데이터의 시대에는 수집되고 있음을 알게된다. 우리가 미처 깨닫지 못하는 이 시간에도 우리가 상상조차 하기 힘든 양의 정보가 데이터화되어 저장되고 있다.
가치
빅 데이터 시대에는 데이터의 재사용이 엄청난 가치를 창출한다. 데이터의 가치가 현재의 주된 용도에서 미래의 잠재적 용도 쪽으로 이동하고 있다. 데이터는 물리적 재화와는 다르게 사용되었다고 해서 가치가 줄어들지 않는다. 서로 다른 여러 목적으로 활용될 수 있다. 데이터의 전체 가치는 그것의 첫 번째 사용에서 추출한 가치보다 훨씬 크다는 점을 유념할 필요가 있다.
이러한 예의 적절한 예는 전기자동차의 인프라 분석을 위해 사용된 시스템에서 잘 나타났다. 이 시스템에서는 한 가지 목적으로 생성된 정보를 다른 여러가지 목적으로 활용하였다. 데이터의 가시적인 가치는 바다 위에 떠 있는 빙산과 같다. 데이터의 가치를 어떻게 끌어내느냐는 그것을 이용하는 사람에 달려 있다. 이러한 사실에 기초해 중요해지는 것은 데이터의 확장 가능성을 염두에 두고 데이터를 수집하는 것이다. 최근에는 가치가 없을 것이라 여겨지는 데이터 잔해라 불리는 것으로부터도 새로운 가치를 만들어내고 있다.
영향
빅 데이터 회사들이 제공하는 가치는 데이터, 기술, 아이디어이다. 빅 데이터를 둘러싼 가치사슬은 데이터 보유자, 데이터 전문가, 빅 데이터 사고방식을 가진 회사와 개인들로 구성된다. 이 먹이사슬 안에 있는 개인과 회사들의 창의적 비전을 통해 우리는 기업의 가치를 재평가해볼 수도 있다.
현재까지의 상황을 볼 때 빅 데이터의 가치사슬에서 가장 큰 가치를 손에 쥔 사람들은 빅 데이터 사고방식을 가진 혹은 혁신적 아이디어를 가진 쪽이다. 하지만 시간이 좀 더 지난다면 가치 사슬의 주체들 사이에 데이터를 중개해주는 이들이 새롭게 등장할 가능성도 크다.
이에 반해 전통적인 전공별 전문가들의 영향력은 줄어들고 있다. 이것은 직장에서 성공하는 데 필요한 역량이 바뀌고 있음을 의미하는 것일 수 있다. 그렇다고 각 전공별 전문가들이 사라지지는 않을 것이다. 다만 그 우월성이 줄어들 것이다. 이제 무엇을 알고, 누구를 알며, 직장 생활에 대비해 무엇을 공부해야 할지가 바뀌고 있다.
리스크
빅 데이터 시대에는 다른 사람들이 우리 개개인의 데이터를 수집하고 저장하며 재사용할 기회를 제공한다. 이는 사생활 보호 차원을 넘어 성향에 기초해 사람들이 판단받을 수 있는 위험 요소도 가지고 있다. 빅 데이터를 현명하게 사용하지 못한다면 빅 데이터는 힘 있는 자가 고객과 직원들을 좌절시키거나, 시민들에게 위해를 가하기 위한 탄압 수단이 될 수 있다.
빅 데이터 시대에는 익명화조차도 개인들의 사생활을 보호하지 못하는 것으로 드러나고 있다. 빅 데이터가 마이너리티 리포트에서의 범죄 예측에 사용된다고 생각하면 끔찍할 정도다. 빅 데이터를 이용하여 예측은 할 수 있지만 이것을 사람의 행동에 적용하려 한다면 큰 오류가 발생하게 될 것이다. 예측된 행동을 저지르기도 전에 그 행동에 대한 책임을 묻는 것은 상관성을 가지고 인과관계를 결정하는 오류를 범하는 것이다.
우리는 데이터에 대한 지나친 의존을 경계해야 한다. 수 많은 유익들에도 불구하고 빅 데이터를 활용함에 있어 가장 우려되는 부분이 이러한 문제이다. 자칫 잘못하면 영화에서나 있을 법한 일들이 인류의 자유를 완전히 구속하는 상황으로 이끌 수 있을 것이다. 최근 불거진 미국 NSA 사태나 구글 등에 의한 사생활 침해 문제 등이 일상화될 가능성이 크다.
통제
개인 동의에서 데이터 이용자 책임으로 통제의 형태가 바뀌는 것은 빅 데이터를 효과적으로 다스리기 위해 꼭 필요한 변화이다. 이 시대에 우리는 정의에 대한 이해를 확장해서 인간 행위 원칙에 대한 안전장치를 포함하게 만들어야 한다.
빅 데이터 규제의 큰 기둥은 객관적으로 데이터를 분석해서 범법자일 가능성을 판단하는 것이 아니라, 계속해서 사람들을 개인적 책임과 실제 행동에 의거해 판단할 거라는 확실한 보장이다. 어느 기술이 어떻게 발전할 것인지를 예언하는 일은 분명 불가능하다. 따라서 규제 기관은 조심스러운 행보와 대담한 행보 사이에 균형점을 찾아야 할 것이다.
빅 데이터는 정보사회라는 단어가 약속했던 것을 마침내 완수하는 순간을 나타낸다. 데이터가 무대의 중심에 서는 것이다. 유일하게 확실한 것은 데이터의 양은 계속해서 증가할 것이고 그것을 처리할 능력도 계속 커질 것이라는 점이다. 상관성은 인과성보다 훨씬 빠르고, 저렴하게 찾아낼 수 있기 때문에 더 좋은 경우가 많다.
빅 데이터는 긴급한 글로벌 문제들을 이해하고 처리하는 데 필수적이 될 것이다. 이전에 미래는 완벽하게 예측할 수 있는 무엇이었지만 이제는 열려 있고 아무도 손대지 않은 광할하고 텅 빈 캔버스가 됐다. 모두가 데이터에 호소하고 빅 데이터 툴을 사용하게 되면 예측 불가능한 직감, 위험 감수, 우연, 실수 같은 인간적 특성은 차별화의 핵심이 될 것이다.
우리가 수집하고 처리할 수 있는 것은 언제나 세상에 존재하는 정보 중 아주 작은 일부에 불과할 것이다. 우리는 결코 완벽한 정보를 가질 수 없기에 우리가 내놓는 예측은 처음부터 잘못될 가능성을 내포한다. 하지만 이것은 예측이 틀렸다는 뜻이 아니며, 다만 언제나 불완전하다는 뜻이다. 이것 때문에 빅 데이터가 내놓는 통찰이 무효가 되지는 않으며 그저 빅 데이터의 제자리가 어디인지 알려주는 것뿐이다.
빅 데이터의 시대가 인류에게 가져오는 변화는 매우 급격한 것이라 생각된다. 하지만 우리들 대부분은 그것이 어떻게 우리에게 다가오고 있는지 실감하지 못하고 있는 듯하다. 지금까지와는 완전히 새로운 세상이기도 하고 지금껏 우리가 경험해보지 못한 끔찍한 세상이 될 수도 있을 것이다. 빅 데이터가 인류에게 어떠한 의미와 가치를 가지고 어떠한 변화를 가져다 줄지는 그것을 이용하는 사람들에게 달려 있다.