brunch

You can make anything
by writing

C.S.Lewis

by 모두의 과학 Sep 04. 2016

빅데이터, 핫한 그 이름

몇 년 전 '빅데이터'라는 말이 처음 등장한 이후로, 이 단어는 마치 전가의 보도 처럼 우리 일상 생활의 모든 생활에서 등장하고 있습니다. 오늘은 빅데이터가 무엇인지, 우리의 삶을 어떻게 바꾸고 있는지에 대해 생각해 보려고 합니다.




1. 빅데이터? 그냥 데이터와 뭐가 다르지?


data
명사[단수형은 datum이지만 전문 용어로는 흔히 복수형으로 쓰임]
1. [U , pl.] (증명・판단・결정 등을 위한) 자료[정보/데이터]
2.[U] (컴퓨터에 저장된) 자료[데이터/정보]

[출처] Oxford Advanced Learner's English-Korean Dictionary


데이터는 '자료'라는 뜻입니다. 그렇다면 빅데이터는? 엄청나게 큰 자료라는 뜻이 되겠죠. 그렇다면 얼마나 커야 빅데이터라고 말할 수 있을까요?


기존에 많이 사용하던 방법(사람의 지능, 관계형 데이터베이스, 일반적인 통계 소프트웨어 등)으로 분석할 수 있는 범위를 벗어나는 규모를 지칭해서 빅데이터라고 말할 수 있습니다. 기초적인 엑셀 표를 생각해 보세요. 행과 열로 이루어진 기초적인 통계 소프트웨어입니다. 하지만 빅 데이터는 이런 1차원적인 시스템으로 데이터를 분석할 수 없는 규모로, 데이터 저장을 위한 데이터베이스(클라우드 시스템)부터, 분석을 위한 소프트웨어(Hadoop, NoSQL등)까지 전혀 새로운 시스템을 활용해야 합니다.




2. 빅데이터의 특징은 3V다!


빅데이터를 설명하는 가장 큰 특징은 3V로 요약할 수 있습니다.

Volume(양)

Velocity(생성속도)

Variety(형태의 다양성)

앞에서 전통적인 데이터와 빅데이터를 구분하는 가장 기본적인 차이점이 데이터의 양(Volume)이라는 사실을 이야기했습니다. 또 하나의 큰 특징은 데이터의 생성 속도가 무한하게 빠르다는 점입니다. 포브스에 따르면, 2020년도가 되면 전 지구상의 사람 1명이 1초당 생산하는 데이터가 1.7메가바이트에 달할 것이라고 합니다. 그리고 그 데이터는 전통적인 수치 데이터의 형태를 크게 벗어납니다. 스마트폰의 보급에 따라 사람들이 생산하는 데이터의 형태가 매우 다양해 진 것입니다. 손쉽게 사진을 찍고, 동영상을 촬영하고, 문자와 메신저로 메시지를 보내고, 위치를 기록하고, 쇼핑을 하고, 웹서핑을 합니다. 우리가 가는 곳 어디에나 CCTV가 있고, 신용카드의 구매기록과 교통카드의 사용기록이 남습니다. 이 모든 활동 기록은 데이터로 저장됩니다.




3. 빅데이터에 관심이 집중되는 이유는 뭘까?


빅데이터가 가장 많이 활용되는 분야는 기업들의 마케팅과 공공정책 부문입니다. 아마존과 같은 온라인 쇼핑몰들은 축적된 구매기록 빅데이터를 활용해 소비자들의 구매 행태를 분석하고 예측 모델을 만들어냅니다. 검색 포털들은 사람들의 검색기록을 가지고 사회적인 문제에 대한 대중들의 반응을 분석, 예측합니다. 해외에서는 국가가 국민들의 다양한 생활 데이터를 수집해 공공보건과 국가보안을 개선하기 위한 기초자료로 활용합니다. 구글에서는 독감에 걸린 사람들이 증상과 치료방법을 온라인에서 검색한다는 가정 하에, 독감(flu)과 관련된 검색 데이터를 축적하여 독감의 유행 현상을 예측할 수 있는 구글 플루(Google Flu)시스템을 만들었습니다. 이렇게 빅데이터는 제대로 활용하면 인류의 삶을 크게 나아지게 할 수 있는 유용한 도구입니다.




4. 빅데이터, 과연 모든 문제의 해답일까?


하지만 빅데이터가 인류가 직면한 어려운 문제들의 손쉬운 해답이 될 수는 없습니다. 축적된 데이터를 분석한다는 것은 항상 공정하고 객관적인 해답을 내 줄 것 같지만, 항상 그렇지는 않습니다. 자신이 가진 궁금증 또는 문제를 해결하기 위해서 어떤 데이터를 보아야 할지 부터 시작해서, 데이터 분석에 어떤 조건을 설정할 지, 입력된 전제 조건이 편향되지는 않았는지 등, 고려해야 할 점은 매우 많습니다. 분석 실험을 설계하기 위해서는 통계학적인 배경 지식이 필요합니다. 기업의 마케팅에 활용하기 위해서는 고객의 특성을 정확히 이해할 수 있도록 분석을 설계할 수 있는 마케팅 감각도 필요하겠죠. 데이터를 다루고 분석하기 위한 소프트웨어 활용 능력은 말할 필요도 없을 것입니다.


무엇보다도 근본적인 데이터의 전제와 가설이 틀렸다면, 빅데이터 분석은 전혀 효과를 내지 못할 수도 있습니다. 앞에서 말씀드린 구글 플루(Google Flu) 프로젝트는 반드시 독감에 걸린 사람들만 독감에 관련된 검색을 시행하지 않을 수도 있다는 점, 그리고 사람들은 단순한 감기 또는 감염증과 독감을 제대로 구분하지 않고 비슷한 검색어를 마구잡이로 사용한다는 점 등 다양한 변수 때문에 그 정확성이 크게 떨어졌습니다. 구글 플루 프로젝트가 운영된 128주 동안 구글 플루의 예측이 맞아 떨어진 적은 8번에 그쳤다고 합니다.


무엇보다도, 빅데이터의 수집은 프라이버시 침해의 위험성을 크게 높입니다. 미국의 애국법은 미국 국민의 개인정보와 통신기록을 FBI에 손쉽게 제공한다는 점에서 논란을 일으켰습니다. 여러 국가에서 비슷한 법을 입법하려는 시도가 있었고, 몇몇 국가에서는 실제로 시행되기도 해, 국가의 개인에 대한 감시인가에 대한 논란과 시민단체의 반발이 커지고 있습니다.




커다란 가능성을 가지고 있지만, 그만큼 위험한 결과를 불러 올 수도 있는 빅데이터, 이미 거스를 수 없는 흐름이 되어 사람들의 삶을 바꿔놓고 있습니다. 앞으로 빅데이터가 가져올 변화는 무엇일까요? 

매거진의 이전글 명왕성은 재미있다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari