빅데이터(Big Data)의 등장
빅데이터 시대의 도래
결국 데이터와 관련된 핵심 트렌드를 한마디로 정의하고 있는 단어는 ‘빅데이터’다. 빅데이터라는 용어는 2011년 이후 점차적으로 관심도가 높아지기 시작했다. 빅데이터는 데이터의 디지털화로 촉발되었으며, 디지털 기기들의 다양화와 데이터의 저장과 공유를 쉽게 하는 인터넷, 모바일 및 IT 기술의 발달과 함께 확산되었다.
빅데이터는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용한계를 넘어서는 크기의 데이터를 말하며, 빅데이터의 특징을 설명할 때는 가트너(Gartner)의 양(Volume), 다양성(Variety), 속도(Velocity)의 세 개 차원으로 설명한 3V 모델이 가장 널리 인용되고 있다. 최근에는 IBM이 추가한 진실성(Veracity)과 브라이언 홉킨스 등이 언급한 가변성(Variability)이 추가되어 5V로 정의되고 있다. 앞서 데이터의 역사와 흐름에서 설명한 바와 같이 빅데이터는 단순히 데이터의 양 만을 의미하지 않고 새롭게 생성되는 데이터의 특징들이 함께 포함된 개념으로 발전되고 있다.
빅데이터의 특징을 설명하는 5V
1) Volume (양)
기본적으로 빅데이터는 매우 큰 양의 데이터를 의미한다. 어느 정도 양의 데이터를 빅데이터로 부를 것인가에 대한 의견은 분분하다. 워낙 빠르게 데이터의 양이 증가하고 있다 보니, 기준 수치에 대한 의견 또한 지속적으로 변화하고 있다. 과거 데이터 부족으로 인한 문제가 더 컸다면, 향후에는 방대하게 구축된 자료를 선별하고 분석하는데 어려움을 겪게 되는 일이 더 많아질 것으로 전망된다.
2) Variety (다양성)
데이터 양의 확대와 더불어 이전에는 분석이 불가능해 어쩔 수 없이 버려졌던 혹은 데이터로 인식되지 않았던 것들이 데이터로서 가치를 가지게 되었다는 사실에 주목해야 한다. 즉 숫자로 통용되는 정형화된 데이터(Structured data)에서 텍스트, 이미지, 오디오, 비디오 등의 비정형(Unstructured)또는 반정형(Semi-structured) 데이터까지 분석의 대상이 확대되었다는 것이다. 새로 생성되는 데이터의 다수는 비정형 데이터이며, 이들에 대한 분석 기법 및 활용 방안에 대한 논의가 본격화되고 있다.
3) Velocity (속도)
앞서 사물인터넷이 만들어내는 데이터의 특징에서도 언급한 바 있지만, 데이터가 생성되고 또 처리되어야 되는 속도가 점차 빨라지고 있다. 시간을 두고 분석하는 것이 의미 있는 데이터가 있는 반면 시간이 지나면 가치가 적어지고 없어지는 데이터도 있다. 이에 따라 대용량 데이터를 처리하는 능력뿐만 아니라 스트리밍 데이터를 효율적으로 운영할 수 있는 분석 기술에 대한 요구가 늘어나고 있으며, 분석 결과를 실시간으로 활용하는 실시간성 업무와 서비스도 증가하고 있다.
4) Veracity (진실성)
아무리 데이터의 양이 많고 속도가 빠르고 다양하더라도 진실성을 가지지 못하는 데이터는 의미가 없다. 진정한 데이터 자원으로 기능하기 위해서는 단순히 데이터를 수집하고 쌓는 게 목적이 아닌 데이터를 통해 궁극적으로 원하는 바를 분석, 이해할 수 있어야 하며, 개인의 권리 등을 침해하지 않고 신뢰 가능한 진실성을 가져야 한다. 기존 3V에서 새롭게 Veracity라는 특징이 추가되었다는 점은 결국 기존 빅데이터의 한계와 향후 나아가야 할 방향에 시사하는 바가 크다. 한 사람이 거짓으로 올린 정보가 무한 확산되기 쉬운 현대 사회에서 어떤 데이터가 진실이고, 가치 있는 데이터 인지를 판별해 낼 수 있는 능력과 활용 방안에 대한 검토가 필수적이다.
데이터의 양적 폭발 이후 데이터의 품질에 대한 중요성이 더욱 부각되고 있다. 데이터의 양이 많을수록 더 좋은 데이터일 것이라는 잘못된 인식을 버려야 한다. 데이터 양보다는 올바른 대상으로부터 얻은 진실된 데이터라는 점과, 그 데이터에 대한 분석과 이해를 바탕으로 어떤 가치를 창출할 수 있을 것이냐가 더욱 중요해지고 있다.
5) Variability (가변성)
가변성은 빅데이터만의 특징이라고 하기에는 어렵지만 데이터를 활용하는 데 있어 주의해야 할 중요한 요소다. 가변성은 동일한 데이터가 서로 다른 맥락(Context)에서 다른 의미를 가질 수 있다는 의미이다. 특히 텍스트, 이미지, 오디오, 비디오 등의 비정형 데이터들은 맥락과 함께 분석되는 것이 중요하다. 동일한 단어, 동일한 이미지가 가지는 의미가 상황에 따라 다르다는 것이 전제되어야 한다는 것이다. 긍정적인 의미로 사용된 것인지 아니면 부정적인 의미로 사용된 것인지, 또는 어떤 분위기에서 어떤 문구와 함께 사용된 것인지 등을 고려해야 한다. 필자의 경험에 의하면 포커스 그룹 인터뷰(Focus Group Interview)나 홈비짓(Homevisit) 등의 소비자 조사를 진행했을 때 연구자나 담당자가 직접 참여했을 때와 스크립트로 정리된 내용만을 참고하여 분석했을 때 프로젝트 결과와 퀄리티에 많은 차이가 생긴다. 전혀 다른 해석을 내리기도 하고 도출된 인사이트의 깊이에도 많은 차이가 있다. 맥락에 대한 이해 없이 단순히 분석하고 내리는 결론은 위험하다.
빅데이터 활용의 한계
우리는 전례 없는 빠른 속도의 사회 변화를 경험하고 있다. 현대 사회는 갈수록 불확실성이 커지고 그에 따른 리스크도 커지고 있다. 정부와 기업, 민간분야 가리지 않고 이에 대한 해결방안으로 빅데이터를 주목하고 있다. 현실 세계의 데이터를 기반으로 사회현상을 이해하고자 하며, 사전에 이상 징후를 감지하고 리스크를 제거하고자 한다. 나아가 데이터를 활용하여 경쟁력 확보와 기존에 없던 가치를 창조하고자 한다. 이미 빅데이터로 대변되는 거대한 데이터의 변화의 흐름 속에서 새로운 가치를 창출하는 사례도 많이 등장하고 있다. 많은 이들은 빅데이터가 만능열쇠가 될 것으로 기대하고 있다. 하지만 아직까지 데이터 활용을 통해 기대하는 미래의 모습과 현재 수준에는 많은 간극이 존재하는 것을 이해해야 한다. 그래야만 그 간극을 메꾸기 위한 새로운 기회를 파악하는 것도 가능하다.
데이터를 활용하는 주요 목적 중 하나는 미래에 대한 예측이다. 그리고 예측을 바탕으로 무엇을 해야 하는지에 대한 의사결정에 활용하기를 기대한다. 심지어 인공지능 분야에서는 기계 스스로 의사결정을 내리고 행동하기를 원한다.
빅데이터 활용을 통한 예측 사례를 이야기할 때 구글의 플루 트렌드(Flu Trend)에 대한 이야기가 빠지지 않는다. 구글은 2008년부터 독감에 걸렸을 때 구글 이용자들이 검색하는 키워드 등을 통해 독감이 얼마나 유행하고 있는지, 앞으로 어느 정도나 발병할 것이냐에 대한 예측 서비스를 제공한 바 있다. 현실 세계의 현상을 검색 쿼리 패턴을 사용하여 모델링하는 사례라는 측면에서 전 세계의 주목을 받았다. 데이터를 현실 세계에 반영하여 어떻게 활용할 수 있을지 보여주는 충분한 가치가 있는 시도였다.
하지만 다른 한편으로는 그 예측 수준에 대해서는 많은 비판이 있었다. 휴스턴 대학의 정치학 교수인 라이언 케네디와 공동 연구가들은 플루 트렌드가 2011-12, 2012-13 시즌의 독감 유병률을 50%가 넘게 과대평가하였으며, 2011년 8월부터 2013년 9월 사이에 108주 중 100주 동안 독감의 유병률을 과도하게 예측하였다는 연구결과(The parable of Google Flu: Traps in Big Data analysis)를 밝힌 바 있다. 결국 2015년 8월 이후 구글에서는 직접 플루 트렌드 서비스를 유지하기보다는 전염병 연구기관에 데이터를 제공하고 사용 권한을 부여하는 방식을 채택하기에 이르렀다.
데이터를 활용한 선거 예측으로 스타가 된 통계 전문가 네이트 실버(Nate Silver)는 도널드 트럼프(Donald Trump) 현 미국 대통령에 대한 잘못된 선거 예측으로 화제의 중심에 서기도 했다. 그는 빅데이터를 기반으로 한 분석 예측시스템으로 미국의 2008년 대선과 2010년 상원의원선거, 2012년 대선을 연달아 족집게처럼 맞췄지만, 도널드 트럼프가 공화당 경선에서 중도 하차할 것이라 전망했다가 크게 망신을 당했다. 트럼프는 결국 공화당 대선 후보로 선출되었고, 네이트 실버는 자신의 잘못된 예측에 대해 반성을 자신의 웹사이트에 게재해야만 했다. 그리고 트럼프는 미국의 대통령이 되었다. 대한민국의 2016년 국회의원 총선에 대한 전문가들의 예측도 이와 크게 다르지 않았다. 여당이 압승할 것으로 예측했지만 결과는 야당의 승리로 나타났다.
각 분야 전문가들이 빅데이터를 활용하더라도 잘못된 예측과 결론을 내리는 사례가 빈번하게 나타나는 것이 데이터 분석의 현실이기도 하다. 아직 중대한 결정을 내리는데 빅데이터에 의존하기 어려운 이유이다. 특히 사람을 대상으로 하는 분야의 분석과 의사결정은 더욱 어려운 부분이다. 기본적으로 사람은 이성적이면서 비이성적인 면을 동시에 가지고 있고, 감정의 변화 또한 잦기 때문이다.
소셜미디어 데이터를 과신하는 것도 같은 맥락의 문제다. 소셜 데이터를 분석하면 원하는 모든 답을 얻을 것이라고 생각해서는 안 된다. 소셜 미디어를 적극적으로 활용하는 집단이 있는 반면 그렇지 않은 집단도 있다. 이를 잘못 해석해서 전체의 의견인 것처럼 해석하면 왜곡된 결과를 얻을 수밖에 없다. 뿐만 아니라 사람들이 정말 소셜미디어에 자신의 의견 또는 속마음을 그대로 보여줄 것인가에 대해서도 의문을 제기하는 것이 필요하다.
어떤 데이터를 활용할 것인가? 데이터를 어떻게 분석할 것인가? 분석의 결과를 어떻게 활용할 것인가?
결국 데이터 양이 아무리 늘어나도 이전의 데이터를 활용할 때와 마찬가지로 의미 있는 데이터를 잘 선택하는 것이 더 중요하다. 더 많은 데이터에서 더 큰 인사이트를 얻기보다는 데이터 창고에 갇히는 우를 범하기 쉬울 수도 있다. 따라서 데이터를 가공하고 그 수치를 나타내는 것 이상의 것, 데이터를 읽는 힘이 중요하며, 아울러 데이터를 읽고 의사결정을 내리는 것은 또 다른 차원의 힘이 필요하다.
넷플릭스의 드라마 '하우스 오브 카드'의 성공과 아마존의 드라마 '알파 하우스'의 실패 사례가 시사하는 바는 작지 않다. 아마존은 성공적인 드라마를 제작하기 위해 시청자들의 재생 기록과 멈춤, 그리고 어느 장면을 건너뛰고 어디를 다시 보는지 등 무수한 데이터를 수집하고 분석했다. 마찬가지로 넷플릭스도 수많은 드라마의 평점과 시청기록을 수집하고 분석했다. 두 회사 모두 데이터를 매우 잘 다루는 회사였지만 유사한 데이터 분석을 통해 만들어 낸 드라마의 성과는 달랐다. 결국 데이터를 분석하는 것과 그 데이터를 활용하여 무언가에 대한 의사결정과 문제 해결의 방안을 만들어 내는 것은 다르다.
(Ted 강연 세바스찬 베르니케의 "How to use data to make a hit TV show"를 보시라)
https://www.youtube.com/watch?v=vQILP19qABk
빅데이터의 등장 이후 과거의 데이터를 접근하는 방식과 개념은 '스몰데이터'로 명명되기 시작했다. 빅데이터는 기존의 스몰 데이터로는 해결하지 못했던 문제를 해결할 때 진정한 빅데이터로서의 의미가 생긴다. 하지만 동시에 스몰데이터가 다시 부각되는 것에도 주목할 필요가 있다. 빅데이터가 해결하지 못하는 것을 스몰데이터가 해결해 주는 사례도 종종 등장한다. 리서치 분야에서 많은 사람들을 설문하여 얻은 정량 데이터가 중시되기도 하지만 갈수록 다양한 정성조사 기법들이 발전하고 중시되는 경향이 나타나는 것도 비슷한 맥락이다.
데이터가 중요해지면서 무분별한 데이터 수집과 활용 또한 사회적 이슈로 등장하고 있다. 데이터를 손에 쥔 빅브라더에 대한 경계의 눈길도 적지 않다. 이미 각국 정부가 국민들을 감시하기 위한 수단으로써 민감한 개인정보와 데이터를 불법적으로 활용하는 사례가 수없이 나타나고 있다. 더 나아가 단순히 감시의 목적을 넘어 정보를 조작하고 이를 통제의 수단으로 활용하기도 한다.
최근 정부에서는 비식별 개인정보 활용에 대한 기준을 발표했다. 비식별 방법과 기준, 절차, 분류 등을 포함하며 비식별 조치를 취한 개인정보는 별도 조치 없이 활용 가능하다는 것이 그 골자다. 데이터 활용을 통한 서비스가 활성화되고 데이터 거래 시장 또한 형성될 것으로 전망된다. 늦게나마 기준과 법적 제도를 명확히 했다는 측면에서는 긍정적이지만 실제로 개인정보가 잘 지켜질 수 있도록 사회적 감시와 지속적 관심 또한 필요한 시점이다.