brunch

You can make anything
by writing

C.S.Lewis

by 송경빈 Aug 23. 2019

빅데이터 - 질문을 명확히 하라

데이터에서 무엇에 대한 답을 원하는가



원문 저자 : 유혁(Stephen H. Yu)

Practice Head, Advanced Analytics & Insights

eClerx LLC

286 Madison Avenue, 14th floor, New York, NY 10017

stephen.yu@eclerx.com


기획/편집 : 송경빈   NIA 한국지능정보사회진흥원(구 한국정보화진흥원) 정책본부 미래전략센터 수석연구원(morningb@nia.or.kr)

발행: 2016년 12월


원문 : ‘데이터를 잘 써먹을 수 있는 구체적인 방법들’

출처 : 컴퓨터월드(http://www.comworld.co.kr/news/articleView.html?idxno=47764)








                                       이 책은 국내 공공 분야의 빅데이터 활용 증진을 위해

                                    한국정보화진흥원 미래전략센터가 기획, 발간하였습니다.


                  이 책의 원문은 국내 빅데이터 산업 발전을 위해 컴퓨터월드/IT Daily가 기획하고, 

                미국 eClerx사의 유혁 대표가 2014년 3월부터 2015년 8월까지 18회에 걸쳐 연재한 

                           빅데이터 강좌 - ‘데이터를 잘 써먹을 수 있는 구체적인 방법들’입니다.








글쓴이의 말

 빅데이터가 이제는 분석 전문가가 아닌 사람들에게도 익숙한 단어가 되었지만, 많은 의사결정자들은 아직도 어디에서부터 손을 대야 데이터를 이용하여 성과를 창출할 수 있는지 모르는 경우가 많은 듯하다. 필자는 30년간 미국에서 데이터베이스 마케팅 산업에 몸담으며 마케팅과 테크놀로지 사이에서 교량역할을 해온 사람으로서의 실전 경험과 데이터 관련 사업이 나아가야 할 방향에 대한 생각을 나누고자 이 책을 집필하였다.

 궁극적으로 모든 크고 작은 데이터는 의사결정자들이 쉽게 사용할 수 있는 도구이어야 한다. 그리고 데이터가 넘쳐나는 시대에는 전문가뿐 아니라 사용자들도 분석과 예측기술을 어떤 경우에 적용해야 하는지에 대해, 또 데이터 사용에 관련되어 일어날 수 있는 다양한 문제들에 대해 어느 정도 기본지식을 갖추고 있어야 한다. 이 책의 주제는 데이터와 분석이지만 기술적, 통계적 지식을 갖추고 있지 않은 의사결정자들도 데이터 관련 프로젝트의 단계들을 쉽게 이해할 수 있도록 전문적 기술용어의 사용을 최대한 자제하였다.

 여기서 나누고자 하는 “데이터를 잘 써먹을 수 있는 구체적인 방법들”이 독자 여러분들께 실질적인 도움이 되기를 바란다.


유혁 (Stephen H. Yu) 






엮은이의 말

 이 책은 전문가를 위한 책이 아니다. 빅데이터 시대가 도래한 이후, 데이터 전문가가 아닌 수많은 정보화 담당자들이 빅데이터 과제를 추진해야 하는 입장에 처해졌다. 이 책은 그들을 위한 책이다. 실무는 데이터 분석기업에 맡기더라도, 담당자로서 올바르게 프로젝트의 방향을 잡고, 기본계획을 수립하고, 추진과제를 관리하는데 도움을 주고자 만들어졌다.

 이들 대부분은 두꺼운 책을 읽을 시간도 없다. 그러나 이들이 제대로 방향을 잡고 프로젝트를 추진하지 않으면 우리나라는 당분간 미국, 유럽 등의 데이터 선진국을 따라갈 방법이 없다. 그래서 이들이 부담 없이 읽을 수 있는 두께이면서 필요한 내용은 최대한 담을 수 있도록 편집했다. 이 책의 내용만 숙지해도 빅데이터 프로젝트가 산으로 가지는 않을 것이다. 좀더 자세히 공부하고자 하면 원 기고문을 참고하거나, 이 기고문의 단행본을 읽으면 된다.

 필자는 정보화 정책업무를 하면서 피상적으로 빅데이터 산업동향을 짐작은 해왔으나, 실태를 명확하게 보는 것에 어려움을 겪고 있었다. 그런 와중에, 데이터 산업의 중심인 미국 현지에서 삼십여 년을 전문가로서 일해온 유혁 대표의 기고문을 접하게 되었고, 그 글은 필자의 머리 속에 흩어져 떠다니던 퍼즐조각들을 하나의 그림으로 맞출 수 있게 해주었다. 숨가쁘게 돌아가고 있는 데이터 산업의 한복판에서 바쁜 시간을 쪼개어, 우리나라의 데이터 산업 발전을 위해 본인의 경험과 통찰을 아낌없이 쏟아주신 유혁 대표께 감사 드린다. 그리고 빅데이터를 주제로 일년 반에 걸친 연재기사를 기획해주시고, 이 단행본과 요약본을 제작하도록 허락해주신 IT DAILY/컴퓨터월드 김용석 발행인께 감사 드린다.

 빅데이터를 하고 싶은 또는 해야 하는 이들에게 이 책이 부족하나마 길잡이가 되었으면 하는 바램이다.


한국정보화진흥원 미래전략센터 송경빈








1. Prologue - 빅데이터란


 빅데이터라는 말이 유행하면서 과거에 데이터를 다루지 않았던 회사들도 데이터에 관심을 기울이기 시작했다. 이는 빅데이터라는 말이 가져온 가장 큰 변화라고 할 수 있다. 데이터를 의사결정 과정에 반영하는 행위 자체는 새로운 개념이 아니다. 미국에서는 이미 산업별로 데이터 적용방법이 수십 년의 테스트와 실전경험을 거쳐 Best Practice까지 정립되어 있는 상황이며, 마케팅 분야의 경우 데이터에 관한 컨퍼런스를 열면 축구장 대여섯 개 정도의 자리를 차지할 만큼 규모가 크다. 컨퍼런스가 다루는 내용도 데이터의 저장능력과 처리속도가 빨라지면서 그걸 다루는데 어떠한 새로운 방법을 적용할 것인가에 맞추어져 있지, 데이터를 써야 할지 말아야 할지는 논의의 주제가 되지 못한다. 그에 대해서는 이미 답이 나와있는 상태이기 때문이다. 분명한 것은 앞으로 데이터를 잘 다루는 회사와 그렇지 못한 회사 간의 경쟁력 차이가 더욱 커질 것이라는 점이다.


 빅데이터라는 말은 3V(Volume, Velocity, 그리고 Variety), 즉 ‘크고 빠르고 다양하다’라는 말로 정의되는데, 이것은 경제‧사회적 관점에서 볼 때에는 올바른 정의가 못 된다. 늘 데이터를 다뤄온 전문가들에게는 그 정의가 과거의 데이터와 현재의 그것을 구분 짓는 의미로 해석될 수 있겠지만, 의사결정자들이나 사용자들에게는 크고 빠르고 다양한 데이터만 얻으면 모든 문제가 해결될 수 있다라는 잘못된 인식을 줄 수도 있다. 지금 빅데이터라는 용어는 과거의 데이터 비즈니스나 데이터베이스 마케팅과 차별을 두기 위한 협소한 의미만 갖고 있는 것이 아니라, ‘의사결정에 데이터를 분석하여 사용하는 것’을 다 아우르는 의미로 사용되고 있다. 일부 전문가나 엔지니어들 중심으로 쓰이는 기술용어가 아니라, 하나의 사회적 흐름을 일컫는 말로서 누구나 사용하는 일반용어로 쓰이고 있는 것이다. 즉, 빅데이터라는 말은 '데이터를 분석하여 의사결정에 활용하는 행위'로 폭넓게 정의되고 있는 것이 현실이다.


 데이터를 사용하는 것은 장기적으로 의사결정방식의 체계를 바꾸는 행위이다. 빅데이터라는 말의 유행으로 데이터를 의사결정에 사용해야 한다는 것에 이의를 제기하는 사람은 이제 거의 없지만, 막상 데이터와 분석을 어떻게 적용해야 하는가에 대해 질문하는 이들은 아직 많다.

 어떤 분석의 결과가 의미를 가지려면 애초에 질문부터 제대로 해야 한다. 원하는 질문이 제대로 정립되지 않은 상황에서 데이터만 많이 모아놓는다고 해결책이 나오지는 않는다. 그리고 질문에 대한 대답의 형태로 나타나는 분석결과를 놓고 어떤 결정을 내릴 것인지도 여전히 사람의 몫이다.


 사실 의사결정자들에게 데이터란 작을수록 좋은 것이다. 사업가나 의사결정자들, 혹은 사용자들은 그들의 질문에 대한 대답 - 분석의 결과로 많은 정보와 의미를 함축하고 있는 작아진 데이터가 필요한 것이다. 구분되어 있지도 않고 정리되어 있지도 않은, 똑똑하지 않은 데이터는 산더미처럼 많이 쌓여 있어봐야 당장 쓸모가 없다. 게다가 비즈니스에 관한 질문을 제대로 하다 보면 작은 데이터를 가지고도 충분히 답을 낼 수 있는 경우가 많고, 빅데이터라는 것이 늘 필요한 것은 아니란 것도 보이게 된다. 오히려 그런 경우에는 빅데이터가 지름길이 아니라 아주 많이 돌아가는 길이 된다. 의사결정자가 원하는 것은 ‘질문에 대한 작은 대답들’이다. 하나의 일기예보를 내놓기 위해 수천 가지 변수를 고려했을 수도 있지만, 사용된 데이터의 크기와 상관없이 ‘내일 오후에 소나기가 내릴 확률이 70%’라는 한마디가 원하는 대답인 것이다.


 그렇기 때문에 이 모든 일은 ‘대체 데이터에서 어떤 대답을 원하는가?’로부터 시작되어야 한다. 그냥 데이터베이스를 만들어놓고, 사용자가 알아서 의미를 찾아내길 바라는 것은 마치 설계도도 없이 건물을 짓거나, 시나리오 없이 영화를 찍거나, 사업계획서 없이 업무를 시작하는 것과 다를 바 없다. 툴셋에 대한 맹신은 돈을 낭비하고 일을 그르치는 지름길이다. 물론 툴셋은 반드시 필요하지만 하둡이건 SAS건 R이건, 그런 것들은 망치나 대패이지 설계자가 아니다. 가공되지 않은 데이터를 가지고 툴셋에만 의지해 의사결정에 필요한 분석결과를 얻어내려는 것은 마치 정제되지 않은 원유를 새 스포츠카에 넣고 달리려는 것과 같다. 비싼 악기를 구입했다고 저절로 좋은 연주가 되는 것이 아니고, 정말 어려운 일은 악기를 산 후에 시작된다는 것이다.


 빅데이터도 CRM(Customer Relationship Management)처럼 실패사례로 불릴 가능성을 경계해야 한다. CRM이 한국에서 실패한 유행으로 평가 받는 이유는 첫째 유행을 타다가 과도한 투자를 했기 때문이고, 둘째 개념의 정립과 정확한 목표, 그리고 성공과 실패에 대한 기준도 없이 일을 시작했기 때문이며, 셋째 툴셋만 믿고 기본기가 없는 상태에서 일을 추진했기 때문이다. 이 책을 통해 어떻게 하면 돈과 시간을 낭비하지 않고 좋은 결과를 얻을 것이며, 어떻게 해야 전문가가 아닌 사람들도 쉽게 데이터를 의사결정과정에 사용할 수 있는지 이야기해보고자 한다. 구체적인 데이터 가공법, 통계 기반 미래예측 모델 개발 과정의 주의점, 이를 위한 최적의 환경 등 데이터 분석‧활용 과정 전반에 대해 대략적으로 살펴보면서, 우리가 빅데이터를 잘 다루기 위해서는 어떻게 접근하는 것이 좋은지 이야기할 것이다.





2. 데이터 분석 개요


 빅데이터는 ‘사람들의 질문에 대한 대답’의 형태로 이루어져야만 사업이나 의사결정에 도움이 된다. 역설적으로 빅데이터는 ‘반드시 작아져야만 하는 것’이다. 사람들이 알고 싶어하는 대답은 한마디로 yes냐 no냐이거나, 아니면 어떤 가능성에 대한 확률(예를 들어 회사 야유회 날 비가 올 확률, 어떤 사람이 특정상품을 선호할 확률, 고객의 미래가치 등)이지 수천 수만 수조의 데이터 조각들이 아니다.

 이를 위해서는 ①데이터에서 잡음을 줄이고(Cut down the noise), ②데이터로부터 ‘통찰력이 담긴 정보’가 도출 되어야 한다(Provide insight, not data). 그것은 마치 금 한 덩어리를 얻기 위해 많은 잡석을 버리는 것과 같은 이치이며, 큰 덩어리의 데이터로부터 알맹이만 남기고 줄여 나아가는 과정으로 설명할 수 있다. 목적에 부합되지 않는 조각들을 과감히 버리는 것이 잡음제거 작업의 시작이다. 그래서 데이터 가공의 중심에는 데이터의 수렴과 통계적 모델이 필요하다.


 그렇다면 데이터는 어떻게 작게 만들 수 있는가? 일단 분석의 목적을 분명히 하고, 그 목적을 (접근 가능한 변수들을 이용해) 수학적으로 표현하며, 수학적 과정이 각 변수의 중요성을 정하도록 해야 한다. 이 과정에서 목적에 부합되지 않는 변수는 사람의 눈에 아무리 중요하게 보인다 하더라도 버려지게 된다. 이와 같은 수학적인 길을 계속 따라가다 보면 ‘의사결정자들이 원하는 대답을 제공하는’ 단계에 다다르게 된다. 그 작은 대답들이란 예/아니오, 확률, 혹은 어떠한 종류의 점수가 될 수 있다. 일기예보의 예에서 질문은 ‘특정일에 비가 올 확률’이고, 대답은 ‘70%’가 되는 것이다. 대부분의 사용자들은 수학이나 통계에 관한 학위를 갖고 있지 않겠지만, 다들 ‘회사 야유회 날 70%의 비가 올 확률’과 같은 정보를 어떻게 이용해야 하는지 알고 있다.



사용자   관점에서의 분석된 정보란

 ① 수학이나 분석 관련 전문지식이 없어도 쉽게 이해할 수 있는 것

 ② 산더미 같은 데이터가 아니라 소화할 수 있는 작은 정보

 ③ 일관되고 정확하며 손쉽게 효과적으로 쓸 수 있는 도구

 ④ 한정된 경우에만 쓸 수 있는 것이 아니라 대부분의 경우에 도움되는 것

 ⑤ 사용자가 선호하는 기기나 채널을 통해 언제 어디서나 접근 가능한 것

이어야   한다.




 다른 한편으로는, 통계적 모델을 만드는 과정은 랭킹을 정하는 과정이라 할 수 있다. 사실 의사결정이란 여러 옵션을 바람직한 순서대로 나열하고 고르는 것이다. 모든 결정이 그렇듯 그러한 선택은 한가지 변수로만 이루어지지 않는다. 또한 모든 변수들이 같은 가치를 지니지도 않는다. 결국 랭킹을 정하는 것은 많은 요소들과 그에 연관된 가중치의 합계인 총점, 즉 모델점수(Score)를 만드는 과정이다. 그리고 그것이 바로 많은 데이터가 질문에 대한 대답의 형태로 줄여지는 과정이 된다.


 데이터는 추려져서 작아져야만 의사결정에 도움이 되는 것이고, 그 작아지는 과정의 중심에 통계적 모델이 있으며, 그래서 데이터베이스는 그런 고등분석을 위해 최적화되어 있어야 한다. 그리고 그런 데이터베이스의 구조는 ‘랭킹’이 가능하게 짜여진 것이어야 한다. 많은 경우 모델점수들은 쓰기 편하게 1~10이나 1~20 단위로 나뉘어져 있으며, 수학 전공자가 아니더라도 누구나 모델 그룹 1번부터 사용하는 것이 유익하다는 것을 쉽게 알 수 있다. 의사결정과정은 점수를 통한 랭킹을 바탕으로 여러 옵션 중 최선을 선택하는 것이며, 데이터는 의사결정과정을 도와주는 형태로 존재해야 한다.


 다시 정리하자면, 빅데이터 프로젝트는 ①데이터의 사용 목적을 분명히 하고, ②목적에 도달하기 위한 질문을 수학적으로 구체적으로 표현하며, ③대답을 얻기 위해 통계‧분석을 적극적으로 활용하는 순서로 진행된다. 그리고 이를 위해서는 데이터베이스와 주변 환경이 최적화되어 있어야 한다. 이 순서가 뒤바뀌면 온갖 오류와 시간낭비가 있게 된다. 이와 같은 일은 CDO가 해야 하며, 이를 위해 CDO는 기술적인 지식으로 무장하고 비즈니스를 대변해야 한다. CDO는 빅데이터를 제대로 된 공정을 통해 작게 만들어, 의사결정을 하는 사람들이 수학이나 통계에 대한 지식이 없어도 쉽게 사용할 수 있게 해줘야 한다. 데이터를 수집하여 가공하고, 또 해답의 전달까지 빈틈없이 하는 것이 데이터를 다루는 사람들이 해야 할 일인 것이다. 


 분석이란 단지 통계 작업뿐 아니라 데이터 통합과 각종 프로세스 등 많은 과정을 거치는 것이며, 작은 프로젝트라도 그런 스텝들을 다 거쳐야 하기 때문에 그 시도 자체가 훌륭한 연습이 된다. 대규모 빅데이터 프로젝트를 추진하기 전에 작은 성공사례를 많이 만들어보는 것이 바람직하다. 작은 프로젝트를 다루더라도 그 일을 제대로 마치기 위해서는 모든 과정을 한번씩은 거쳐야 하는 법이다.





3. 빅데이터의 핵심은 분석분석의 중심은 모델링


 데이터 방면에서 ‘고수’ 소리를 들으려면 데이터의 ①수집(Collection), ②가공(Refinement), ③전달(Delivery), 이 세 가지를 다 잘해야 한다.

 이중에서도 데이터의 가공과정이 핵심이라고 할 수 있다. 데이터의 용량이 커지고 의사결정 속도도 더 빨라져야 하는 환경에서는 이 과정이 필수적이다. 버릴 것은 버리고, 고칠 것은 고치며, 빈 곳이 있으면 메워주고, 확답을 주기 어려우면 확률로 표현하는 것, 이 모든 과정이 모두 가공과정이다. 그리고 데이터 가공의 중심에는 Analytics, 즉 분석과정이 자리잡고 있다. 우리가 일상생활에서 늘 대하는 일기예보도 많은 정보를 압축한 모델링에 기초한 것이다.


 데이터는 가공되어야만 가치가 올라간다. 그냥 모아놓은 데이터(Raw Data)와 가공된 대답(Refined Answer) 사이에는 원유와 휘발유만큼의 차이가 있다. 마케팅의 예를 들자면 구매기록, 사용한 상품, 구매한 채널, 설문조사에 대한 대답, 그리고 대상자들의 인구적 데이터(Demographic Data)가 가공되지 않은 데이터의 예가 될 수 있다. 그런 단편적인 데이터들은 ‘도움’은 될지 몰라도 ‘대답’까지 주지는 못한다. 마케터들이 알고 싶어하는 것은 ‘누가 무슨 물건에 관심이 있는가’, ‘어떤 고객이 VIP가 될 것인가’, ‘누구에게 credit을 줄 것인가’, ‘가격이 지역과 채널에 따라 최적화되어 있는가’, ‘어디에 매장을 열어야 수익이 극대화될 것인가’ 등이지 단지 나열된 데이터가 아니다.




 미국의 경우 데이터 분석이 가장 활발히 이루어지는 분야는 역시 마케팅이다. 미국 내 마케팅 분야의 데이터 분석과정, 즉 모델링은 이미 60년대말 70년대초부터 이루어져왔으며, 통계적 이론은 지금도 그대로 적용할 수 있는 수준이다.

 마케터가 알고 싶은 것은 크게 나누어 ‘①과연 특정상품을 판매할 때 누구에게 우선 접근해야 하는가, ②그 대상에게는 어떤 경로로 무슨 제안을 갖고 접근해야 할 것인가’이다.


□ 마케팅 분야에서의 분석과정 분류

 * BI(Business Intelligence) Reporting: Dashboard Reporting이라고도 함. 현재 어떤 일이 일어나고 있는지를 정확하고 일목요연하게 보여주는 작업. 경영자의 입장에서는 자신들의 의사결정이 어떤 결과를 가져오고 있는지 알 수 있게 해주는 중요한 분석과정

 * Descriptive Analytics: 마케팅 대상을 정밀하게 묘사하는 것이 목적인 분석. Profiling, Segmentation, Clustering 등이 여기에 해당. 예) 주요 고객이 30~40대, 여성이며 학부형일 가능성이 높고, 주거주지는 OO지역이며, 생활수준은 어느 정도이고, 라이프 스타일은 어떠함 등으로 묘사하는 것

 * Predictive Analytics: 대상의 미래 행동에 관한 예측을 통계적 확률로 표현하는 것. 흔히 언급되는 통계적 모델링이 여기에 속함. 예측적 모델은 현대 분석의 핵심이며, 분석결과인 모델점수(Score)는 다양한 데이터를 함축적으로 내포하고 있음. 이에 따라 빅데이터 시대에 복잡한 정보를 간결한 대답의 형태로 의사결정자들에게 전달하는 도구로서 그 중요성이 강조되고 있음




 통계적 모델링의 중요한 기능은 ①복잡하고 방대한 양의 데이터를 간단한 ‘점수’로 변환시키는 것과 ②‘unknown’을  ‘potentials’로, ‘모르는 부분’을 ‘가능성’으로 변환시키는 것, 즉 데이터에 존재하는 수많은 구멍을 추정치로 메워주는 것이다. 

 통계적 모델이란 어느 상이한 두 집단의 차이점에 대한 수학적 표현이다(서비스의 사용자와 비사용자, 캠페인에 반응하는 사람과 무관심한 사람, 수익률이 높은 고객과 그렇지 않은 고객 등). 모델링의 첫 번째 관문은 이런 추상적인 개념을 수학적으로 표현하여 ‘타깃’을 만드는 일이다. 수천 개의 변수가 포함된 데이터베이스를 대상으로 모델링 하는 것은 매우 어려운 작업이다. 수천 개의 변수 중 두 집단의 차이를 설명할 수 있는 변수로 뽑혔다 해도 그 중요성(가중치)까지 같은 것은 아니다. 그 차이를 나타내는 가중치에 따라 값이 달리 매겨지며, 그것을 합산한 것이 우리가 말하는 모델점수, 즉 score가 된다. 이 점수에는 그야말로 수천 개의 변수가 고려되고, 그 과정에서 걸러진 많은 정보가 사용자가 쓰기 편하게 함축되어 있다. 이러한 과정을 거친 통계적 모델은 일반인의 직관에 비해 훨씬 정확하고 효과적이다.


 데이터로부터 대답을 찾으려면 데이터가 목적에 맞게 다시 정리되어야 한다. 고객을 효과적으로 상대하는 것이 목적이라면, 데이터베이스도 ‘고객중심’으로 잠깐이라도 재구성되어야 고객의 우선순위를 정하는 모델을 짤 수 있다. 대상이 상품이라면 상품별로 다시 구성되어야 하고, 지역을 찾는 게 목적이라면 지역별로 뒤집어봐야 한다. 그런데 그렇게 데이터를 보다 보면 없는 부분, 즉 missing data가 엄청나게 발생한다. missing data의 발생은 데이터를 다루면서 피할 수 없는 것이다. 모델은 그 빈 곳을 효과적으로 채워 넣는 역할도 할 수 있다. 그것이 꼭 정답이 아니고 ‘아는’ 데이터에 기초한 것이 아닐지라도, 질문에 대한 대답을 빈 곳 없이 확률이나 점수로 표현할 수 있다는 것은 대단히 의미 있는 일이다.


 현대 분석의 핵심인 ‘예측’에 대해서도 우리는 모델을 사용함으로써, ‘이미 알고 있는 정보’에 기반하여 ‘지금은 알 수 없는 대상’에 관한 예측을 할 수 있다. 과거의 행동은 미래의 행동을 예측하는 데 있어 가장 강력한 변수이다. 예를 들어 모바일 기기에 어떤 새로운 기능이 생겼을 때 그것을 이미 사용한 사람들의 데이터를 이용해 아직 사용하지 않는 사람들 중 누가 사용가능성이 높은지 등을 통계적 확률로 예측할 수 있다.


 통계적 모델링은 어려운 일이지만, 데이터를 스마트하게 만드는데 있어 필수적인 과정이다. 복잡하고 많은 데이터를 간결하게 만들고, 빈 곳도 채워주는 가장 효과적인 방법이다. 우리가 전에 알 수 없었던 새로운 패턴들을 찾게 해주고, 질문에 대한 대답을 수많은 데이터를 함축한 숫자, 즉 점수로 표현하게 해주며, 그 점수를 갖고 모르는 부분, 즉 빈 곳을 채우고, 이를 통해 또다시 미래에 대한 예측을 가능하게 한다. 적절한 절차를 거친 모델은 설사 수학적으로 완벽하지 않더라도 모델을 아예 사용하지 않은 것에 비해 더 좋은 결과를 가져온다. 아무리 시험적인 데이터의 사용이라도 기본만 갖추면 경영자의 직관에만 의존하는 것보다 훨씬 바람직하다. 현대 경영에서는 예측이 가능한 성공방식이 중요하며, 이와 같은 정보의 집적성과 일관성은 정보의 가공과 사용시간 절약에도 큰 효과가 있다.





4. 분석을 위한 데이터


 빅데이터는 자세히 보면 구멍투성이이다. 자원으로서의 빅데이터를 잘 활용하기 위해서는 ①수많은 데이터에서 잡음을 제거하고 요점을 찾는 것과 ②빈 곳을 채우는 것 – 이 두 가지를 우선 시 해야 한다. 

 대부분의 데이터는 이미 숫자의 형태를 가지고 있고, 숫자란 원래 분석을 위한 형태를 지니고 있다. 그런데 빅데이터 중에는 숫자 형태가 아닌 것들이 많다. 요즘 수집되는 많은 데이터는 가공되지 않은, 정형화되지 않은, 구분되어있지 않은, 수정되지 않은 ‘자유형 데이터’들이다.

  쌓여있는 데이터에서 의미를 찾아내는 것이 빅데이터의 핵심이지만, 가공되지 않은 데이터는 고등분석에 결코 활용될 수 없다. 숫자로 표현되지 않은 데이터를 걸러내고 가공하며 범주화, 즉 카테고리화하는 작업은 고되고 많은 비용과 시간이 소요되는 일이다. 하지만 분명한 것은 그것이 컴퓨터를 이용한 것이건 사람들이 달라붙어 한 일이건 분명히 가치 있고 꼭 필요한 일이라는 것이다.


정보의 부재에도 의미가 있다.

 분석이란 원래 ‘있는 정보의 효용을 극대화하는 것’이다. 훌륭한 분석 전문가는 완벽한 데이터 셋이 만들어지기를 기다리지 않으며, 사실 아무리 기다려봐야 그런 데이터 셋은 나타나지 않는다. 게다가 정책결정자들은 대부분 무작정 오래 기다려주는 사람들이 아니며, 그들은 80%의 신뢰도를 지닌 대답을 오늘 당장 듣는 것이 99% 확신하는 대답을 3개월 후에 듣는 것보다 낫다고 생각하는 경우가 많다.


 의사결정이란 여러 옵션들에 대해 랭킹을 매겨 고르는 것이며, 그 순서 매김을 제대로 하려면 미래예측용 통계적 모델을 사용하여 그 랭킹의 대상을 점수로 표현해야 한다. 그리고 그러한 랭킹을 위한 모델을 제대로 짜려면 데이터 자체가 그 순서를 매기는 대상, 즉 가구, 개인, 이메일 주소, 회사, 상품 등의 레벨로 먼저 집적되어야 한다. 그렇기 때문에 거래 별, 혹은 이벤트 별로 정리된 데이터는 그 사용의 목적이 소비자를 대상으로 한 마케팅을 위한 분석이라면 소비자 중심으로 변환되어야 한다. 문제는 이와 같이 데이터를 틀어서 보기 시작하면 많은 빈 곳이 생길 수 밖에 없다는 점이다.


 데이터 분석‧활용 과정에서 Missing Data는 늘 일상적으로 발생한다. 그러나 정보의 부재, 즉 Missing Data에도 의미가 있으며, 게다가 모든 Missing Data가 다 같은 의미를 갖는 것이 아니다. 예를 들어 ‘0’이 절대로 정보의 부재를 표현하는 수단으로 쓰여서는 안 된다. ‘가구당 자녀 수’라는 간단한 정보를 수집, 저장한다고 할 때, 0이란 숫자는 정말로 해당 가정에 자녀가 없다는 것이 확인된 경우에만 쓰여야 한다. 그렇지 않을 경우에는 ‘.’으로 표시하거나 아예 빈 곳으로 놔두는 것이 0을 사용하는 것보다 훨씬 바람직하다. 분석 전용 소프트웨어는 없거나 계산불능인 숫자를 ‘.’으로 처리하는 경우가 많다.


 정보가 없다고 빈 곳이 늘 빈 곳으로 남아있어야 하는 것은 아니다. 통계적 모델을 이용해 추정된 값으로 비어있는 곳을 메우는 방법도 있다. 실제로 미국에서 전문적으로 데이터를 수집하여 판매하는 회사들은 Missing Data를 통계적으로 추론된 추정치로 대체하여 사용하곤 한다. 추정치를 사용하는 것은 흔한 일이며, 이런 변수를 사용하는 것도 제대로 알고만 사용한다면 별 문제가 되지 않는다. 통계적 추정치를 사용하는 것이 어림짐작으로 의사결정을 하는 것보다 백 번 낫기 때문이다. 추정치를 만드는 과정을 대치법(Imputation)이라고 한다.


 데이터의 일관성은 모델이나 공식의 질보다 더 중요하다. 따라서 대치법에 있어서도 정확도보다 중요한 것은 적용방법에 대한 조직 내의 일관성이다. 일관성을 가지면 모든 사용자와 분석가들이 데이터에 대해 동일한 조건을 부여하고 프로젝트를 진행할 수 있게 된다. Missing Data에 대해 가이드라인을 잘 따름으로써 일관성을 확보하면 분석과 모델에 사용되는 변수들이 훨씬 다양해질 것이고, 모델들의 예측능력과 사용기간도 더 연장될 것이다. 통계적 모델에도 유효기간이 있는데, 불규칙하고 일관되지 않은 데이터는 분석모델의 수명을 더 빨리 단축시킨다.


 ‘정보의 부재’에도 의미가 있다. 그런 숨은 의미는 Missing Data를 제대로 다룰 때에만 모습을 드러내는 법이다. 그리고 데이터를 다루는 사람이라면 우리가 모든 것에 대해 모든 것을 알게 되는 날까지 Missing Data의 처리와 관리에 관심을 두어야 한다.


데이터베이스는 분석을 위해 최적화되어야 한다.

 데이터베이스는 명확한 목적을 갖고 디자인되어야 한다. 사용자가 지식이 부족하여 ‘스포츠카만큼 빠른 트럭’을 요구할 경우, 정확히 사용자에게 필요한 것이 무엇인지 조사하여 ‘대형 밴 50대’와 같이 합리적인 제안을 할 수 있어야 한다. 목적이 불분명하게 설계된 데이터베이스로부터는 질문에 대해 제대로 된 답을 얻기 힘들다.


 예를 들어 마케팅을 위해서는 데이터 구조 자체를 고객 중심으로 요약/집적해야 한다. 데이터 분석 이론이나 방법론에 의한 성과 차이는 소수점 단위이지만, 제대로 정리되어 있지 않는 데이터는 프로젝트 자체를 파탄에 빠뜨릴 수 있다. 즉 모델이 짜여지기 전과 후의 과정이 잘 되어있어야 결과적으로 의사결정자들이 원하는 대답을 얻을 수 있으며, 전 과정이 제대로 된 공정을 통해 관리되어야 모델이나 분석의 결과가 일관되고 빠르게 나온다. 그런 공정을 만드는 것은 단지 통계 전문가나 분석가에게 맡겨서 가능한 것이 아니며, 계획수립 단계에서부터 중역들과 IT 관련 부서들이 협조하여 독립 프로젝트로서 제대로 투자, 추진해야 한다.





 프로젝트가 잘못되는 경우 원인을 살펴보면, 데이터베이스 구조 자체에 문제가 있거나 많은 변수들이 제대로 정리되어 있지 않은 경우가 많다. 이런 경우 프로젝트 기간의 80~90%를 데이터를 고치고 가공하는데 소비하게 된다. 데이터베이스는 분석, 특히 통계적 모델에 최적화되어 있어야 한다. 통계 전문가들이 데이터를 고치는데 시간을 허비하지 않고, 타깃 설정과 모델링 방법론 연구에 시간을 투입할 수 있도록 해야 한다. 데이터베이스 최적화 없이는 분석 프로젝트가 절대로 제대로 진행될 수 없다. 데이터베이스 설계의 가장 중요한 목적은 분석이나 통계 전문가들에게 ‘전혀 더 이상의 가공이나 수정이 필요 없는’ 양질의 데이터를 제공하는 것이어야 한다. 이러한 환경에서는 분석가들이 타깃의 정의와 비즈니스 목적을 이루기 위한 방법을 생각하는 데에 대부분의 시간을 쓰게 될 것이다.

 일관된 비즈니스 룰과 정형화된 변수들을 갖춘, 목적에 적합한 전용 DB(또는 데이터 마트)를 갖추게 되면, 비로소 데이터는 분석에 최적화되었다고 할 수 있다. 이런 환경 속에서는 통계적 모델링이나 기타 고급분석 활동들이 탄력을 받게 된다. 다음의 예시는 분석(Analytics)과 모델을 위주로 한 Analytical Sandbox, 즉 분석 전용 데이터마트가 어떠한 과정을 아우르고 있어야 하는지를 보여준다.


 이 도표에서 데이터베이스를 나타내는 원통의 오른쪽에 우리가 흔히 말하는 모델을 만드는 과정들이 나열되어 있고, 왼쪽에는 분석을 위해 데이터를 수집, 가공하는 과정이 나열되어 있다. 수집된 데이터는 정해진 룰에 따라 걸러지고 수정되고 보완되어야 하며, 많은 자유형태의 변수들은 카테고리별로 구분되어야 하고, 숫자로 표현되는 데이터 또한 규격화되어야 한다.




데이터의 유용성 평가 기준

 데이터의 유용성은 데이터베이스의 내용과 설계, 그리고 그것을 운영하는 방식에서 비롯된다. 다음은 좋은 데이터베이스를 평가하는 9가지 기준이다.


 ① 깊이(Depth)

 데이터베이스의 구축 목적이 명확하고, 목적에 적합하게 디자인되어 있는가를 말한다. 사용자들에게 편리하도록 변수를 전환해놓았거나 모델을 이용해 점수화 해놓은 변수들이 있다면 가산점을 받아 마땅하다. 단순히 많은 변수를 나열해놓은 것보다 사용자의 질문에 대한 대답의 형태를 갖추고 있을수록 데이터의 효용성이 훨씬 커지기 때문이다.


 ② 너비(Width)

 데이터가 갖는 커버리지, 즉 정보의 범위를 말한다. 변수가 다양하고 데이터베이스의 깊이가 있더라도 커버리지가 넓지 않으면 무용지물이다. 예를 들어 한 회사만의 신용카드 데이터를 이용해 사용자 분석을 하면 그 결과는 크건 작건 편향성(Bias)에서 자유로울 수 없다. 데이터를 다루면서 커버리지는 항상 유념해야 할 사항이다. 다만 수집된 데이터의 한계를 알고 사용하면 그런 분석의 결과도 아주 유용할 수 있다.


 ③ 정확성(Accuracy)

 말 그대로 데이터가 오류 없이 얼마나 정확한가를 말한다. 잘못된 데이터로부터는 잘못된 분석결과가 나올 수 밖에 없다. 데이터 생성, 수집, 가공 전반에 있어 오류를 방지하기 위한 노력은 항상 있어야 한다. 틀린 데이터는 오히려 손해를 유발할 수 있다.


 ④ 최신성(Recency)

 데이터에도 유통기한이 있다. 시간이 지나면 데이터도 정확성을 잃게 마련이다. 진부하고 오래된 데이터는 예측이나 분석에 도움이 되지 않으며, 그 자체가 오류로 작용할 수 있다. 예를 들어 미국에서는 ‘Hot Line Name’, 즉 ‘특정 상품 카테고리에 현재 관심을 두고 있는 사람들의 명단’이 비싼 값에 거래되고 있는데, 관련된 상품에 따라 다르지만 그런 데이터도 길어야 2~3개월이면 사실상 효용을 다한다.


 ⑤ 일관성(Consistency)

 예측적 분석에 있어 데이터의 일관성은 정확성보다 더 중요할 수도 있다. 같은 데이터에 대해 일관성이 확보되어 있지 않으면 분석에 혼란이 야기되기 때문이다. 오히려 정확하지 않은 정보도 ‘일관성 있게 틀리면’ 예측모델에서는 유용하게 쓰일 수 있다. 그러나 일관성이 무너진, 성격이 크게 다른 데이터가 혼재되어 있으면 모델링이 불가능하고, 판을 갈아엎고 모델을 다시 짜야 하는 사태도 벌어진다.


 ⑥ 연결성(Connectivity)

 데이터에도 여러 종류가 있다. 그리고 데이터의 예측성은 여러 가지 다른 타입의 데이터가 함께 사용될 때 증폭된다. 이것은 어떠한 데이터도 완벽하지 않으며, 다른 종류의 데이터들이 모델 공식 내에서 서로 다른 역할을 하기 때문이다. 그런데 이를 위해서는 데이터들을 서로 연결할 수 있는 연결고리가 반드시 있어야 한다. 연결이 안 되는 데이터는 고립될 수 밖에 없고, 당연히 효용성도 떨어진다. 연결고리가 없다는 것은 아주 일을 망치는 요소는 아니지만, 분석가들의 행동범위를 현저히 좁히는 요소이다.


 ⑦ 전달방법(Delivery)

 데이터베이스는 당연히 그 내용이 중요하지만, 현실적으로 데이터를 ‘보여주는’ 툴셋도 중요한 평가기준이 될 수 밖에 없다. 정책결정자가 선호하는 도구를 통해 적시에 대답이 전달되지 않으면 그 데이터 자체가 소용이 없어지기 때문이다.


 ⑧ 사용의 용이성(User-friendliness)

 데이터에 관한 모든 것은 쉽게 해야지 어렵고 복잡하게 해서는 안 된다. 간단한 데이터 변수, 직관적인 변수의 이름, 의미 있는 데이터 값, 미래 대답의 형태로 만들어놓은 정보, 완전한 데이터 사전 등은 데이터베이스를 힘들여 구축하고 관리함과 더불어 당연히 있어야 할 요소들이다.


 ⑨ 비용(Cost)

 개발과 유지 비용이 중요한 것은 사실이다. 그러나 가격표만 보고 데이터베이스나 데이터 소스를 평가해서는 곤란하다. 데이터를 사용하는 데에는 하드웨어, 소프트웨어, 플랫폼, 툴셋, 유지비, 그리고 가장 중요한 인적 비용 등 비용 요소가 많다. 데이터베이스를 만드는 것은 건물 짓는 것과 비슷한 점이 많다. 비용도 여러 관점에서 생각해야 하며, 분명한 목적과 그에 부합하는 사전설계 없이 일을 추진하면 돈만 허비하고 실패한다는 점에서도 유사하다. 비용은 여러 가지 고려사항들 중 하나일 뿐이다. 아무리 오픈소스와 클라우드 컴퓨팅의 시대라 하여도 ‘발생하는 데이터는 그냥 모두 모아놓자’라는 식의 목적이 분명하지 않은 사업은, 제대로 계획된 프로젝트에 비해 비용과 시간이 열 배가 소요되어도 마무리 지어지지 않는 경우가 많다.




데이터의 통합된 흐름체계 필요

  데이터 프로젝트의 또 다른 문제는 내부에 있는 데이터들이 부서별로 흩어져 통합되지 않아 생긴다. 즉 회사 전체의 이익을 염두에 두고 구축된 정보의 흐름체계가 부재하기 때문에 생긴다. 그리고 데이터의 통합과 흐름은 정책결정자들이 풀어줘야 할 문제이지, 툴셋으로 해결될 수 있는 것이 결코 아니다. 데이터란 통합되고 가공될 때 비로소 가치가 극대화되는 것이며, 거기에는 또한 많은 공정이 존재한다.




분석에 최적화된 데이터플랫폼 구축 전략의 주요 단계(마케팅을 사례로)


 1. 질문의 공식화(Formulate Questions)

  목적에 상응하는 DB를 구축하려면 질문이 명확해야 한다. 어떤 문제를 해결하기 위해 분석과 데이터를 다루려고 하는가? 이것이 미비하면 ‘날기도 해야 하는 승용차’를 만들려는 상황이 벌어진다.


 2. 데이터 현황조사(Data Inventory)

  어떤 조직이든 생각보다 많은 데이터를 보유하고 있는데, 쉽게 눈에 띄지 않는 경우가 많다. 데이터를 관리하고 있는 모든 사람들을 인터뷰하여 현황을 정확히 파악해야 한다.


 3. 데이터 수정 및 정형화(Data Hygiene and Standardization)

  조사된 데이터들은 추려지고 고쳐져야 한다. 유사한 내용이지만 형태가 다른 데이터의 형식을 일치시키고, 자유형(비정형) 데이터는 특별히 관심을 더 기울여 통계분석에 활용 가능하도록 정리해야 한다.


 4. 고객 정의(Customer Definition)

  한 조직 내에도 고객에 대한 정의가 여럿 있을 수 있다. 따라서 고객번호, 이메일, 이름, 주소 등 고객 관련 모든 사항을 고려하여 통합 정의해야 한다. 일관되고 신뢰할만한 고객 ID 시스템은 고객중심 DB 구축의 근간이 된다.


 5. 데이터 통합(Data Consolidation)

  일관된 고객 ID 시스템이 구축되면 부서별로 곳곳에 흩어져 있거나 일관되게 정리되어 있지 않은 데이터들을 새 ID 중심으로 통합해야 한다.


 6. 데이터 변형(Data Transformation)

  고객 중심으로 모인 거래 및 이벤트 데이터는 카테고리화와 집적과정을 거쳐 개개인 고객을 묘사하는 새로운 변수로 재탄생 되어야 한다. 예를 들면 거래 별로 정리되어있는 날짜나 액수도 개인별 총액, 평균거래액수, 최종거래일로부터의 기간 등으로 집적‧변형되어야 한다. 이는 비즈니스, 데이터, 분석에 대한 전문지식과 경험을 모두 요구하는 가장 중요한 공정이다.


 7. 분석 프로젝트(Analytical Projects)

  새로이 구축된 고객중심의 데이터 플랫폼을 토대로 데이터 샘플링과 모델 구축을 비롯한 시험 프로젝트를 처음부터 끝 단계까지 실행해본다. DB란 고정된 것이 아니라 살아 숨쉬는 유기체이므로 처음부터 모든 걸림돌과 애로사항을 찾아낼 수 없다. 따라서 반복적인 테스트를 통해 시행착오를 줄이고, DB와 툴셋에 익숙해져야 한다.


 8. 정보 적용(Applying the Knowledge)

  분석 프로젝트의 결과를 전체 DB를 대상으로 적용하여 실제 마케팅에 활용한다. 샘플데이터로 만든 모델을 전체 DB에 적용시키는 과정에서 여러 가지 문제가 발생할 수 있으나, DB가 고객중심으로 구성되어 있고, 변수들 또한 일관된 형태로 존재한다면 이에 대한 대응은 그리 어렵지 않을 것이다.


 9. 결과 분석(Result Analysis)

  마케팅과 캠페인에 대한 결과를 분석하고 DB에 재입력해 다음 번 마케팅부터는 새로이 업데이트된 데이터가 적용될 수 있도록 한다.


  이 단계들은 간추려진 과정이며, 각 단계들은 독립된 프로젝트로 기획‧관리되는 것이 좋다.



 데이터 프로젝트는 IT팀, 분석팀 혹은 사업부서가 독자적으로 추진할 일이 아니다. 그것은 그들 중간 어디엔가에서 이루어져야 한다. 데이터 프로젝트에 관한 의사결정은 비즈니스의 관점에서 이루어져야지, 만약 CDO(Chief Data Officer)나 프로젝트 책임자가 IT 관점에서만 판단하고 일을 처리하면 프로젝트는 망쳐지기 쉽다. CDO는 항상 ‘비즈니스의 목적’을 최우선 순위에 놓고, 그 목적에 따른 질문에 대답을 주기 위해 분석과정을 진행해야 한다. 그리고 모든 데이터와 데이터베이스는 고등분석을 위해 최적화된 모습으로 존재하도록 만들어야 한다.





5. 현실 속의 데이터과학자


 미국처럼 시장이 크고 데이터 산업이 다년간 발전해온 나라에서도 사업가·분석가·프로그래머·통계전문가의 자격요건을 모두 갖춘 사람은 사실상 없다. 설령 있다 하더라도 시장에 나와있지 않고, 이미 기관 내에서 중역을 맡고 있을 가능성이 크다.


 고등분석을 위한 데이터 수집, 가공, 분석 업무는 비즈니스 분석가, 프로그래머, 통계전문가의 세 영역으로 분산되어 추진된다. 그리고 그런 과정은 어김없이 팀워크로 이루어진다. 이 세가지 영역 중에서 단 한 분야에서 마스터급의 전문가가 되는 것도 결코 쉽지 않다. 통계 작업과 데이터베이스 작업은 아주 다른 소양을 필요로 하며, 이 두 가지를 프로급으로 잘하는 사람들은 정말 드물다.


 분석전문가나 데이터 과학자는 비즈니스의 당면과제와 궁극적인 목적을 제대로 이해하고, 당면과제들을 해결하기 위해 사용할 기술과 데이터의 한계 내에서 프로젝트 스펙을 만들어 일을 추진하며, 또 그 결과를 일반적인 언어로 소통할 수 있는 사람이어야 한다. 현실적으로 분석전문가(혹은 데이터 과학자)가 통계전문가나 데이터베이스 전문가까지 되는 것은 어렵기 때문에, 대신 이들이 집중해야 할 일은 IT와 비즈니스의 중간에서 양쪽을 연결하는 일이다. 이를 위해 필요한 자질은 처리해야 될 일들이 어떤 것인지를 정확하게 파악하고, 자신의 의사를 기술전문가들과 (기술적인 요소들과는 무관한) 의사결정자들에게 논리적으로 분명하게 전달할 수 있는 능력이다. 따라서 데이터과학자에게는 비즈니스적 요건이 IT적 자질이나 통계적 지식, 모델링 노하우보다 더 중요하다고 말할 수 있다.


 영화감독들은 대부분 그들이 직접 각본을 쓰지 않고, 카메라도 잡지 않으며, 특수효과도 만들지 않고, 연기를 직접 하지도 않는다. 하지만 그들은 영화를 만드는 과정의 모든 요소를 잘 이해하여 사용하며, 그들의 비전을 관객들이 볼 수 있는 작품으로 완성하는 사람들이다. 만약 어떤 영화감독이 어떤 한 요소, 예를 들자면 특수효과에만 치중해 영화를 만들면 그 결과물은 두 시간을 앉아서 봐주기도 어려울 것이다. 데이터 비즈니스도 이와 마찬가지이다.


 데이터과학자를 현실 속에서 찾기 어렵고, 아직 데이터 분석 역량이 조직에 내재화되지 못한 경우가 대부분인 것이 현재의 상황이다. 때문에 데이터 분석 일이 아주 많아지고 회사 전체의 의사결정과정이 데이터를 통해 이루어지는 시기가 오기 전까지는 내부에서 모든 일을 해결하려 하기보다는 아웃소싱을 적절히 이용하는 것이 낫다. 모든 일을 직접 해결하려고 들면 투자액이 기하급수적으로 늘어나게 되고, 그렇게 되면 그 일의 결과가 ‘대박’으로 받아들여지지 않는 이상 모두 ‘실패’로 여겨지게 되기 마련이다. 하지만 데이터를 사용했다고 매출이 갑자기 몇 배로 올라가는 경우란 아주 드물고, 이 모든 것은 꾸준하고 점진적인 발전을 통해서 이루어지는 일이다.


 특히 한국에서는 모든 데이터 활동을 내부적으로만 해결하려고 하는 경향이 있는 듯한데, 그것은 결코 바람직하지 않고 가능하지도 않다. 마치 음식을 조리할 때 간장이 필요하다고 모든 가정에 간장공장을 차려놓는 격이다. 규모의 경제를 생각하면 몇몇의 간장공장이 매장을 통해 상품을 필요한 사람들에게 판매하는 것이 훨씬 효율적이고, 게다가 전문성을 키우게 되어 제품의 질도 향상되는 법이다.


 CRM을 실패라고 부르는 많은 경우에도 내용을 보면, 회사 안에서 배울 사람도 없이 몇몇 사람이 머리를 쥐어짜서 그 모든 일을 해결하려고 들다 보니, 당연히 수십 년 간 노하우를 쌓아온 전문회사들의 수준으로 성과를 낼 수 없었고, 게다가 부서이동이 많은 기업풍토에서 전문성을 유지하기도 힘든 여건이었던 것을 알 수 있다. 과도하게 투자하고 전문성을 확보하지 못해 결과가 좋지 않은 것을 CRM 자체가 틀린 것이라고 하는 것은 옳지 않다. 빅데이터도 마찬가지이다. 조직 내 몇몇 사람들이 하둡, 파이썬이나 R을 깨친다고 해서 데이터 생태계 안의 모든 일이 가능해지지는 않는다. 데이터에서 의미를 찾아내는 것도 공정을 따라야 하는 것이고, 아무리 날고 긴다는 조직도 모든 분야에 정통할 수는 없다. 그래서 툴셋이 흔한 시절임에도 불구하고 아웃소싱이 각광받고 있는 것이다. 데이터나 분석에서 전문가의 도움을 청하는 것은 영화감독이 배우나 카메라 감독을 섭외하는 것만큼 당연한 일이다. 감독이 각본 쓰고 카메라 메고 연기까지 혼자 다 할 것이 아니라면 말이다.





6. 정보의 보호와 공유 사이의 딜레마


데이터와 프라이버시

 한국에서는 많은 사람들이 데이터의 소유권은 그 종류에 상관없이 모두 원 주체에게만 있다고 여기는 것 같다. 반면 미국에서는 데이터를 모은 사람의 노동의 대가도 인정해주며, 축적한 데이터를 이용하여 이전에 없던 파생상품을 만들어내면 거기에 대한 지적소유권까지도 인정해준다.

  미국에서는 정보를 사고파는 사업의 규모가 엄청나며, 사업체들이 모아놓은 정보를 타 회사들과 공유하고(민감한 정보는 제외), 심지어는 데이터에 대한 매매수익을 얻으며, 그런 거래를 알선하는 중개상(List Broker)까지 존재한다.



미국 DDMI(Data-Driven Marketing Institute)에 따르면, 2014년 미국 내 마케팅 분야의 ‘데이터 가공 및 거래 활용 관련 산업’은 2,020억달러의 경제적 가치와 약 97만개의 일자리를 창출함



 미국에서는 데이터의 소유권과 프라이버시에 관한 문제를 별개로 보고 있다. 이렇게 개방적인 나라는 전세계에 미국 밖에 없고, 유럽에서는 영국이 다소 개방적이며, 다른 EU국가들은 개인정보 매매에 엄격한 편이다. 그러나 한국처럼 개인정보의 이동을 원천적으로 봉쇄해놓은 나라 또한 드물다. 


정보의 보안은 은행이 금고를 지켜야 하는 것처럼 당연한 일이다. 그러나 해커들의 존재 때문에 데이터를 활용하지 못하게 하는 것은 은행강도가 존재한다는 이유로 은행 문을 다 닫게 하는 것과 같은 대처 방법이다.


 물론 미국처럼 정보교환이 자유로운 나라에서도 민감데이터는 유출될 경우 범죄에 악용되고 개인의 프라이버시를 침해할 수 있기 때문에 철저하게 관리되고, 문제가 생겼을 경우 책임을 분명히 하고 있다. 신용카드번호, 사회보장번호(Social Security Number), 면허증번호, 여권번호, 은행계좌번호, 의료보험내역, 진료기록 등이 민감데이터라 할 수 있는데, 이와 같은 데이터는 금융거래 등 절대로 필요한 경우가 아니면 아예 수집조차 하지 않으며, 불가피하게 보유해야 하는 민감데이터는 일반데이터와 별도로 분리하여 관리한다. 사실 목적 없이 데이터베이스 안에 존재하는 민감데이터는 보안에 부담만 될 뿐이다.



할 수 있는 일이라고 다 해서는 안 된다.

 기술이 발달하면서 고객들을 접촉하기가 수월해졌지만, 그만큼 사람들을 화나고 짜증나게 할 가능성도 높아졌다. 데이터를 다루는 사람들 대부분이 그들의 ‘한시적’ 관리 하에 있는 정보를 계속 남용하면 특정 접촉 채널 자체가 고사해버리는 수가 있다. 심한 경우 입법부에서 아예 특정 정보 사용을 원천적으로 봉쇄해버리게 되는 경우도 충분히 가정해볼 수 있다. 한국이 미국에 비해 정보공유금지에 관한 법이 훨씬 강력하게 된 이유 중 하나는 초기에 정보를 남용하고 관리를 잘못하여 범죄에 이용되기까지 한 일이 있었기 때문이다.

  범죄적 의도로 정보를 훔치려는 사람들의 접근을 차단하는 것은 데이터를 다루는 사람들의 의무 중 하나이다. 데이터는 강력한 도구이며, 잘못 다루면 실제로 다치는 사람들이 생길 수 있다. 정보관리를 제대로 못하거나 정보를 남용해 고객들에게 피해를 입히거나 악의적으로 사용해서는 안 된다. 이에 대한 책임은 제도적으로 분명히 하는 것이 당연하다.



 데이터라고 다 같은 것이 아니며, 사용하기에 따라 개인정보와 민감정보를 보호하면서도 얼마든지 고객에게 유익한 활동이 가능하고, 실제로 그런 것이 일상화되어 있는 나라들도 많다. 민감데이터를 철저히 관리하는 것은 너무도 당연한 일이나, 정보의 유통을 원천적으로 막아놓는다고 모든 것이 해결되는 것은 아니다. 데이터의 종류를 제대로 인식하고 그 종류에 따라 따로 관리하면서 규제도 다르게 하는 것이 해법이다. 합법적인 데이터 교류의 통로가 열리면 더 양질의 데이터가 전문적 분석을 통해 좋은 목적으로 사용될 것이며, 나쁜 의도를 가진 사람이 데이터의 암시장을 통해 유통을 독점하는 범죄적 요소도 줄어들 것이다.


 현대사회에서 데이터는 곧 경쟁력이며, 그래서 정보의 민주화는 경제의 민주화에 직결된다. 민감정보를 제외한 데이터의 자유로운 공유는 일반인도 데이터를 들여다보고 가게 터를 잡을 수 있게 되는 환경을 만들 것이다. 우리는 모두 데이터 수집의 대상이지만 뒤집어보면 우리 모두가 정보의 사용자이다. 빅데이터 시대라면 데이터를 잘 알고 다뤄야 할 도구로 여겨야지 그것을 공포의 대상으로 두어서는 안 된다.



정보의 흐름이 가치를 창출한다.

 어떤 조직이 아무리 재주가 뛰어난 분석가를 고용했다 하더라도 들여다볼 데이터가 변변치 않고, 많은 데이터가 쌓여있더라도 정리가 되어있지 않으며, 데이터를 다룰 도구도 마련되어 있지 않으면 혼자 고생만 하고 아무런 가치도 창출하지 못할 것이다. 데이터 비즈니스도 아주 많은 산업과 관련이 있고, 그것은 한 개인이나 기업이 독자적으로 할 수 있는 일이 아니다. 즉 데이터 산업에도 ecosystem, 나름의 생태계가 존재한다. 미국에서는 소비자나 기업체에 관한 정보가 자유롭게 유통되고, 전국적으로 여러 형태로 흩어져있는 데이터를 표준화해 가치를 창출하는 것이 엄청난 사업이다.


 데이터는 다른 종류와 합쳐질 경우 예측능력이 증가된다. 앞서 언급한 것처럼 어떠한 데이터도 완벽하지 않고, 다른 종류의 데이터들이 모델 공식 내에서 서로 다른 역할을 하기 때문이다.


 미국을 무조건 벤치마킹 할 필요는 없지만, 오랜 세월 동안 데이터의 유통을 자율화한 나라로서의 실상을 보면 외부 데이터 활용이나 타 기업과의 데이터 교류는 물꼬를 터주는 것이 국가적으로 경제적 이익을 가져온다는 것이 확인된다. 실제로 미국의 데이터 관련 산업은 돈으로 환산이 불가능할 정도의 크기이며, 정치, 경제, 생산, 과학 등을 망라해 데이터 산업의 영역에 테두리를 치는 것이 무의미할 정도이다.


 ‘웬만하면 가만 둔다’와 ‘웬만하면 금지한다’라는 태도의 차이는 결과적으로 엄청난 경제적 차이를 만든다. 마케팅 분야의 데이터 생태계만 봐도 수없이 많은 일자리가 창출되어 있다. 일개 데이터 전문광고회사의 1년 매출액이 10억 달러(1조 1,000억원)를 넘어가는 경우가 흔하다. 그리고 그런 경제적 효과가 있는 반면, 데이터가 가공되고 유통되었다 하여 사회의 혼란이 초래되지 않았다.


 정보관리란 프라이버시를 내세워 유통을 차단하는 것만이 능사가 아니다. 데이터를 창출한 근원은 사람이나 특정기업일 수 있으나, 마치 맨 쌀이 떡도 되고 국수도 되고 막걸리도 되듯이 유통과 가공을 거치면서 본래의 모습과는 멀어진, 하지만 새로운 가치를 지닌 다른 종류의 정보로 재창출되도록 하는 것이 진정한 정보관리이다.


 이미 큰 기업들은 매장의 위치를 선정하면서 많은 데이터를 분석, 검토하고 있는데, 퇴직금을 털어 치킨 집을 열려는 50대의 가장은 양질의 데이터에 접근조차 하기 어렵다. 데이터가 넘쳐나는 시대라면서 일반인만 정보를 구할 수 없다는 것은 말이 되지 않는다.


 통로를 다 막아놓고 어디에서부터 가치를 창출할지 아무리 머리를 쥐어짜봐야 할 수 있는 일은 그다지 보이지 않을 것이다. 일단 규제 우선의 구조를 ‘웬만하면 가만 둔다’로 전환하고, 한국 실정에 맞추어가며 천천히, 하지만 분명하게 정보 공유와 교환을 허용하는 것이 좋은 접근 방법이 될 것이다. 그 시작이 어렵다면 음성화되어 있는 정보교환의 장을 온라인 상에 만들어 그것부터 양성화하는 것도 한 방법이다.




 

7. Epilogue - Data Movement의 미래


빅데이터는 비즈니스에 관한 주제이지, ICT나 데이터에 관한 주제가 아니다. 

시장경제란 일단 거래를 할 수 있게 두면 사람들이 알아서 시작하는 법이다. 그것은 이전에는 존재하지도 않았던 하나의 커다란 산업을 만드는 길이며, 또 정보의 독점에서 속히 벗어나는 길이기도 하다. 어쩌면 그것이 창조경제와 경제민주화라 는 두 마리의 토끼를 한꺼번에 잡을 수 있는 방법이 될 수도 있다.


 비즈니스를 하는 사람들은 빅데이터라는 열차에 올라타기 전에 ‘왜 데이터를 다뤄야 하는가’, ‘그것으로 무엇에 대한 답을 얻기 원하는가’에 대한 대답을 반드시 해야 한다. 엄밀히 말해 빅데이터는 비즈니스에 관한 주제이지, ICT나 데이터에 관한 주제가 아니기 때문이다. 데이터 프로젝트는 사업의 목적을 분명히 하고, 분석기술을 통해 주어진 데이터를 원하는 대답의 형태로 계속 줄여 나아가는데 중점을 두어야 한다. 빅데이터도 작아져야 사람들이 이해하고 쓸 수 있는 법이다.


 빅데이터라는 말의 유행으로 인한 바람직한 변화 중 하나는 의사결정에 데이터를 효과적으로 사용해야 한다는 인식이 확산된 것이다. 사람들은 이제 아주 많은 양의 정보도 더 이상 겁내지 않고 보게 되었고, 실제로 데이터를 의사결정과정에 도입하는 조직들도 늘어나고 있다. 많은 이들이 우리가 늘 많은 정보에 둘러싸여 있으며, 그것은 정치, 미디어, 안보, 의료, 치안 등에도 적용할 수 있다는 것을 알게 되었다. 또한 많은 다른 종류의 데이터가 함께 사용되기 시작했는데 이것은 매우 고무적인 일이며, 그러한 접목을 위한 활동들은 앞으로 데이터 분석가들의 예측력을 더 발전시킬 수 있는 토양을 제공하게 될 것이다. 그리고 머지않아 이것이 빅데이터 운동의 중심이 될 것이다.


  가까운 미래에 데이터 프로젝트의 많은 과정들이 사람들이 하는 것보다 더 효과적으로 기계에 의해 수행되게 될 것이다. 그러나 복잡한 문제를 논리적 단계로 나누고, 질문을 수학적으로 표현하는 능력은 논리적 인간에 의해서만 이루어질 수 있다. 데이터 기반 의사결정 과정에서 변하지 않을 요소는 수학과 인간이다.


작가의 이전글 빅데이터, 이렇게 쓸 수 있다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari