brunch

You can make anything
by writing

C.S.Lewis

by 박 스테파노 Nov 11. 2023

데이터는 왜 중요한가; 빅데이터의 시대

데이터'를' 말하다 (3)

빅데이터의 시대


지난 연재에서 '디지털'과 '데이터'에 대한 기본적인 이해를 살펴보았다. 그렇게 간단하지만은 않은 이해였다. 복잡함은 일단 내려놓고, 디지털화라는 정보통신의 기술로 데이터가 늘어나고, 그 데이터를 '정보화'하는 것이 세상의 중요사로 자리 잡았다는 현실로 들어 가 보고자 한다. 그래서 다음의 질문부터 시작해 본다.


컴퓨팅  과학 기술이  널리고 널린 "데이터 Data" 어떻게 가치가 부여된 "정보 Information" 만들어 줄까?
데이터 처리 과정의 이해가 일상을 살아가는 우리에게 왜 중요할까?


"Data" is new "Oil"


원유(oil resource)가 된 데이터


2011년, 미국의 시장조사기관 가트너는 “데이터는 미래 경쟁력을 좌우하는 21세기 원유라며 “기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다”라고 강조했다. 21세기 기업에게 가장 중요한 자산은 ‘데이터’이며 이를 관리하고 여기서 가치를 이끌어내지 못하면 경쟁에서 살아남을 수 없다고 말하며, '빅데이터의 시대' 천명한 것이다.


물론, 빅데이터라는 개념은 처음 나온 새로운 것은 아니었고, 정보기술영역에서도 상업적 조어(造語)로만 20년 가까이 치부되었다. 늘 그렇듯 이런 천대받던 전혀 새로울 것 없던 개념은 자본과 정치의 오묘한 이해관계의 일치로 시대의 화두가 되었다. 미국 중심의 정보통신 시장의 재편과 이를 등에 업고 신흥 산업의 서포트를 받으려는 정치세력의 규합의 결과물이었다.(구글, 트위터, 아마존, 페이스북의 등장과 오바마 대통령의 '마이크로 타게팅'에 대한 논쟁 등)


한국에서도 경제ㆍ사회의 화두로 진입한 것은 구글 에닉 슈미트 회장이 방한하여 대통령 당선자인 박근혜 씨를 만나, 그 유명한 '창조경제'의 일환으로 준비도 안된 빅데이터 산업을 밀어붙이면 서다. 처음서부터 잘못 꿴 단추는 '청년 창업'과 '대박 유니콘'이라는 개미지옥을 만들게 된다. 그래서 '빅데이터'에 대한 중심 있는 고찰은 매우 중요하다.


* 참고:
빅데이터라는 용어의 어원을 살펴보면, 1990년대 중후반, 실리콘 그래픽스사의 컴퓨터 과학자였던 존 매시(John R. Mashey)가 자사의 제품과 그 콘셉트를 소개하기 위한 자료에 자주 사용하였는데, 그가 빅데이터라는 용어의 창시자로 알려져 있다. 1997년에는 NASA의 콕스(Michael Cox)와 엘스워스(David Ellsworth)도 그들의 논문 “Managing Big Data for Scientific Visualization”이라는 논문에서 빅데이터라는 용어를 사용했다.


이런 비판과 별도로, 실제 데이터 거버넌싱의  축이  빅데이터가 다양한 가치를 만들어내기 시작하면서 사람들은 빅데이터를 ‘원유 비유하기 시작한 것이다. 기름이 없으면 기기가 돌아가지 않듯, 빅데이터 없이 정보시대를 보낼 수 없다는 의미에서 비유한 표현이다. 이런 비유는 '디지털'과 '데이터'를 고찰하는 좋은 개념이 되기도 한다.


데이터가 "정보"가 되는



빅데이터란 무엇인가?


조어적 개념이 실체가 되었지만, 빅데이터는 ‘(Big)+데이터(Data)’식의 단순 합성어가 아니다. 빅데이터를 ‘어마어마하게 많은() 데이터라는 식으로 받아들이면 본질적인 의미와 가치를 놓칠 수도 있다. 기존의 기업ㆍ경제ㆍ사회정치 활동에서 사용되는 ‘정형화된 데이터’는 물론 메타정보와 센서 데이터, 공정 제어 데이터 등 미처 활용하지 못하고 있는 ‘반정형화된 데이터’, 여기에 사진, 이미지처럼 지금까지 기업에서 활용하기 어려웠던 멀티미디어 데이터인 ‘비정형 데이터’를 모두 포함하는 것이 빅데이터라고 이야기하기도 한다.


2011년 가트너는 빅데이터의 주된 특징으로 크기, 다양성, 속도 을 꼽았다. 단순히 데이터 양이 많다고 해서 빅데이터라고 부를 수 있는 건 아니란 이야기다. 또 다른 시장조사기관 IDC는 빅데이터를 다음과 같이 정의하고 있다.

"빅데이터 기술은 다양한 형태로 구성된 방대한 크기의 데이터로부터 경제적으로 필요한 가치를 추출할 수 있도록 디자인된 차세대 기술이다."


애써 정리해 보면, 빅데이터는 단순히 대용량 데이터  자체만을 지칭하는 것이 아니라  데이터를 효과적으로 처리하고 분석할  있는 기술에  초점을  용어라고   있다. 기업의 관점에서는 ‘가치를 생성할 수 있는 데이터’를 빅데이터라고 해석하기도 한다.


그럼 과거엔 빅데이터가 없었을까? 결론부터 말하자면 '그렇다'에 가깝다. 데이터의 양적인 측면만 봐도 이해가 쉽다. 이전의 데이터는 빅데이터라고 부르기가 민망할 정도다. 그래서 2011년과 2012년이 빅데이터에선 중요한 기점이 되기도 한다. (* 참조: 미국의 저장장치업체 EMC가 IDC에 의뢰해 발표한 ‘디지털 유니버스 보고서 : 빅데이터, 더욱 길어진 디지털 그림자, 이머징 마켓의 놀라운 성장’ 이란 연구보고서의 결과)


전 세계적으로 2012 한 해 동안 생성된 데이터의 양은 2.8 제타바이트(ZB)로, 이전까지 생성된 데이터 양을 모두 합친 것보다 많았다. 우리는 지금 과거의 데이터 환경과는 전혀 다른 ‘빅데이터’ 시대를 살고 있는 것이다.(제타바이트는 1024 엑사바이트(1EB=1024PB)로 1조 1000억 기가바이트 (GB)에 해당. 3MB 안팎의 MP3 곡을 281조 5000억 곡을 저장할 수 있는 용량.) 따라서 빅데이터는 기존의 인프라와 아키텍처로는 더 이상 처리하고 분석하는 것이 어럽게 되었다. 과거와 현재 빅데이터의 차이를 표로 정리하면 다음과 같다.


빅데이터의 과거와 오늘


물론 예전에도 슈퍼컴퓨팅(IBM Big Blue 등)이나 병렬처리 기술 등을 이용해 거대한 양의 데이터를 분석할  있었다(기상청 예측 시스템, 원유 시추 시스템, 국세청 과세 분석 등). 하지만 이는 비용 대비 효과, 즉 가성비가 무척이나 낮았다. 수십억 원을 들여야만 대용량 데이터를 분석할 수 있었고, 이는 정부 차원이나 거대 공룡 기술기업, 원유 회사 등의 자본력 보유 기업에서나 할 수 있는 일이었다. 그래서 다양성의 한계와, 처리 속도의 문제가  발생했다.


이런 의미에서 현재의 ‘빅데이터 시대 저렴한 비용으로 엄청난 데이터를 효과적으로 처리할  있게 됐다는 의미도 내포하고 있다. 비정형 데이터를 분석할 수 있는 자연어처리 기술과 텍스트 분석, 하둡 등과 같은 기술이 뜨면서 기업은 과거 대용량 데이터 처리에 들었던 비용과는 비교가 안될 정도의 저렴한 비용으로 복잡한 데이터 안에서 적절하게 정보를 추출하고 이를 기존 정보와 통합해 가치를 전달할 수 있게 되었다. 이런 기술적 발전과 시장의 요구가 기득권의 슬로건에 녹아들어  것이 "빅데이터 시대의 시작"이었다.

(같은 데이터라도 해도 많은 비용을 들여 분석해야 하는 데이터라면 빅데이터가 아니다.)


결국 기업적인 사고 "가성비"가 "빅데이터"의 태동


빅데이터의 특성


위에서 설명한 여러 사유들을 반영하여, 빅데이터의 특성을 흔히 '3+1 V's'라고 표현한다. 바로 Volume, Velocity, Variety 그리고 Veracity가 그것이다. (혹자는 verification검증을 넣어 5 Vs라고도 주장한다.)


빅데이터의 4V's


크기와 속도 그리고 다양성에 대한 이해는 쉽고 설명가능한데, Veracity 무엇이라 설명을 해야 할까? 진정성? 정확성? 신뢰성? 아마도 '적확한' 가장 비슷한 이야기인데,  설명 또한 쉽지 않다. 그래서 휴일 아침부터 이런저런 생각을 하다가, 수학에서 가장 기본적인 변용의 장치, 그리고 해석의 장치 '함수(函數)'에 대해 생각해 보았다. 아마도 기본 함수의 기본적인 원칙인 '일대일대응의 원칙' 빅데이터의 vrracity 설명할  있는 좋은 개념이 되지 않을까 싶다.


>>함수(函數)란?
변수 x와 y 사이에 x의 값이 정해지면 따라서 y값이 정해진다는 관계가 있을 때, y는 x의 함수라고 한다.
[출처] 함수 | 두산백과


함수는 어떠한 값이 무언가 작용(function) 하는 함(函) 안을 통과하면 새로운 값으로 나온다는 개념이다. 초등학교적부터 일본의 관수개념으로 많이 접해 보았을 것이다. 보다 고차원적인 함수나 초월적 함수의 개념에서는 그 의미가 복잡해지겠지만, 기본적으로 함수는 1:1 대응을 원칙으로 한다. 쉽게 설명하자면, '사다리 타기' 게임과 같다고 할 수 있다. 결국 사다리의 출발점에 따라 그 결과의 값은 고유하다는 것이다. 물론 같은 값을 가진 시작점이 있을 수 있으나, 그 값은 결국 상수로서는 같지만 특성으로 각자 '고유하다는 것'이다.


함수


결국 수많은 정보와 데이터가 흘러 다니는 빅데이터 환경에서 최초 요청자가 요구하는 고유한 값은 '정확하고 적요하게' 1:1 매칭되어 고유한 값을 보여 주어야 한다는 것이다. 그래서 함수를 때로는 사상(寫像), 즉 Mapping이라고도 하는 것을 보면, 빅데이터 환경에서의 Mapping과 매우 맞닿아 있음을 알 수 있다.


1:1 매칭이 되는 것이 함수
언제적 "정의역", "공역" 수학은 참 재미나다??

!

결국 빅데이터 환경과 인프라에서 주요한 것은 'Function' 기능을 하는 함수의 통이고, 변용의 장치이며, 값을 도출하는 매핑의 엔진이 된다. 그 1:1 맵핑의 원칙은 데이터에 무결성(integrity)을 부여하고, 그 데이터로 프로세싱된 빅데이터의 산출물이 적요성(veracity)을 담보한다. 이렇듯 데이터 처리의 중간과정(프로세싱, 거버넌스) 중요성을 간과하면 안 되는 이유는 중요하다. 그러나, 요즘 소위 '빅데이터'라고 말하는 전문가 집단이나 연구세력, 혹은 일부 빅마우스들을 보면, 그 f(x)에 대한 function에 대한 기본적 풀이 능력은 개뿔도 없으면서 그저 앞단의 X값과 최후의 Y값의 매핑이라는 개념적이고 '혹'하기 쉬운 마술 같은 이야기만 늘어놓기 십상입니다.


Information Supply Chain (출처 IBM)


빅데이터 활용하려면 ‘데이터 과학자’가 필요해


빅데이터가 이런저런 이유로 주목을 받으면서, 이를 맡아 진행하는 자칭, 타칭 전문가도 덩달아 주목받고 있다. 규모가 있는 비즈니스를 진행하는 기업은 자신들이 보유하고 있는 데이터를 분석해 특정한 결과를 얻어내고 싶어 하는데, 이를 위해 데이터를 수집하고 정리하고 분석해 보기 편하게 자료를 만드는 전문가의 역할이 중요해졌다. 기업뿐만 아니다. 정부기관, 언론사, 학계, 그리고 온갖 연구집단들 까지. 저마다 "전문성"을 내세우곤 한다.


컴퓨팅 저장장치 및 솔루션 전문업체인 EMC에 따르면, 빅데이터를 제대로 활용하기 위해서는 다음과 같은 역량이 필요하다고 한다.


주요 활동ㆍ사업 및 비즈니스 요구사항을 확인하고

필요한 데이터를 검색 · 준비하고

적절하게 데이터를 분석할 수 있는 모델을 구축하고 모델링 검증작업을 거쳐

실전에 적합한지 확인하는 작업


우리가 미디어 매체와 각종 리포트 등에서 제시하는 데이터 '근거' 위의 작업을 거쳤을까? 적어도 데이터를 읽고 맵핑의 이유를 이해하고 있을까?


데이터 과학자 (출처: Pinterest)


이른바 ‘데이터 과학자(Data Scientist)’는 이런 작업을 도와주는 사람이다. 데이터의 어원 dare(give)에서 알 수 있듯이, 빅데이터는 쌓아두기만 하면 가치가 없다. 주고받으며 활용해야 가치가 생긴다. 빅데이터 전문가인 데이터 과학자는 통계학, 컴퓨터과학, 머신러닝  기본적인 데이터 분석에 대한 이해뿐만 아니라 프로그래밍 실력과 특정 도메인에 대한 비즈니스 지식도 필요한 이유가 여기에 있다.


생각보다 IT환경은 인문학적이고 사회과학적인 면을 많이 담고 있습니다. 하지만, 그 결과를 귀납하고 연역하는 증명의 방법은 기초과학에 기인한다. 특히 수학의 알고리즘과 기초적인 함수적 고찰이 우선적이라는 것이다. 빅데이터 환경에서 사회과학자들과 행정가들, 혹은 사용자 User Presentation단의 표면적인 기술을 제공하는 업체들이 난립하고 제대로 된 인프라를 제공하지 않음은 매우 우려되는 현실이라고 할 수 있다.


이러한 이유로 냉정하지만, 한국의 IT시장은 경쟁적 측면에서 매우 고도화되고 심화되어 있지만,  근본적 기술과 인프라적 향상도에서는 아직 선진국이라 하기 힘들다. 이는 민간기업만이 아니라 지자체와 중앙정부의 심각한 고찰과 대안이 필요한 대목입니다. 그래서 진정한 빅데이터 활용을 위해서는 '빅데이터 과학자'의 역할이 중요합니다.


주목받는 외모와 유려한 말솜씨로 말풍선이나 띄우며 자칭 "빅데이터 전문가"라는 사람이 이 산업의 고도화를 망쳐 놓은 주범이다.


Data Jounalism: 데이터 대중 유통(출처: 하이텍두바이)
Data Governance: 데이터 혁명의 기술 중심(출처: artha solution)



이 지점에서 두 가지의 영역의 각기 다른 고민과 과제가 도출된다. 데이터 '소비자'관점에서 "어떻게 데이터를 읽고 있는가?" 대한 물음과 '공급자'관점에서 "어떻게 데이터를 관리ㆍ처리하는가?"라는 물음으로 시작한다. 문과와 이과의 영역처럼, 인문사회학과 과학기술의 영역처럼 맞닿아 있는 긴밀한 고민을 현상과 문제로 고찰할 필요가 있다.


* 데이터 저널리즘: 데이터 불평등 해소를 위한 최소한 요건- 수집, 정제, 시각화 그리고, 공개


* 데이터 거버넌스: 빅데이터의 처리 과정과 그 기술, 산업화의 현주소, 벤처ㆍ스타트업의 허상


다음 연재는 이 이야기들을 순차적으로 본격적으로 풀어 볼 예정이다.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari