데이터 '원유' 정제공정의 비밀

데이터 마이닝 과정의 오염물질 규제의 필요성

by 날개

'데이터는 새로운 원유다.'(Data is the new oil.) 이런 말을 어디선가 흔하게 들어본 적이 있을 것이다.


최근에는 산업, 상업, 정치 등 어떤 분야에서든 공통적으로 자주 쓰는 문구가 되었는데, 이 비유는 (우라 니라에서는 2015년에 홈플러스를 매각하고 철수했지만, 유럽 등에서는 여전히 세계적인 규모의 소매 유통업체인) 테스코(Tesco)의 고객카드(customer loyalty card)를 공동 개발한 영국의 과학자 겸 기업가인 '클라이브 험비'(Clive Humby)가 2006년 처음 한 말에서 시작되었다고 한다.


디지털 시대 이전, 원래 데이터는 '스몰' 데이터(small data)였다. 이 표현도 빅데이터(big data) 등장에 따라 구분하기 위해 '스몰'을 붙이게 된 것이라고 한다. 그 당시 스몰데이터는 로널드 피셔(Ronald Aylmer Fisher, 1890-1962)의 통계학의 원리를 바탕으로 소수의 사람들에게서 수집되는 작은 데이터 세트를 통해 깊은 통찰과 빠른 실행 가능성의 정보를 제공했다. 그러나, 디지털 시대로의 전환과 함께, 데이터의 양은 상상을 초월할 정도로 폭발적으로 증가하였고, 이 대량의 정보는 특정 기준이나 목적을 가지고 수집되거나 구조화되지 않은 정보의 집합에 불과한 경우도 많았기 때문에, 그 집합을 '데이터'라고 부르기엔 의문이 많았었다고 한다.


그래서, 미국의 데이터 전문가 더그 레이니(Doug Laney)는 빅데이터를 정의하는 특징 세 가지(3V)인 규모(Volume), 다양성(Variety), 속도(Velocity)를 2001년에 최초로 제안했다. 이후 여기에 IBM 등 업계에서 데이터의 신뢰도와 효용성을 강조하며 3V에 정확성(Veracity), 가치(Value)를 붙여 5V가 되었다. 더 나아가 7V, 9V, 11V 등의 모델까지 나오기에 이르렀는데, 학술연구자나 컨설턴트 등이 빅데이터의 관리적, 전략적 도전 과제를 설명하기 위해 5V에 가변성(Variability), 유효성(Validity)을 붙여 7V, 때로는 7V에 가시성(Visualization), 휘발성(Volatility)을 추가하여 9V, 9V에 취약성(Vulnerability), 실현가능성(Viability)까지 덧붙여 11V가 되기도 한다.


빅데이터는 그 가치를 알아본 많은 사람들에 의해 '원유'보다 더 가치 있는 무엇으로 비유되기도 하는데, '새로운 금'(new gold), '통화'(currency), '공기'(air), '물'(water), '중력'(gravity), 심지어는 'DNA'까지 다양하다. 11V까지 나아간 빅데이터는 이제 단순한 정보가 아니라 가공을 통해 부가가치를 창출하고, 현대 사회와 경제의 흐름을 좌우하는, 핵심 동력이자 높은 가치를 보유한 핵심 자원임을 강조하는 것으로 볼 수 있다.


통계학 전문가인 캘리포니아 대학교 던 홈즈(Dawn E. Holmes) 교수에 따르면, 가장 중요한 것은 데이터의 가치를 실현하기 위해서는 원유처럼 먼저 처리되어야(processed) 한다는 사실인데, 데이터를 비유하는 단어들은 데이터 분석 제공업체가 미래의 빅데이터를 이용해 자사의 제품을 판매하는 기업들을 설득하기 위한 마케팅 전략으로 많이 사용된다고 한다.


홈스 교수는 원유는 시추하여 생산하면 시장성이 있는 상품이 바로 될 수 있는 유한한 자원임에 비해, 데이터는 정확하지 않으면 가치 있는 빅데이터를 채굴해(mining) 낼 수 없을뿐더러, 데이터의 소유권, 개인정보 보호 등이 문제가 될 수 있다는 점을 지적한다. 빅데이터 마이닝은 방대한 데이터 세트에서 유용하고 가치 있는 정보를 추출하는 작업이 필요하다는 점을 지적한다.


그는 데이터 마이닝(data mining), 머신러닝(machine learning), 알고리즘(algorithms) 등을 사용하면 데이터의 비정상적인 패턴이나 이상 징후를 감지할 수 있을 뿐만 아니라 미래 예측도 가능한데, 빅데이터 세트에서 이러한 '지식'을 얻기 위한 머신러닝 방법을 '지도형 머신러닝'(supervised machine learning)과 '비지도 알고리즘'(unsupervised algorithms)을 통한 머신러닝으로 나누어 설명한다. 두 방법의 핵심 차이는 데이터에 정답(lable)이 있는지 유무인데, 전자는 마치 선생님이 정답을 알려주듯 입력 데이터와 그에 상응하는 정답을 조합하여 학습하게 하여, 새로운 데이터가 주어졌을 때 미리 학습한 정답 범주나 연속된 값을 예측하는 것을 목표로 한다. 반면, 후자는 정답이 주어지지 않은 입력 데이터만을 사용하여, 알고리즘이 스스로 데이터 내부의 숨겨진 구조, 패턴, 유사성을 파악하여 그루핑(grouping)하거나 군집(clustered) 데이터를 단순화하는 데 중점을 둠으로써 탐색 및 숨겨진 패턴을 발견하여 구조를 파악하는 것을 목적으로 설계된 것으로 설명된다.


결국, 빅데이터 마이닝은 원유를 시추하고 정제하는 과정에 비유할 수 있는데, 이는 온라인 플랫폼이 방대한 '데이터 원유'를 수집(시추)하여 알고리즘(정제공정)을 통해 맞춤형 서비스나 광고라는 고부가가치 제품(정제된 석유)을 만들어내는 행위라고 볼 수 있다. 여기서 발생하는 데이터 불균형, 개인정보 침해 문제 등은 마치 정제 과정에서 나오는 '오염물질'(pollutant)처럼 사회적 비용을 초래하며, 이는 플랫폼의 경제적 독점과 편향된 정보 제공(예컨대, 필터버블 효과, 허위정보 확산)이라는 형태로 나타날 수 있다. 따라서, 온라인 플랫폼 규제는 '데이터 원유 정제 공정'의 투명성을 확보하고, 사회적 책임을 강화하여 공정한 가치(value)를 창출하도록 유도하는 "환경 규제"와 같은 역할을 해야 한다.

작가의 이전글플랫폼은 우리를 더 나은 인간으로 만들어 주고 있나요?