데이터, 진짜 21세기 원유인가

데이터 가치는 어떻게 탄생하는가

by HoA

데이터는 흔히 ‘21세기의 원유’로 비유된다.

그러나 원유와 달리 데이터의 진정한 가치는 데이터 자제에 있는 것이 아니라, 이를 활용하는 사람과 맥락에 의해 결정된다.

원유는 땅속에서 채굴되는 순간부터 물리적 가치가 인정된다. 한 배럴의 원유는 가공을 거쳐 휘발유·플라스틱·화학제품 등 다양한 제품으로 전환되며, 그 기저에는 변하지 않는 ‘희소성’과 ‘소모성’이라는 속성이 깔려 있기 때문이다. 반면 데이터는 복제·공유가 자유로운 비경합재다. 그렇기에 수집과 보유 자체만으로는 어떤 경제적 성과를 보장하기 어렵다. 원유는 추출되면 곧바로 거래소에서 가격을 매길 수 있지만 데이터 가격은 정가가 없다는 의견이 지배적인 이유다. 데이터 가격은 어떤 비즈니스 목적으로 누구와 어떻게 결합되느냐가 결정된 이후에나 비로소 ‘연료’로 기능할 수 있기 때문에 가치를 평가하기 어렵. 심지어 지속적인 생성과 갱신이 그 가치를 유지시키는 경우도 많 불확실성 역시 높다.


리하자면, 데이터 가치는 특정 사용사례(use case)에 종속적인 경우가 부분이다. 분석가들은 동일한 데이터셋으로도 행동 예측, 재고 최적화, 사기 탐지 등의 각기 다른 과제에 적용할 수 있으며, 그 성능과 경제적 효익은 천차만별이 된다. 그렇기에 기업은 데이터가 ‘어떤 문제를 얼마나 잘 해결해 주느냐’에 따라 가치 평가를 해야 하며, 데이터 단독으로 천문학적 가치가 있다는 주장은 재고될 필요가 있는 것이다.

이는 같은 식재료라도 일류 셰프의 파인다이닝 디쉬가 되면 아주 값비싸게 팔리는 반면, 어느 집 냉장고 구석에서는 먹다 남은 잔반 따위로 전락하는 이치와 다르지 않다.


데이터 경제 촉진을 목표로 데이터 거래 시장과 관련한 비즈니스가 생겼고 그에 발맞추어 데이터 가치평가에 대한 논의가 활발했다. 정책적 지원도 풍부했고 참여자들도 활발히 움직였던 시장이 일시적인 고용창출 효과도 있었지만 자생가능한 비즈니스 모델이 창출되었는가에 대해서는 아쉬운 면이 지 않다.


지금은 소버린 AI가 시대의 화두다.

AI업혁명을 맞아 데이터에 대한 논의가 재점화어야 하는것은 필연적이며, 혹시 그렇지 않다면 소버린AI 역시 남의 것 따라하기 수준에 그칠 가능성이 높다. 그리고 남들은 그 사이 저멀리 앞서있는 추격전이 반복될 것이다.

AI를 키우려면 AI의 먹이 격인 양질의 데이터 확보 뒷받침되어야 다. 특히 우리가 미국, 중국과 경쟁하기 위해서는 산업특화 AI전략이 우선 고려될 가능성이 높므로 어떤 산업을 선택하느냐, 그에 합당한 데이터가 준비되 있느냐가 중요한 요소가 될것이다.. 반면 우리에게는 여전히 제대로 축적고 정비된 데이터가 부족하고, 개별 보유기관은 데이터 자산을 밖에 내놓기 싫어하며 법과 제도 역시 결코 우호적이지 않다.

어느나라보다 잘 정비된 금융, 의료, 사진정보는 개인정보법과 저작권법이라는 틀에 갖혀있고, 그나마 유통이 쉬운 제조업, 환경 등의 데이터는 제대로 정리되어 있는 곳이 드물다. 심지어 수요기관은 적지 않은 돈을 지불해야하지만 지속적 수급을 보장받을 수 있는 것도 아니다. 그러니 사업 본질보다는 정부 지원금을 바라보고 사는 사람들이 생기는 것이다.


우리는 이미 데이터 수급 문제로 꽤 긴 시간을 지지부진하게 보냈다. 본격적으로 국가 미래산업에 대한 의지가 점화된 이 시점이야말로 데이터 가치에 대한 관점 전환이 필요하며, 이 문제가 선결되지 않고는 곧 시작해야 할 수많은 프로젝트와 실험이 시작부터 난관에 부딪힐 우려가 있다. 군가는 성과를 빠르게 보여줘야 하는데 데이터 문제는 답보상태에 있으니 돈은 돈대로 쓰지만 정작 알맹이는 부실한 사상누각을 만들 위험도 있다.

데이터 자체를 과대평가하거나 가치평가 자체에 집착하지 말아야 할 이유는 다음과 같다.


1) '가치평가'라는 환상
데이터 경제 활성화를 위해 '데이터 거래사'라는 직업이 법제화된 바 있고, ‘데이터가치 평가사’ 같은 새로운 직군을 만들려는 시도가 있었다. 심지어 데이터 담보대출이라는 특이한 금융상품이 만들어지기도 했다. 데이터 거래 플랫폼을 통해 데이터 시장을 고자 하는 노력도 있었지만 실상 그 이상의 성장동력을 찾기 어려운 것이 사실이다.

데이터가 비싸면 수요시장이 줄 지속성도 감소한다. 일정규모 이상의 수요집단 없이는 정량적이고 객관적인 가격 책정이 어렵다. 소수의 시장에 접근한다는 가정하에서도 어렵기는 마찬가지다. 어떤 평가사도 데이터가 갖는 ‘잠재적 효용(potential use case)’을 완벽히 예측할 수 없기 때문이다.


2) 사용자에 의존한 가치

원유의 가치를 완성하는 것은 정유공장과 유통망인 것처럼, 데이터의 가치는 데이터를 ‘어떻게’, ‘누가’, ‘어떤 목적’으로 활용하느냐에서 결정된다. 따라서 데이터 전략 수립 시점부터 데이터 상품화(use case 발굴), 기술 인프라, 책임 주체까지 전 밸류체인을 염두에 두어야 한다.

실제로 많은 데이터 보유 기업이 이를 충분히 활용하지 못하는 경우가 많고, 반대로 데이터만 있으면 무궁무진한 서비스와 콘텐츠를 만들 기술 기업이 데이터 집 채널이 없어 량을 펼치지 못하는 일도 많다. 또한 같은 데이터를 가지고도 기업의 역량에 따라 만들어내는 콘텐츠의 수준과 만들어내는 가치는 천차만별이다.

많은 종합병원들이 환자의 영상기록 데이터를 갖고 있지만, 정작 그 데이터로 진단 알고리즘을 만들고자 하는 곳은 AI기업이다. 이들은 AI진단 프로그램을 의사가 부족한 동남아에 수출하여 기술 시장을 창출다.


3) 데이터 서비스의 책임 소재와 무게

데이터 자체로는 콘텐츠가 되기 쉽지 않다. 값싼 데이터가 비싼 정보로 진화하기 위해서는 모델, 커뮤니케이션 채널, 특수상황이 전제되며 고객이 지불할 가격 또는 고객에 미치는 영향력에 비례하여 서비스 창작자에 대한 책임은 높아지게 마련이다. 어떤 의사결정이 중대한 사안일수록 누군가는 반드시 책임을 져야 한다. 하지만 데이터, 모델, AI는 책임을 질 수 없다. 결국 데이터 사용자가 어느 정도의 효익을 만들고 거둘 수 있느냐에 따라 기꺼이 감당할 책임의 무게가 달라질 수밖에 없는 것이다. 그렇기에 AI가 도출한 인사이트가 아무리 정확해도, 최종 의사결정 책임을 지는 기업이나 개인은 심리적 저항감과 부담이 클 수밖에 없다. 그리고 이러한 요인은 잠재적 가치와 실제 거래 사이의 간극을 만들곤 한다. 중요한 일일수록 책임과 의무에 두려움을 느께 참여자가 적어지는 아이러니한 상황이 벌어지는 것이다.


결국 데이터는 내재적 가치라는 것이 존재하기 어렵고 있다고 해도 책정하기 힘들다. 가치를 제대로 평가해서 거래하도록 해야 한다는 오랜 주장이 무용했던 이유가 바로 그것이다. 오히려 데이터 경제를 촉진하는 현실적 해법은 ‘데이터 자체의 희소성’을 드높이는 데 있지 않고 아주 저렴하고 손쉽게 유통하여 다양한 활용 사례를 만드는 것, 그중 누군가가 대단한 서비스를 만들어 경제적 효익을 창출할 수 있도록 하는 것이 낫다. 개인정보보호와 같은 첨예한 이슈 때문에 민간기업은 데이터 공유와 활용을 주저할 때가 많다. 실험적 시도는 막연한 두려움에 굴복하는 것이다. 가진 것이 많은 기업일수록 더욱 그러하다. 이제는 데이터를 원유에 빗대는 과거형 메타포를 버리고, 데이터 활용가를 위한 솔루션을 설계하는 국가 차원의 미래형 전략이 요구된다. AI라는 생각하는 기계를 다같이 만드는 프로젝트 범위안에 기계가 학습하기 위한 데이터 수급도 포함하자는 것이다. 그래야만 데이터는 비로소 저장된 ‘연료’가 아니라, 가치를 창출해 내는 동력으로 거듭날 수 있을 것이다.



keyword