데이터는 금광이 아니라 숲이다

AI 시대의 진짜 해자

by 도영진

일론 머스크는 지난 3월 11일, 모든 소프트웨어 기업을 복제하겠다고 선언했다. '매크로하드(Macrohard - Microsoft 반대말)'는 초지능 AI와 디지털 옵티머스로 기존 소프트웨어들을 대체하는 프로젝트다. 소프트웨어가 거의 모든 산업에서 핵심 역량이 되어버린 오늘날, AI가 그것을 복제할 수 있다면 전 산업의 경쟁 우위가 새롭게 정의되어야 한다는 뜻이다.


이제 기업들은 무엇으로 스스로를 차별화할 것인가. 많은 사람들이 데이터라고 이야기하지만, 구체적인 차별화 전략 수립은 만만치 않다.


지금까지 모은 데이터가 해자(moat)가 될 수 없는 이유

현대차와 같은 대규모 제조기업은 어마어마한 데이터를 갖고 있다. 제조 공정 데이터, 출고 후 운행 데이터, 정비 이력, 센서 로그 등.


혹시 우리가 캐지 않은 금광 위에 있는 것은 아닌지, 많은 관계자들은 궁금해했다. 하지만 이를 어떻게 활용해야 할지에 대해서는 명확한 해답이 없었다. IT 담당 리더들은 서두르지 말라고 경고했다. 데이터 정제와 구조화 없이 AI를 올리면 쓰레기가 들어가서 쓰레기가 나올 뿐이라는 주장이었다.


반대쪽에서는 다르게 봤다. 외부 솔루션으로 빠르게 정리하고, 실험을 돌리면서 방향을 잡아가는 쪽이 맞다고 했다. 완벽한 정제를 기다리기보다 일단 써보면서 배우는 것이 빠르다는 논리였다.


둘 다 틀린 말이 아니었다. 전제는 동일했다 “방향 없이 쌓인 데이터는 자산이 아니라 조직의 짐이다”.


테슬라는 데이터를 모은 게 아니라 설계했다

테슬라 FSD는 초기에 룰 베이스 방식이었다. 수많은 조건문과 예외 처리로 자율주행을 구현했고, 그렇게 쌓아온 지식과 노하우가 상당했다. 그런데 테슬라는 2024년 초, FSD v12부터 e2e(end-to-end) 방식으로 전환했다. 이것은 단순한 기술 업그레이드가 아니라, 그전까지 쌓아온 모든 것을 사실상 폐기하는 결정이었다.


놀랍게도, 일론 머스크는 처음부터 e2e를 지향하고 있었던 것으로 보인다. 테슬라는 이미 2016년부터 전 세계에 판매된 차량에서 '섀도우 모드'를 통해 실제 주행 데이터를 수집해 왔다. v12는 이렇게 오랫동안 축적된 수십억 프레임의 비디오 데이터를 학습의 기초로 삼았다.


오늘날 테슬라는 압도적인 격차의 자율주행 기술을 확보했다. 수백만 대의 차량이 실제 도로에서 만들어낸 데이터는 어떤 경쟁자도 단기간에 복제할 수 없는 해자가 되었다. 테슬라의 경쟁 우위는 기술이 아니라 '처음부터 미래를 역산해서 설계한 데이터 수집 구조'였다.


데이터는 금광이 아니라 숲이다. 지금 심지 않으면 나중에 없다.

금광은 이미 땅속에 있으니, 캐내면 된다. 하지만 숲은 다르다. 지금 씨앗을 심지 않으면, 10년 후에 나무가 없다.


많은 기업이 시스템 내에 쌓여 있는 데이터를 캐내면 금이 될 것으로 착각한다. '어떤 가치와 성과를 위한 데이터'가 필요한지 고민없이 쌓은 무작위 데이터를 고객 가치로 전환하려는 노력은 연금술에 투자하는 것과 다름없다.


데이터는 숲이다. 우리가 만들려는 고객 가치가 무엇인가. 그것을 위해 어떤 AI 애플리케이션이 필요한가. 그 애플리케이션을 고도화하고 플라이휠을 돌리려면 어떤 데이터가 필요한가. 그리고 그 데이터를 얻으려면 지금 어떤 씨앗을 심어야 하는가. 이 고민이 선행되어야 한다.


당장 수확할 데이터가 아니어도 괜찮다. 테슬라가 그랬듯, 5년 후의 기술 도약을 위해 지금 심어두는 데이터가 진짜 해자가 된다. 처음부터 심지 않은 나무는 나중에 아무리 공을 들여도 자라나지 않는다.

소프트웨어 해자는 이미 무너지고 있다. 데이터도 그냥 쌓아두는 것만으로는 해자가 되지 않는다.


지금 3년 후를 위한 씨앗을 심고 있는가?

#AI시대 #생존법 #데이터 #경영

작가의 이전글AI에게 함부로 해도 될까?