종이의 발명으로 정보와 지식의 체계가 새 문명을 연 지 2천 년, 우리는 이제 종이를 넘어서는 문명 매개기술, 곧 AI 시대의 초입에 서 있다. 이 새로운 문명은 기술 그 자체가 아니라, 그 기술이 담고 있는 언어와 문화, 역사와 철학의 내용에 따라 방향이 달라진다. 그래서 최근 AI 주권, 즉 ‘소버린 AI’의 개념이 세계적 이슈로 부상하고 있는 것이다. AI는 단순한 알고리즘이 아니라, 질문하는 방식과 해석의 틀, 즉 세계를 이해하는 하나의 패러다임이기 때문이다.
그러나 아무리 뛰어난 모델을 개발한다 해도, 그 핵심을 이루는 요소는 다름 아닌 ‘데이터’다. 중국의 ‘딥시크(DeepSeek)’는 저전력·저비용을 강조하며 주목받고 있지만, 진정한 경쟁력은 기술 자체가 아니라 ‘데이터’에 있다. 중국은 이미 국가 차원에서 자국 언어, 역사, 문화, 정치 체계를 반영한 고유 데이터 세트를 조직적으로 구축하고 관리하고 있다. AI 기술은 따라잡을 수 있어도, 데이터 주권은 따라잡기 어렵다. 데이터는 곧 인식의 힘이고, 주권의 실체다.
이제 우리는 ‘데이터 독립’을 위한 국가적 프로젝트를 시작해야 한다. 과거 이이가 10만 양병을 주장했듯이, 오늘날 우리는 상징적으로 10만 명의 ‘지식 전사’, 곧 소버린 빌더를 길러야 한다. 이들은 단순한 태깅 요원이 아니다. 역사학자, 철학자, 수학자, 물리학자, 심리학자, 언어학자, 예술가들이자, 한국형 LLM의 뼈대를 설계하는 ‘질문 디자이너’다. 이들이 수천만 건의 질문을 만들고 다듬으며, 그 질문은 곧 우리 사회의 감수성과 논리를 반영한 새로운 지식 인프라가 된다.
앞으로 3년에서 5년, 이 시기는 단지 AI 모델을 개발하는 시간이 아니다. 우리만의 질문을, 우리 말로, 우리 관점에서 설계하고 정립하는 시기다. 한국형 나무위키가 필요하과 전문가가 관리하여야 한다. 그렇게 생성된 데이터는 단순한 정보의 나열이 아니라, ‘매개변수의 철학’이다. 이 철학은 단지 독도가 누구의 것인가를 따지는 역사적 사실의 문제를 넘어서, 국민의 윤리와 도덕, 문화적 정서와 논리의 맥락을 담는다.
이를테면 고궁 잔디밭에 ‘출입금지’ 푯말이 세워졌을 때, 한국의 어머니는 아이에게 “약속을 지켜야 한다”고 말한다. 외국인은 “벌금 내야 하니까 들어가지 마라”고 교육한다. 또 어떤 나라는 “상대에게 욕먹을 일은 하지 마라”고 가르친다. 이처럼 뿌리 깊은 문화적 정서, 사회적 감수성, 윤리적 관점은 민족마다 다르다. 만약 우리가 AI 주권을 상실하게 된다면, 이러한 다름은 하나의 표준으로 동일화될 수 있으며, 그것은 결국 문화적 다양성의 붕괴를 의미한다.
데이터는 결국 국민 누구나 사용할 수 있어야 하며, 질문과 응답의 사용 빈도가 높아질수록 모델은 정교해지고, 그 정교함은 대한민국 AI 주권의 실질적 방패가 된다. 우리가 바른 질문을 설계하지 못한다면, 우리는 남이 만든 질문과 논리로 세상을 해석하게 될 것이고, 이는 곧 정신적 종속, 지식 식민지화로 이어질 것이다.
지금 우리가 묻지 않으면, 미래는 우리에게 대답해주지 않을 것이다. 지금은 전 세계의 10만 소버린 빌더들과 함께, 10억 개의 질문을 정립하고, 한국형 해답을 구성해야 할 때다. 이 질문과 응답은 대한민국의 미래 교과서가 될 것이며, 동시에 AI 주권을 지키는 성벽이 될 것이다.
박항준 서울벤처대학원대학교 연구교수