소버린 AI, 정말 ‘처음부터 만들어야’ 주권이 생길까

기존 지식을 쓰면 주권이 사라진다는 착각에 대하여

by 펠라고스

요즘 ‘소버린 AI’라는 말이 유난히 많이 들린다.

국가 차원에서 독자적인 AI를 가져야 한다는 주장 자체는 낯설지 않다. 오히려 늦었다는 생각이 들 정도다. 데이터, 인프라, 알고리즘이 곧 국력이 되는 시대에, AI를 전부 외국 기업의 손에 맡기는 게 불안하다는 감각은 충분히 이해된다.


그런데 이 논의가 실제 정책과 평가 기준으로 내려오는 순간, 어딘가에서 미묘한 어긋남이 느껴진다. 최근 ‘독자 AI 파운데이션 모델’ 평가에서 특정 기업이 탈락한 이유로 제시된 ‘독자성’이라는 기준을 보고 있으면, 그 어긋남은 더 분명해진다. 오픈소스나 기존에 학습된 모델을 활용했다는 이유로 “독자적이지 않다”고 판단하는 순간, 이 논의는 기술의 문제를 넘어 개념의 문제로 넘어간다.

여기서 한 번 멈춰서 생각해볼 필요가 있다. 우리가 말하는 ‘소버린(sovereign)’이라는 단어는 애초에 무슨 뜻이었을까.


sovereign은 원래 “외부의 간섭을 받지 않고, 스스로 결정할 수 있는 상태”를 의미한다. 주권국가를 말할 때도, 국부펀드를 말할 때도, 핵심은 언제나 ‘통제권’이다. 누가 운영하고, 누가 책임지고, 누가 최종 결정을 내리느냐의 문제다. 이 단어 어디에도 “처음부터 혼자 만들었어야 한다”는 의미는 없다. 영어권에서 ‘sovereign AI’라는 표현이 등장했을 때도, 그 초점은 데이터의 귀속, 인프라의 통제, 법적 책임의 주체에 있었다. 모델의 혈통을 따지는 식의 논의는 아니었다.


그런데 한국에서 이 단어는 조금 다르게 번역되고, 조금 다르게 이해되고 있는 것처럼 보인다. ‘주권’이라는 말이 ‘순수성’이나 ‘독자 개발 여부’로 치환되는 순간, 소버린 AI는 현실적인 전략이 아니라 일종의 이념 시험이 된다. 그리고 그 이념은 기술의 발전 방식과 정면으로 충돌한다.

인류의 지식은 단 한 번도 ‘맨땅에서’ 발전한 적이 없다. 과학은 언제나 이전 세대의 연구 위에서 쌓였고, 공학은 기존 기술을 개선하며 진화해왔다. 뉴턴의 물리학 위에 아인슈타인이 있었고, 현대 의학은 수백 년간 축적된 논문과 임상 데이터의 총합이다. 우리는 누군가의 발견을 “가져다 썼다”고 말하지 않는다. 그것을 인류의 공동 자산이라 부른다.


AI도 다르지 않다. 이미 수천억, 수조 토큰의 텍스트와 이미지로 학습된 모델들은 일종의 ‘압축된 인류 지식’에 가깝다. 그것을 기반으로 새로운 데이터를 학습시키고, 새로운 문제를 풀게 만드는 것은 베끼기가 아니라 확장이다. 오픈소스를 활용했다고 해서 주권이 사라진다고 말하는 건, 마치 기존 교과서를 읽고 공부한 학생은 자기 생각이 없다고 말하는 것과 다르지 않다.


오히려 여기에는 더 근본적인 역설이 있다. “국내 데이터만으로 학습한 AI가 더 한국 문제를 잘 풀 것”이라는 믿음은 직관적으로 그럴듯해 보이지만, 실제로는 위험한 가정에 가깝다. 데이터는 많을수록, 다양할수록, 그리고 세계를 폭넓게 담고 있을수록 편향이 줄어든다. 한국에서 얻을 수 있는 데이터는 양적으로도, 주제적으로도 한계가 있다. 그 제한된 데이터만으로 학습된 모델은 더 로컬해질 수는 있어도, 더 제너럴해지기는 어렵다.

한국 사회의 문제를 제대로 이해하려면, 오히려 더 넓은 세계의 맥락을 학습한 AI가 필요하다. 글로벌한 지식 위에 한국의 데이터를 얹는 방식이야말로 현실적인 접근이다. 기존에 잘 학습된 모델을 활용한다는 이유만으로 소버린 AI의 자격을 박탈하는 순간, 우리는 주권을 지키는 것이 아니라 스스로 시야를 좁히는 선택을 하게 된다.

그래서 이 논쟁의 핵심은 “소버린 AI가 필요하냐, 아니냐”가 아니다. 소버린 AI는 분명 필요하다. 다만 그 소버린이 무엇을 의미하는지에 대한 정의가 잘못 설정되어 있을 뿐이다. 주권은 고립이 아니라 통제에서 나오고, 독립은 단절이 아니라 책임에서 나온다. 이 기본적인 사실을 놓치지 않는 것, 그것이 이 논의를 다시 시작해야 하는 지점이다.

이쯤에서 논의는 자연스럽게 기술의 영역을 넘어 물리적인 현실로 내려온다. 아무리 개념을 정교하게 정의해도, AI는 결국 전기와 땅, 그리고 시간 위에서 돌아가는 기술이기 때문이다. 그래서 ‘소버린 AI’를 말할 때 가장 피하고 싶은 질문이지만, 결국 마주해야 하는 질문이 있다. “그걸 어디서, 어떻게 돌릴 것인가”라는 문제다.


최근 메타나 구글이 발표한 AI 데이터센터 계획을 보면, 이 질문은 더 이상 추상적이지 않다. 이들은 이미 하나의 도시와 맞먹는 전력을 소비하는 데이터센터 캠퍼스를 전제로 움직이고 있다. 기가와트(GW) 단위의 전력 수요, 전용 송전망, 냉각을 위한 수자원, 그리고 이를 장기간 안정적으로 공급하기 위한 원전 혹은 그에 준하는 전력 계약까지 포함된 계획이다. AI 훈련 인프라는 더 이상 ‘서버 몇 대 늘리는 문제’가 아니다.


이 현실을 한국에 그대로 대입해보면 곧바로 한계가 드러난다. 한국에서 데이터센터 하나 짓는 것조차 쉽지 않다. 전자파, 소음, 경관 훼손, 집값 하락 같은 이유로 지역 주민의 반대에 부딪히는 일이 반복되고 있다. 그래서 데이터센터는 점점 더 외곽, 더 시골로 밀려난다. 하지만 초거대 AI 훈련에 필요한 것은 단순한 부지가 아니라, 대규모 전력 인프라와 안정적인 송전망이다. 시골에 데이터센터를 짓는다고 해서 문제가 해결되지 않는 이유다.

더 근본적인 문제는 전력의 성격이다. AI 데이터센터는 전력을 많이 쓰는 것뿐 아니라, 전력 사용 패턴이 매우 불규칙하다. 학습이 몰리면 순식간에 부하가 치솟고, 작업이 끝나면 급격히 내려간다. 일반 도시처럼 예측 가능한 소비 곡선이 아니다. 이런 부하를 안정적으로 감당하려면, 단순한 재생에너지나 기존 전력망으로는 부족하다. 결국 원전이나 그에 준하는 기저전원이 필요해진다. 그런데 한국 사회에서 원전, 심지어 소형 원자로 이야기만 나와도 즉각적인 반발이 나오는 현실을 생각하면, “국내에서 메타급 훈련 인프라를 갖추겠다”는 말은 기술적 의지의 문제가 아니라 사회적 합의의 문제에 가깝다.

이 지점에서 중요한 전환이 필요하다. 소버린 AI를 “초거대 모델을 국내에서 처음부터 끝까지 학습시키는 것”으로 정의하는 순간, 이 프로젝트는 시작하기도 전에 막힌다. 반대로 소버린을 “운영과 통제의 주권”으로 재정의하면, 현실적인 길이 보이기 시작한다.


현실적인 소버린 AI의 핵심은 훈련(training)이 아니라 추론(inference)에 있다. 모델을 키우는 과정 전체를 국내에서 감당하지 못하더라도, 그 모델을 어떻게 배포하고, 어떤 데이터로 사용하며, 어떤 책임 체계 안에서 운영할 것인지는 충분히 국내에서 통제할 수 있다. 공공, 금융, 제조, 국방처럼 데이터 반출이 민감한 영역에서 “우리가 책임질 수 있는 AI”를 갖는 것, 이것이 실제로 의미 있는 주권이다.

이런 관점에서 보면, 오픈소스나 기존에 학습된 글로벌 모델을 활용하는 것은 타협이 아니라 전략이다. 글로벌 지식 위에 로컬 데이터를 얹고, 국내 법과 규제 안에서 운영하며, 비용과 업데이트를 통제할 수 있다면 그것은 충분히 소버린하다. 중요한 것은 그 AI가 어디서 태어났느냐가 아니라, 어디에 속해 있고 누가 책임지느냐다.


결국 이 논쟁은 기술의 우열을 가리는 싸움이 아니라, 정의를 바로 세우는 문제다. 소버린 AI는 필요하다. 그러나 그것은 고립된 AI가 아니라, 우리가 통제할 수 있는 AI여야 한다. 기존 지식을 활용했다고 해서 주권이 훼손되는 것은 아니다. 오히려 그 지식을 어떻게 소화하고, 어떻게 책임지는지가 주권의 본질에 더 가깝다.

AI는 혼자 자라는 기술이 아니다. 인류의 지식이 그래왔듯, 축적되고 연결되며 발전한다. 소버린 AI 역시 예외일 수 없다. 우리가 지켜야 할 것은 ‘순혈성’이 아니라 ‘주도권’이다. 이 차이를 분명히 인식하는 순간, 소버린 AI에 대한 논의는 비로소 현실적인 방향으로 나아갈 수 있다.



작가의 이전글가지런 하진 않지만 잘 접힌 하루