brunch

소버린 AI, 작은 나라의 거대한 야망

데이터, 컴퓨팅, 모델, 플랫폼, 제도의 다섯 겹에서 주권을 설계한다

by 드라이트리

한국은 기술을 빠르게 받아들이는 나라를 넘어, 기술의 궤적을 미세 조정할 수 있는 나라가 되길 원한다. 인공지능이 생활과 산업, 안보의 운영체제가 되어가면서 이 욕망은 하나의 단어로 수렴된다. 소버린 AI. 많은 이가 이를 “국산 인공지능” 정도로 이해하지만, 진짜 의미는 훨씬 넓고 깊다. 특정 기업의 API를 쓰지 않고도 핵심 기능을 확보하겠다는 자립 의지이자, 외부 기술을 쓰더라도 그 사용 조건과 위험을 스스로 설계하겠다는 통제력의 선언이다. 주권은 폐쇄가 아니라 선택과 협상의 힘이다. 소버린 AI는 “모델 하나”가 아니라 데이터, 컴퓨트, 모델, 플랫폼·응용, 제도라는 다섯 겹의 층이 촘촘히 맞물릴 때 비로소 작동한다. 작은 나라가 거대한 기술곡선 위에서 어떻게 자리를 잡을 수 있는지, 한국은 지금 그 청사진을 그려야 한다.


첫 번째 층은 데이터다. 인공지능에서 데이터는 석유가 아니라 공기다. 없으면 죽고, 탁하면 병든다. 한국어는 교착어이고 띄어쓰기·형태소·어말어미의 변주가 많아, 표면적으로 같은 문장이라도 의미의 결이 섬세하게 달라진다. 한자어와 고유어, 외래어가 층층이 쌓여 문어와 구어의 간극도 크다. 법률·행정·의학·공학·금융 같은 전문 도메인의 문체는 일상 언어와 전혀 다른 논리 구조를 갖는다. 양만 많이 긁어 모은 웹 크롤링으로는 한국어의 결을 오래 버티게 만들 수 없다. 데이터 주권의 출발점은 공공 기록과 민간 문서, 방송·신문·학술 텍스트, 기술 매뉴얼과 표준 문서를 합법적으로 수집·정제하는 인프라를 구축하고, 각 도메인 전문성을 유지한 채 개인정보와 저작권, 영업비밀을 지키는 파이프라인을 만드는 일이다. 원자료의 소유권과 이용권을 분리해 ‘허가 기반 풀’을 만들고, 데이터 기증과 수익 공유의 규칙을 명확히 해야 한다. 민감 데이터는 안전한 계산(예: 안전한 영역 내 연산, 가명·익명화, 차등프라이버시)으로만 학습 파이프라인에 들어가게 하고, 도메인별로 데이터 큐레이터를 지정해 지속적으로 품질을 관리한다. 데이터는 한 번 모아 끝나는 자산이 아니라, 누군가가 매일 닦고 기름칠하는 ‘설비’다.


두 번째 층은 컴퓨테이션이다. 훈련과 추론에 필요한 연산 자원은 오늘의 석탄과 전기다. 자원이 없으면 아이디어와 데이터가 있어도 멈춘다. 그러나 소버린 AI의 컴퓨트 전략을 “GPU 더 사자”로 요약하면 위험하다. 자본과 전력을 끝없이 태우는 길은 작은 나라가 오래 버틸 수 없다. 필요한 것은 세 가지다. 첫째, 공공·민간이 함께 쓰는 국가형 AI 컴퓨트 허브를 구축해 연구·스타트업·중견기업이 예측 가능한 비용과 공정한 절차로 접근하게 하는 것. 둘째, 연산 효율을 극단까지 끌어올리는 모델·파이프라인 설계를 병행하는 것. 조밀한 매개변수 대신 선택적으로 켜지는 mixture-of-experts, 도메인 적합·저비용 적응을 위한 로라·어댑터, 지식 증류와 양자화, 검색증강(RAG)과 툴 유입이 그것이다. 셋째, 추론 단계의 전력과 지연을 줄이기 위해 경량 모델과 온디바이스 모델을 육성하는 것. 국가 전체가 거대 모델 하나에 걸면, 곧 에너지와 비용의 장벽에 부딪힌다. 소버린 AI의 컴퓨트는 “많이”가 아니라 “똑똑하게”가 핵심이다. 동일 성능을 더 적은 전력으로, 동일 전력에서 더 낮은 지연으로, 동일 비용에서 더 높은 일관성으로 뽑아내는 설계가 주권의 실력이다.


세 번째 층은 모델 그 자체다. 한국어와 한국 사회의 맥락에 깊이 정렬된 대형 언어모델이 필요하다는 것은 분명하다. 그러나 “국민 모델”을 하나 만들어 모든 문제를 해결하겠다는 발상은 비현실적이다. 언어모델은 범용 능력과 도메인 특화를 분리해서 운영해야 한다. 범용 모델은 일상 언어, 공공 소통, 교육·행정 전반에 쓸 수 있도록 안전·사실성·추론의 균형을 맞추고, 도메인 모델은 법률, 의료, 제조, 금융, 국방처럼 높은 책임과 전문성이 요구되는 영역에서 별도의 데이터 거버넌스와 검증 체계를 가진다. 한국어 특유의 형태론을 반영하는 토크나이저와, 한자어·고유어·외래어의 의미망을 잇는 임베딩 전략, 구어·문어·방언·코드스위칭의 변주에 견디는 강건성, 존대·격식·감정의 미묘한 억양을 제어하는 프롬프팅·정렬 기법은 모두 “한국형” 모델의 디테일이다. 다국어를 외면해서도 안 된다. 한국의 연구·비즈니스는 영어와의 코드스위칭을 일상으로 한다. 한국어-영어 양방향 번역·요약·검색증강의 정밀도와, 한글·영문·한자 혼용 문서의 레이아웃 이해가 경쟁력의 밑바닥을 결정한다. 소버린 AI의 모델 전략은 결국 “국가적 다중 모델 포트폴리오”로 귀결된다. 거대 범용, 중형 범용, 도메인 특화, 초경량 온디바이스가 한 생태계에서 공존해야 한다.


네 번째 층은 플랫폼과 응용이다. 모델만으로는 아무 일도 일어나지 않는다. 일선 공무원의 문서 검토, 병원의 진료 기록, 공장의 품질 리포트, 변호사의 판례 검색, 교사의 수업 준비, 시민의 민원 신청—all of the above가 모델 밖 세계와 연결될 때 가치가 생긴다. 여기서 플랫폼은 세 가지 역할을 해야 한다. 첫째, 안전한 연결. 내부 시스템과 외부 데이터를 잇는 커넥터가 개인정보와 기밀, 저작권을 침해하지 않도록 권한·로그·암호화가 기본이 되어야 한다. 둘째, 일관된 도구 사용. 검색, 데이터베이스 조회, 계산, 번역, 요약, 시각화, 문서 생성, 전자서명 같은 툴을 모델이 신뢰성 있게 호출하고 근거를 남기는 실행 환경이 있어야 한다. 셋째, 거버넌스 내재화. 어떤 데이터가 누구의 동의로, 어떤 목적에, 어떤 기간 동안, 어느 나라의 서버에서, 어떤 모델 버전으로 가공되었는지 기록하는 추적성은 신뢰의 핵심이다. 이런 플랫폼을 공공과 민간이 공동으로 쓰되, 민감도에 따라 분리된 영역을 두고 크로스도메인 협업을 허용하는 구조가 바람직하다. 플랫폼은 기술보다 제도의 그릇이다. 그릇이 좁으면 기술이 넘치고, 그릇이 새면 신뢰가 샌다.


다섯 번째 층은 제도다. 소버린 AI는 결국 법과 조달, 회계와 보험, 교육과 노동의 언어로 땅에 내려와야 한다. 도입 가이드라인이 권고로만 남아 있으면, 일선 조직은 책임을 피하기 위해 멈춘다. 공공조달에서 안전·품질·설명가능성·추적성·보안의 기준을 계량화해 요구하고, 그 기준을 충족한 제품·서비스만이 장기 계약을 얻도록 해야 한다. 민간에도 적용 가능한 표준 계약서와 위험 분담 프레임이 있어야 한다. 거짓말을 하지 않는 것과, 근거가 있는지 밝히는 것, 맥락을 벗어난 인용을 차단하는 것, 고위험 응용(의료·법률·금융·치안·교육)에서 인간의 최종 책임을 보장하는 것—all of the above가 조항으로 적혀야 한다. 평가와 인증도 국가의 언어로 설정해야 한다. 한국어 유효성, 사실성, 안전성, 편향, 개인정보 노출, 불법 콘텐츠 생성 위험, 도메인별 정확도 등 측정 항목을 정하고, 데이터셋과 방법을 투명하게 공개해 누구나 재현할 수 있어야 한다. 이것이야말로 주권의 핵심이다. 스스로 잣대를 만들고, 그 잣대를 통과한 것만을 신뢰한다는 뜻이기 때문이다.


소버린 AI를 말할 때 흔한 오해가 있다. “우리도 빅테크처럼 거대한 모델을 만들자.” 규모는 중요하지만 전부가 아니다. 작은 나라는 선택의 정밀함으로 이긴다. 모델의 크기보다 수명주기 관리가 더 어렵고 더 중요하다. 데이터 추가와 안전 이슈 대응, 규제 변화 반영, 도구·API 변경, 취약점 패치, 레그레션 테스트, 사용자 교육과 헬프데스크까지를 포함한 운영이 모델의 품질을 오래 지킨다. 단일 거대 모델에 모든 예산을 쏟아붓는 대신, 도메인별 핵심 과제를 중심으로 효율 트랙과 안전 트랙을 병렬로 운용하는 것이 합리적이다. 예컨대 행정 문서 요약·입법 검토·판례 분석·세법 질의응답·건강보험 청구 검증·지역 재난 대응·에너지 수요 예측 같은 공공의 고난도 과제를 선정해 베이스라인을 세우고, 모델과 데이터, 툴과 프로세스를 합쳐 ‘참조 구현’을 반복 개선하는 방식이다. 성공한 구현은 표준 업무 모듈로 패키징되어 확산된다. 이 과정 자체가 국가의 학습 곡선이고, 정부와 기업, 대학과 병원이 매 분기 함께 업데이트하는 모델이다.


안전과 윤리는 외주화할 수 없다. 한국 사회가 민감하게 여기는 금기와 위험은 글로벌 안전 규범과 겹치면서도 어긋난다. 지역 맥락을 무시한 안전은 관념이고, 과도한 검열은 역효과다. 한국어 모델에서 혐오·차별·폭력의 표현을 줄이는 일, 자살·자해·중독 같은 취약 주제에 대한 응답 방침을 설계하는 일, 성·종교·정치에 관한 균형 있는 설명과 근거 요청 절차를 마련하는 일, 공공안전과 표현의 자유 사이에서 합리적 경계선을 정하는 일—all of the above는 윤리위원회가 아닌, 학계·시민단체·업계가 함께 참여하는 오픈 거버넌스로 설계해야 한다. 빨리 만들고 나중에 고치는 방식은 신뢰를 갉아먹는다. 처음부터 안전을 제품의 일부로, 과정의 일부로 포함시켜야 한다. “안전은 속도를 늦춘다”는 통념은 절반만 맞다. 안전을 내재화하면 오히려 롤백과 리콜의 속도가 빨라지고, 사회적 비용이 낮아진다.


국제 협력은 주권과 모순되지 않는다. 작은 나라는 동맹을 통해 자기 크기를 키운다. 컴퓨트와 반도체 장비의 조달, 오픈소스 모델과 툴체인의 공동 개발, 데이터·평가·안전 프레임의 상호 인정 협약은 실용적 동맹이다. 중요한 것은 의존과 협력을 구분하는 능력이다. 핵심 키는 “교체 가능성”이다. 한 공급자가 흔들려도 다른 공급자로 전환 가능한 설계를 해 놓으면, 협상력은 주권으로 전환된다. 반대로 특정 벤더의 도구·API·클라우드에 깊이 종속될수록 정책 변화나 가격 변동, 제재와 규제의 바람을 그대로 맞는다. 멀티벤더·멀티클라우드·멀티모델을 품는 아키텍처가 소버린 AI의 체력이다.


소버린 AI의 실전 무대는 국방과 재난, 보건과 교육, 사법과 행정 같은 고책임 영역에서 펼쳐진다. 국방에서는 다중 센서의 정보를 통합해 상황 인식을 높이고, 작전 계획의 시뮬레이션과 보급·정비의 예측을 자동화할 수 있다. 재난 대응에서는 기상·지반·인구 이동 데이터를 실시간으로 흡수해 경보의 정확도와 현장 배치의 속도를 높인다. 보건에서는 병원 정보시스템과 보험 청구, 연구 데이터의 경계를 허물지 않으면서도 질병 예측과 치료 결정 지원을 향상시킨다. 교육에서는 교사와 학생의 시간을 행정에서 수업으로 돌려놓고, 맞춤형 피드백과 콘텐츠 생성으로 학습 격차를 줄인다. 사법과 행정에서는 법령·판례·행정지침을 일관되게 해석하고, 문서의 품질을 높이며, 민원 처리의 투명성과 속도를 개선한다. 이런 영역에서 요구되는 것은 ‘똑똑한 요약’이 아니라 ‘책임 있는 판단 보조’다. 그래서 더 엄격한 평가, 더 탄탄한 근거, 더 철저한 추적성이 필요하다.


경제 관점에서 소버린 AI는 비용이 아니라 옵션이다. 경기와 정책, 지정학의 불확실성이 커질수록, 국가와 기업은 변동성의 바닥을 높여야 한다. 특정 기업의 API 가격과 사용 조건, 특정 국가의 수출통제와 제재, 특정 기술의 취약점과 리콜—all of the above가 동시에 흔들릴 때, 내부에 유지된 모델과 데이터, 플랫폼과 인력은 최소 기능을 보장하는 보험이 된다. 반대로, 내부 역량이 전무하면 정책이 바뀔 때마다 국가 서비스와 산업은 그대로 멈춘다. 옵션은 바로 그 ‘멈추지 않는 능력’이다. 이것은 한번에 완성되지 않는다. 컴퓨트의 일부, 데이터의 일부, 모델과 플랫폼의 일부를 차근차근 내부화하면서, 매년 외부와 내부의 비중을 조정하는 “점진적 주권”이 현실적이다.


마지막으로 사람의 문제를 말해야 한다. 소버린 AI는 소수의 천재가 만드는 기술이 아니다. 데이터 관리자와 품질 검수자, 보안 엔지니어와 프롬프트 디자이너, 평가·레드팀과 정책 설계자, 도메인 전문가와 헬프데스크가 합쳐진 느슨한 합창이다. 대학과 연구소, 기업과 공공이 서로의 부족분을 채우는 훈련이 필요하다. 대학은 기초 연구와 인력 파이프라인을, 기업은 제품화와 배포, 운영을, 공공은 규칙 만들기와 초기 수요를 책임지는 분업이 성립할 때, 소버린 AI는 기술에서 제도로 옮겨 앉는다. 교육은 전공을 가르치는 칸막이가 아니라, 데이터·컴퓨트·모델·플랫폼·제도가 어떻게 연결되는지 보여주는 지도여야 한다. 그 지도를 보고 각자 어디로 걸어가든, 길을 잃지 않게 만드는 것이 국가의 역할이다.


소버린 AI는 국산의 동의어가 아니다. 그것은 선택지를 넓히고, 선택의 비용을 낮추며, 선택의 결과에 책임지는 능력의 다른 이름이다. 한국은 이미 초고속 인터넷과 모바일 결제, 전자정부와 K-컬처에서 “빠른 수용—빠른 개선—빠른 확산”의 국가적 학습 루프를 증명했다. 이제 그 루프를 인공지능의 다섯 겹으로 확장할 차례다. 데이터는 정제되고, 컴퓨트는 효율화되며, 모델은 다중 포트폴리오로 분화되고, 플랫폼은 안전과 도구의 질서를 만들고, 제도는 신뢰를 세운다. 작은 나라가 거대한 미래를 설계하는 방법은 언제나 같았다. 우리에게 맞는 속도와 규칙을 스스로 정하고, 그 규칙으로 세계와 협상하는 것. 소버린 AI는 그 오래된 기술의 또 한 번의 갱신이다. 주권은 외치면 오지 않는다. 설계하면 온다.






keyword
이전 05화K-스타트업, 성장의 유리천장