데이터로 보는 한국의 생존 전략
2022년 11월, ChatGPT가 공개되었을 때, 나는 데이터 사이언티스트 겸 LLM 엔지니어로서 복잡한 심정으로 그 화면을 바라보고 있었다.
순수한 경이로움과, 어딘가에 있는 초조함...
그리고 내가 있는 '한국이라는 자리'에 대한, 언어로 표현하기 어려운 이질감 등...
그로부터 3년 이상이 지났다.
GPT-4, Gemini, Claude, LLaMA, DeepSeek, Qwen 등 세계의 기반 모델은 끊임없이 업데이트되고 있으며, 그 개발의 주역은 여전히 미국 빅테크와, 무서운 속도로 추격해온 중국 기업이다.
한국의 이름은, 그 경쟁의 문맥에서는, 거의 거론되지 않는다. (다만 최근 국가에서 소버린AI 대회를 통해 지원되고 있어 몇몇 기업 LLM이 화두에 오르고 있긴 하다)
그렇다면, "한국의 AI는 진 것인가"
이 연재는 그 물음에, 현장의 데이터 사이언티스트 시각에서 정면으로 마주하는 것이다.
편의적인 낙관론도, 비관적인 패배 선언도 아니다.
가능한 한 솔직하게, 데이터와 사실을 바탕으로 따져보고자 한다.
감정론은 잠시 제쳐두고, 먼저 숫자를 직시하자.
2024년, 미국의 민간 AI 투자액은 1,091억 달러(약 160조 원)라는 수준에 달했다.
이는 2위 중국(93억 달러)의 약 12배, 영국(45억 달러)의 24배 이상이라는, 다른 국가들을 완전히 압도하는 규모다. 그렇다면 한국의 투자액은 얼마인가?
스탠퍼드 대학의 'AI Index Report 2024'등 복수의 글로벌 보고서에 따르면, 한국의 민간 AI 투자 규모는 약 13억 달러(약 1.8조 원) 수준으로 추정된다. 미국의 약 80분의 1이다.
AI 스타트업의 생태계도 같은 구도다. 2023년에 새로 자금 조달을 받은 AI 기업 수는 미국이 897개사로 압도적 1위, 중국이 122개사로 2위이며, 한국은 상위 10위권에 이름을 올리지 못하고 있다.
모델 개발 경쟁 역시, 구조적으로 한국이 정면 승부를 펼치기 어려운 무대다. 그래도 최근 국가정책으로 NVIDIA와 협력을 통해 국가차원에서 GPU를 구입하고 그것을 소버린 AI 대회를 통해 국가적인 AI사업으로써 확장하고 있다는 점에서 최근 기준에서 보면 2026년 안에는 상위권에 한국의 LLM들도 포진될 가능성이 높다.
최첨단 모델 1회 학습에 드는 계산 비용은 수백억 원 이상으로 알려져 있다. 이 같은 대규모 투자가 전제되는 레이스는 OpenAI, Google, Anthropic, Meta 같은 미국 빅테크 기업들이 주도하고 있으며, 그 뒤를 Baidu, Alibaba, DeepSeek 등 중국 기업들이 맹렬히 추격하고 있다.
이것이 현실이다. 한국이 기반 모델 개발 경쟁에서 미중과 동등하게 겨룰 수 있는 상황이 아니라는 것은, 데이터가 말해주는 냉정한 사실이다.
여기서 중요한 것은, 이 사실을 정확하게 인식하는 것이다.
자주 나오는 반론이 있다.
"NAVER도 HyperCLOVA X를 만들었다"
"LG는 EXAONE을 출시했다"
"Upstage의 Solar가 글로벌 벤치마크에서 인정받고 있다"
확실히 그렇다.
한국에서도 기반 모델 개발은 활발히 이루어지고 있다.
하지만 그것은 OpenAI나 Google과 같은 무대에서 대등하게 경쟁하고 있다는 의미가 아니다. AI 기술 개발은 사실상 미중 2강 체제이며, 한국이 그 틈을 비집고 들어가는 것은 단순한 노력만으로 해결되는 문제가 아니다.
한국 정부도 2024년 12월, 'AI 기본법'을 국회에서 통과시키며 AI를 국가 핵심 아젠다로 공식화했다. 정부 차원의 AI R&D 예산도 지속적으로 확대되고 있다. 방향성은 올바르다. 하지만 같은 시기 미국에서는 민간 자본만으로 160조 원이 넘는 돈이 AI에 흘러들고 있다.
'뒤처짐을 인정한다'고 쓰면 패배주의처럼 들릴 수 있다. 하지만 나는 그렇게 생각하지 않는다. 잘못된 전장에서 계속 싸우는 것이 훨씬 더 위험하기 때문이다.
여기서 한 가지 본질적인 질문을 던지고 싶다.
'파운데이션 모델을 만드는 경쟁'과 'AI로 가치를 창출하는 경쟁'은 같은 경쟁인가?
답은 NO다. 그리고 이 구별이야말로, 이 연재 전체의 핵심이다.
AI를 둘러싼 경쟁 환경이 지금 이 순간에도 크게 변화하고 있다. 파운데이션 모델 자체에 대한 투자 규모보다, 특정 산업이나 업무에 특화된 애플리케이션, 즉 구체적인 부가가치의 창출이 시장과 투자자로부터 점점 더 높은 평가를 받고 있다.
스마트폰의 비유가 직관적이다. iOS와 애플 실리콘을 설계하는 것은 Apple이지만, 그 플랫폼 위에서 가장 많은 경제적 가치를 만들어낸 것은, 앱을 개발한 수천수만 개의 기업과 개발자들이다. 카카오톡도 쿠팡도, iOS를 스스로 만든 것이 아니다. 토스도, 크래프톤도, 그 위에서 자신들의 무기를 갈고닦았다.
AI도 같은 구조로 이행하고 있다.
GPT나 Claude라는 인프라 위에서, 누가 어떤 가치를 만드는가? 그 경쟁이, 진정한 의미에서 막 시작되고 있다.
그렇다면, 한국의 승부처는 어디인가?
나는 데이터 사이언티스트 겸 LLM엔지니어, 워크플로우 아키텍처로서, 다양한 산업 현장에서 AI 도입을 함께해왔다. 제조업, 의료, 물류, 금융 그 과정에서 반복적으로 확인한 것은, '모델의 성능'보다 '현장과의 정합성'이 성패를 가른다는 현실이다.
한국이 보유한 것은, 세계에서도 유례를 찾기 어려운 "도메인의 깊이"다.
제조업: 반도체·디스플레이·조선 공정 데이터는 수십 년간 축적된 세계 최고 수준의 현장 노하우다.
의료: 건강보험심사평가원(HIRA)과 국민건강보험공단이 보유한 전 국민 의료 청구 데이터는, 연속성과 커버리지 측면에서 세계 어느 나라와 견줘도 압도적이다.
K-콘텐츠: 드라마, 웹툰, 게임, K-pop 등 한국어 기반의 창작 데이터와 글로벌 팬덤은 AI 콘텐츠 생성 분야에서 독보적인 자산이다.
금융·핀테크: 토스, 카카오페이, 네이버페이로 대표되는 초연결 금융 생태계의 거래 데이터
스마트팩토리: 자동차·전자 업종에서 축적된 공정 최적화·품질 관리 데이터
이처럼 비디지털 영역에 잠들어 있는 도메인 데이터와, 그것을 읽고 해석하는 현장 지식은, 미국의 테크 기업들이 아무리 많은 GPU를 쌓아도 하루아침에 복제할 수 있는 자산이 아니다.
물론 이 방향성은 공식 문건에도 담겨 있다. 그러나 정부의 전략 문서에 기술되는 순간, 살아있는 현장의 이야기는 종종 관료적 언어 속에서 추상화된다. 이 책에서는, 그것을 현장의 시각에서 구체적으로 되살려나갈 것이다.
이 연재는, 다음의 물음에 정직하게 마주한다.
파운데이션 모델을 만들 수 없는 나라가, AI로 이길 수 있는가.
이길 수 있다면, 어떤 방식으로, 누가, 무엇을 무기로 싸우는가.
전략론에 그치지 않고, 현장에서 실제로 무슨 일이 일어나고 있는지도 함께 쓴다.
PoC의 무덤: 한국 기업에서 AI 파일럿이 본 사업으로 이어지지 않는 구조적 원인
한국어 특화 모델: HyperCLOVA X, EXAONE이 보여주는 가능성과 한계
의료 데이터라는 거대한 잠재 자산: 세계 최고 수준의 데이터가 왜 제대로 활용되지 못하는가
반도체 제조 AI: 한국이 실제로 글로벌 우위를 점할 수 있는 분야
데이터 사이언티스트의 생존 전략: 기반 모델이 범용화되는 시대에 요구되는 스킬셋
1차 정보와 공개 데이터를 바탕으로, 근거 있는 주장을 쌓아가고자 한다. 동시에, 현장에 발을 딛고 있는 사람으로서의 나의 판단도 솔직하게 쓴다.
비관도 낙관도 아닌, 정직함. 그것이 이 책의 태도다.
"한국 AI는 이미 늦었다"는 말을 들으면서도, 아직 뭔가 할 수 있다는 감각을 버리지 못하는 데이터 사이언티스트와 엔지니어
AI를 도입하고 싶은데, PoC 단계에서 계속 막혀버리는 기업의 실무 담당자
정책 문서나 언론의 AI 담론이 현장의 감각과 너무 멀다고 느끼는 모든 사람
K-콘텐츠, 반도체, 의료라는 한국만의 자산을 AI와 어떻게 연결할지 고민하는 사업 기획자
©2024-2026 MDRules dev., Hand-crafted & made with Jaewoo Kim.
이메일문의: jaewoo@mdrules.dev
AI강의/개발/기술자문, Claude Code 전문강의, AI 업무 자동화 컨설팅 문의: https://talk.naver.com/ct/w5umt5
AI 업무 자동화/에이전트/워크플로우설계 컨설팅/AI교육: https://mdrules.dev