PoC 빈곤의 근본 원인과 악순환의 연쇄 구조
"한국의 AI는 뒤처져 있다"는 이야기는 자주 들린다.
그런데 그 "뒤처짐"의 구체적인 내용을, 제대로 구조적으로 분해해본 사람은 얼마나 될까?
"투자가 부족하다"
"인재가 없다"
"대기업이 움직이지 않는다"
어느 것도 틀린 말은 아니다. 하지만 그것만으로는 처방전을 쓸 수 없다.
의사가 "몸 상태가 나쁩니다"라는 말만 남기고 진찰을 끝내는 것과 다를 바 없다.
현장의 데이터 사이언티스트/LLM엔지니어로서 내가 일관되게 느끼는 것은, 한국 AI의 과제는 "하나의 큰 문제"가 아니라, "4가지 구조적 결여가 서로 맞물려 작동하고 있다"는 것이다.
그 4가지란, 자본·계산 자원(GPU)·데이터·인재다. 각각을 순서대로 해부해나간다.
먼저 가장 직관적으로 이해하기 쉬운 자본 문제부터 시작한다.
1장에서도 짚었지만, 2024년 민간 AI 투자액은 미국이 1,091억 달러(약 160조 원)이며, 한국은 약 13억 달러(약 1.8조 원) 수준으로 추정된다. 그 격차는 약 80배다.
여기서 중요한 것은, 단순히 "돈의 차이"로만 읽어서는 안 된다는 점이다.
자본의 차이는, 속도의 차이로 직결된다.
파운데이션 모델 개발 경쟁은 스케일링 법칙(Scaling Law)에 의해 지배된다.
계산량·데이터량·파라미터 수를 늘리면 늘릴수록 성능이 향상된다라는 이 경쟁에 뛰어들기 위해서는, 지속적이고 대규모의 투자가 전제 조건이다.
최첨단 모델의 규모는 이미 1조 파라미터를 넘었고, 1회 학습에 필요한 계산 비용은 수백억 원 이상으로 알려져 있다.
연간 1.8조 원의 민간 투자 규모로는, 최첨단 모델을 몇 차례 학습시키면 예산이 소진된다는 계산이다.
연구 개발 사이클을 반복적으로 돌리는 것 자체가 불가능하다.
이것은 '노력'이나 '전략'으로 메울 수 있는 차이가 아니다.
경쟁의 무대 자체가 근본적으로 다르다는 인식에서 출발해야 한다.
자본 문제와 직접 연동되는 것이 계산 자원 중 특히 GPU 문제다.
NVIDIA의 GPU는 「현대의 원유」로 불리며, 사실상 국가 차원의 쟁탈전이 벌어지고 있다.
대규모 언어 모델 학습에는, 수천~수만 기의 GPU가 수 주에서 수 개월 동안 쉬지 않고 가동될 필요가 있다.
한국에서도 GPU 인프라 확충의 움직임은 있다.
KT클라우드, NHN클라우드, 네이버클라우드 등 주요 클라우드 사업자들이 H100 기반의 AI 인프라를 확충하고 있으며, 정부의 국가 AI 컴퓨팅 센터 구축 계획도 추진 중으로 NVIDIA GPU 26만개를 계약하여 현재 조금씩 한국으로 들어오고 있는 중이다.
인프라 정비가 진전되고 있는 것은 사실이다.
그러나 그 규모는, 글로벌 경쟁 수준과 비교하면 어떨까.
OpenAI는 2025년 말까지 '100만 기를 훌쩍 넘는 GPU'를 가동시킬 계획이라고 밝히고 있다. 자릿수가 세 개 다르다. (최근 미국내에 대규모 데이터센터를 짓고 있다가 GPU수급 문제로 이 사업을 전면 철회한 상황임)
더욱 핵심적인 문제는, GPU를 확보하는 것만으로는 부족하다는 점이다. GPU를 효율적으로 활용하기 위한 소프트웨어 스택, 분산 학습 기술, 모델 최적화 노하우 등 이것들이 유기적으로 쌓여 있지 않으면, 하드웨어의 잠재력을 실제 성능으로 전환하지 못한다. (한국의 소버린 AI 대회에서는 기업과 기관, 대학교가 컨소시엄을 이루고 다양한 실증을 해보고 있어 단시간이내 노하우를 쌓을 수 있는 기회가 되고 있다.)
미국 빅테크 기업들은 이 "에코시스템"을 수년에 걸쳐 내재화해왔다. 한국에는 그 축적이 얕다.
현장 경험으로 말하자면, 필자도 몇년간 미국 빅테크기업에서 근무하면서 경험하게 된 에코시스템 환경에 상당한 충격을 받았다. 한국 기업이 AI 인프라에 투자하고자 할 때, 결국 AWS·Google Cloud·Microsoft Azure 등 미국 하이퍼스케일러에 의존할 수밖에 없는 경우가 대부분이다.
이것은 경제적 의존의 문제에 그치지 않는다. 데이터의 지정학적 리스크이다. 즉, 한국의 핵심 산업 데이터가 해외 클라우드 인프라 위에 올라가는 구조로 이어지는 문제이기도 하다. 이 부분은 이후 장에서 별도로 다루겠다.
"한국에는 데이터가 없다" - 이 말은 자주 들리지만, 반만 맞다.
정확하게 표현하면, "한국에는 데이터가 있다. 다만, AI 학습에 바로 투입할 수 있는 형태로 정비되어 있지 않다"이다.
파운데이션 모델 학습에 활용되는 데이터를 이야기하자면, 영어 인터넷 텍스트는 압도적인 양을 자랑한다.
Common Crawl(웹 크롤 데이터), Wikipedia, 도서 데이터 등 이것들은 영어가 자릿수 차이로 풍부하며, 한국어는 구조적으로 소수파에 머문다.
GPT 계열 모델이 영어로 압도적인 성능을 발휘하면서, 한국어에서는 상대적으로 정확도가 낮아지는 현상은 이 때문이다.
그러나 진짜 문제는 인터넷 텍스트 데이터가 아니다. 산업 데이터가 핵심이다.
반도체·디스플레이 공정의 품질 관리 데이터
건강보험심사평가원(HIRA) 및 국민건강보험공단의 의료 청구 데이터
스마트팜·기상청의 농업 기상·생육 로그
금융결제원·각 금융사의 이상 거래 탐지 데이터
한국은 이것들을 세계 최고 수준의 규모와 정밀도로 보유하고 있다.
그러나 그 대부분이 '종이 문서' 또는 '레거시 ERP·MES 시스템' 안에 갇혀 있어, AI 학습에 곧바로 투입할 수 있는 형태가 아니다.
현장에서 가장 뼈저리게 느끼는 것이 바로 이 "데이터 전처리 지옥"이다.
데이터를 수집하고, 클렌징하고, 레이블링하고, 그제야 학습에 사용 가능한 상태로 만든다라는 과정에 AI 프로젝트 전체 공수의 6~7할이 소비되는 것도 전혀 드문 일이 아니다.
모델을 만들기 전에, 데이터를 '만드는' 비용이 지나치게 많이 드는 것이다.
또 하나의 구조적 문제가, 데이터의 분산과 사일로화다.
한국의 대기업은 수직 계열 조직이 강하고, 사업부를 넘어 데이터를 공유하는 문화가 뿌리내리지 않았다. 같은 그룹사 안에서도, 생산 라인과 품질 관리 팀의 데이터가 연동되지 않은 경우가 비일비재하다.
이런 상황에서는 AI에게 학습시키는 것은 물론, 그 전 단계인 데이터 분석의 도마 위에 올리는 것조차 불가능하다.
"AI 인재가 부족하다"는 말은 매년 반복되지만, "무엇이" 부족한지를 층위별로 뜯어보면, 문제의 본질과 해법이 달라진다.
숫자를 먼저 보자.
과학기술정보통신부 자료에 따르면, 2030년까지 국내 AI·데이터 분야에서 수만 명 규모의 인재 부족이 예상되고 있다.
또한 한국 기업 중 AI 및 DX 추진 전문 인력이 충분하다고 답한 기업의 비율은 현저히 낮으며, 이 경향은 제조·의료·공공 분야에서 특히 두드러진다.
그러나 내가 현장에서 느끼는 '부족'의 본질은, 수보다 종류의 문제다.
AI 인재를 크게 나누면, 3가지 계층이 있다.
연구자층 (기반 모델을 설계·개발하는 사람)
엔지니어층 (모델을 구현·파인튜닝·운용할 수 있는 사람)
비즈니스 브릿지층 (AI와 현장 업무 과제를 이어주는 사람)
이 3계층 중, 한국에서 특히 공급이 부족한 것은 비즈니스 브릿지층이다.
연구자층이 얇은 것은 사실이지만, 그것은 앞서 살펴본 자본·계산 자원 문제와 직접 연동된 결과이기도 하다.
엔지니어층은 최근 부트캠프·대학원 AI 트랙 확충으로 서서히 공급이 늘고 있다.
진짜 위기는, AI 기술과 현장 업무 과제를 이어줄 수 있는 인재의 부재다.
데이터 사이언티스트가 모델을 만들어도,
"현장에서 어떻게 사용할 것인가"
"어떤 KPI와 연결할 것인가"
"기존 업무 플로우에 어떻게 내재화할 것인가"
를 설계할 수 있는 사람이 없다.
결과적으로 PoC는 성공 판정을 받지만, 본 도입 단계에서 멈춰버린다.
이것이 한국에서도 반복되는 "PoC의 무덤" 현상의 인재 측 구조적 원인이다.
한국데이터산업진흥원(K-DATA)의 최근 조사에서도, AI·데이터 직종에 대한 현업의 이해도는 여전히 낮고, 전문직으로서의 사회적 지위 확립은 아직 갈 길이 멀다.
기술적 역량을 넘어, AI를 실제 기업 업무와 연결하여 측정 가능한 가치를 창출할 수 있는 인재. 즉, 이른바 "AI 비즈니스 아키텍트"의 육성이 지금 가장 시급한 과제다.
즉, 문제는 "AI를 배우는 사람이 적다"가 아니다.
"AI와 업무를 연결할 수 있는 사람이 자랄 수 있는 환경이 없다"는 것이다.
이 미묘하지만 결정적인 차이가, 해결책의 방향성을 완전히 바꾼다.
여기서 핵심은, 이 4가지 결여가 각자 독립적으로 존재하는 것이 아니라, 서로 맞물려 악순환을 형성하고 있다는 사실이다.
1. 자본이 적다
2. 계산 자원(GPU)을 충분히 확보할 수 없다
3. 학습 실험의 사이클을 반복할 수 없다
4. 연구자가 성장하지 못하거나, 해외로 빠져나간다
5. 우수한 인재가 미국 빅테크·글로벌 스타트업으로 유출된다
6. 더욱 자본이 집중되지 않는다
이런 구조가 고착된다.
데이터 문제도 별도의 악순환을 형성한다.
데이터를 AI에 투입 가능한 형태로 정비되어 있지 않다
↓
AI 프로젝트에서 유의미한 성과가 나오지 않는다
↓
투자 대비 효과(ROI)가 가시화되지 않는다
↓
다음 투자 승인이 나지 않는다
↓
데이터 인프라 정비가 계속 후순위로 밀린다
이 루프가 반복된다.
이 연쇄를 끊으려면, 어느 한 지점에 집중적이고 구조적인 개입이 필요하다.
그 개입점이 어디인지는 이후 장에서 본격적으로 논하겠지만, 우선 "악순환의 구조 자체를 이해하는" 것이 모든 논의의 출발점이 되어야 한다.
마지막으로, 시각을 한번 전환해보고 싶다.
한국이 "AI 경쟁에서 졌다"는 표현은, 어떤 측면에서는 맞고, 어떤 측면에서는 부정확하다.
정확히 말하면, "파운데이션 모델을 만드는 특정 경쟁에 처음부터 구조적으로 참가하기 어려운 조건이었다"는 것에 가깝다.
그리고 그 경쟁에서 거대한 자본과 GPU 클러스터와 영어 데이터를 갖춘 자만이 이길 수 있는 게임이, 과연 한국이 전력을 쏟아야 할 무대였는가, 라는 물음은 여전히 유효하다.
다음 장에서 본격적으로 논하겠지만, "파운데이션 모델을 만드는 경쟁"과 "AI로 실질적인 가치를 만드는 경쟁"은 구조적으로 전혀 다른 게임이다.
한국이 후자에서 이길 수 있는 가능성은, 전자에서의 격차만큼 비관적이지 않다.
©2024-2026 MDRules dev., Hand-crafted & made with Jaewoo Kim.
이메일문의: jaewoo@mdrules.dev
AI강의/개발/기술자문, Claude Code 전문강의, AI 업무 자동화 컨설팅 문의: https://talk.naver.com/ct/w5umt5
AI 업무 자동화/에이전트/워크플로우설계 컨설팅/AI교육: https://mdrules.dev