"본 글은 한국지능정보사회진흥원의 지원을 받아 작성되었습니다.
한국지능정보사회진흥원이 저작권을 보유하고 있으며 승인 없이 이슈리포트의 내용 일부 또는 전부를 다른 목적으로 이용할 수 없습니다."
지난 1월에는 피지컬AI를 위한 플랫폼 현황을 정리하면서 기반이 되는 VLA 모델의 최근 발전 동향과 여러 모델을 소개했다. 이번 달에는 피지컬AI를 위한 현재 가장 중요한 연구 주제인 월드 모델 또는 월드 파운데이션 모델과 이를 기반으로 플랫폼을 개발하는 주요 기업의 전략을 소개하도록 한다.
지난달에 소개한 VLA 모델만으로는 즉각 반응은 가능하지만, 미래 예측 능력이 부족하고, 장기 계획을 세우기 어려우며, 새로운 물리 상황을 일반화하기 어렵다. 즉 정책 학습으로는 물리적 특성에 대한 이해를 충분히 갖추기 어렵기 때문이다. 예를 들어 물체가 넘어질 수 있음에 대한 예측, 밀면 어디로 굴러갈지 예상하기 어렵고, 보이지 않는 물체에 대한 상태 추정이 불가한데 이는 VLA에는 세상에 대한 동력학 모델이 없기 때문이다.
월드 모델은 에이전트가 환경의 잠재 상태 동력학을 내부적으로 시뮬레이션하는 생성 모델이라고 할 수 있다. 여기에는 관측을 압축 세계 상태로 변환하는 ‘상태 표현 모델’, 행동이 세상을 어떻게 바꾸는지 학습하는 다이나믹스 모델, 실제로 행동하기 전에 내부 시뮬레이션을 수행하는 이미지네이션/롤아웃 모델의 세 가지 구성 요소가 있다.
월드 모델에 대해 얀 르쿤은 그의 JEPA 모델이나 뉴립스 발표 등을 통해 ‘월드 모델은 에이전트가 행동의 결과를 예측하기 위해 학습한 세계의 내부 에너지 기반 표현이다.”라고 말했으며, 페이페이 리는 공간 지능 이니셔티브 등을 통해 월드 모델은 ‘에이전트가 3D 공간 속에서 자신과 환경의 관계를 이해하도록 만드는 구조적 세계 표현이다.’라고 말했다. 이들의 주장은 부분적으로는 피지컬 AI에서 언급하는 월드 모델에 대한 정의를 담고 있지만 둘 다 완전히 피지컬AI를 위한 월드 모델의 특성을 담아내고 있지는 못한다.
얀 르쿤의 모델은 체화된 물리적 현실성이나 에이전트가 계획한 행동이 실제 물리 세계에서 실행 가능하는지 판단하는 행동 실행 가능성 계층이 명확하지 않으며, 페이페이 리의 정의는 세계가 무엇으로 이루어졌는지를 정의하는 점에서 엔비디아의 옴니버스와 유사함이 있지만 예측 인과성이나 문제 해결을 위한 계획 수립의 루프가 부족해 인지적 그라운딩에 머물고 있다고 평가할 수 있다.
엔비디아는 월드 모델을 자사 블로그를 통해서 다음과 같이 간결하게 정의하고 있다.1)
월드 모델은 물리적 특성과 공간적 속성을 포함한 현실 세계의 역학을 이해하는 신경망이다. 텍스트, 이미지, 비디오, 움직임 등의 입력 데이터를 사용하여 현실적인 물리적 환경을 시뮬레이션 하는 영상을 생성할 수 있다.
지니 3를 통해 범용 월드 모델을 개발하고 있는 구글의 경우는 월드 모델을 AGI 구현을 위한 근본적인 접근으로 설명하고 있다.2)
“세계 모델은 환경의 역동성을 시뮬레이션하여 환경이 어떻게 진화하고 행동이 어떤 영향을 미치는지 예측한다. 특정 환경을 위한 에이전트를 개발한 경험이 있지만, 일반 인공지능(AGI)을 구축하려면 현실 세계의 다양성을 탐색할 수 있는 시스템이 필요하다. 지니 3는 사용자가 움직이고 세상과 상호작용할 때 실시간으로 앞길을 생성한다. 역동적인 세계의 물리법칙과 상호작용을 시뮬레이션하는 동시에, 획기적인 일관성을 통해 로봇 공학, 모델링, 애니메이션, 픽션 제작부터 장소 탐색 및 역사적 배경에 이르기까지 모든 현실 세계 시나리오를 시뮬레이션할 수 있다.”
월드 모델은 피지컬AI의 보조 시스템이 아니라 지능을 반응 시스템에서 예측 시스템으로 전환하는 핵심 구조이다. 피지컬AI는 행동을 하기 전에 세상의 미래 상태를 예측할 수 있어야 하며, 언어 모델이 다음 토큰을 예측하는 것에 머문다면, 월드 모델은 물체의 운동, 접촉, 마찰, 가려짐, 인간 행동, 장기 환경 변화 등을 모두 예측해야 하기 때문이다. 이에 대한 상태 변화를 내부적으로 모델링하는 것이 월드 모델이다.
피지컬 AI를 에이전틱 AI 다음의 화두로 미는 엔비디아는 월드 모델을 다음과 같이 분류한다.
예측 모델: 텍스트 프롬프트, 입력 비디오 또는 두 이미지 사이의 보간을 기반으로 세계를 예측하고 연속적인 움직임을 합성한다. 이를 통해 사실적이고 시간적으로 일관된 장면을 생성할 수 있으므로 비디오 합성, 애니메이션 및 로봇 동작 계획과 같은 응용 분야에 유용하다.
스타일 전송 모델: 콘트롤넷(ControlNet)이라는 모델 네트워크를 사용하여 특정 입력에 따라 출력을 제어한다. 콘트롤넷은 분할 맵, 라이다 스캔, 깊이 맵 또는 에지 검출과 같은 구조화된 지침에 따라 모델 생성을 조절한다. 입력 지침을 시각적으로 반영함으로써, 레이아웃과 움직임을 제어하는 동시에 텍스트 프롬프트에 기반한 다양하고 사실적인 결과물을 생성할 수 있다. 따라서 디지털 트윈 시뮬레이션 및 환경 재구성과 같이 구조화된 이미지 또는 비디오 합성이 필요한 응용 분야에 유용하다.
추론 모델: 다양한 형태의 입력을 받아 시간과 공간에 걸쳐 분석하며, 강화 학습 기반의 사고 연쇄 추론 방식을 사용하여 상황을 파악하고 최적의 행동을 결정한다. 이러한 모델을 통해 실제 데이터와 합성 데이터를 구분하고, 로봇 학습에 유용한 데이터를 선택하고, 로봇의 행동을 예측하고, 자율 시스템의 물류를 최적화하는 등 복잡한 작업을 처리할 수 있다.
그러나 엔비디아가 가장 강조하는 것은 코스모스라는 월드 파운데이션 모델로 확장성과 일반화 가능성 요건을 충족하는 특수한 유형의 월드 모델이다. 방대한 양의 레이블이 지정되지 않은 데이터셋으로 학습된 이러한 신경망은 다양한 피지컬 AI 작업에 적용될 수 있다. 뛰어난 일반화 능력 덕분에 개발자는 더 작은 규모의 특정 작업 데이터셋으로 추가 학습을 진행할 수 있는 사전 학습된 기본 모델로 활용할 수 있어, 다양한 피지컬 AI 애플리케이션 개발 속도를 크게 향상시킬 수 있다.
코스모스는 2025년 1월 CES에서 처음 발표했다.3) 코스모스는 단순 월드 모델이 아니라 예측과 세계 생성, 물리 추론을 수행할 수 있는 모델로 특정 에이전트의 내부 모델이 아니라 로봇, 차량, 산업 시스템이 공유하는 세계를 생성하는 인프라 역할을 하기 때문이다. 파운데이션 모델이라는 단어에 방점이 찍혀 있다.
다음에 설명할 테슬라의 경우 현실 세계를 통해 경험을 축적해 신경망이 월드 모델을 묵시적으로 내포하게 만드는 전략이라면, 엔비디아는 기본적으로 현실 세계에서는 수십억 번의 상호작용, 실패 경험, 희귀 상황, 접촉 다이나믹스를 수집하기 어렵다는 판단에 AI가 학습할 수 있는 세계 자체를 대량 생산하는 방안을 취했다.
코스모스는 사전 학습 모델을 기반으로 사후 학습이 가능하며, 다양한 도메인에서 추가로 제공하는 비디오 데이터를 공급할 수 있는 파이프라인을 제공한다.
코스모스를 만들기 위해 엔비디아가 투입한 자원을 보면 DGX 클라우드에 있는 H100급 GPU 1만 장 이상을 사용했으며 2천만 시간 규모의 영상 데이터를 사용해 사전 학습을 했다. 여기에는 드라이빙, 손동작, 인간 동작, 공간 인지, 자연 동역학 등 다양한 분야의 영상 데이터가 사용되었음을 알 수 있다.
엔비디아는 피지컬 AI를 위한 플랫폼을 옴니버스라는 물리적으로 일관된 디지털 세계를 실행하는 시뮬레이션 운영체제와 그 위에 옴니버스에서 실행될 세계를 생성하는 코스모스, 그리고 최상위에 세계를 이해하고 행동을 생성하는 VLA 모델로 계층화했다. 코스모스에서 생성한 세계는 물리적 타당성을 옴니버스를 통해서 검증한다. 엔비디아의 VLA는 직접 현실에서 배우는 것이 아니라 대부분의 학습은 코스모스와 옴니버스를 통해서 이루어진 시뮬레이션 세상에서 배운다.
VLA 모델은 분야별로 하나씩 발표하는데, 휴머노이드 로봇을 위한 GR00T와 자율 주행을 위한 알파마요, 그리고 GR00T의 리즈닝을 강화한 아이작(Isaac) GR00T N1.6 등이 있다. 이와 관련한 내용은 지난 1월에 소개를 했기 때문에 그 부분을 참고하기 바란다.
엔비디아가 피지컬 AI를 위한 플랫폼을 옴니버스, 코스모스, VLA 모델로 계층화한 이유는 지능, 세계, 신체의 스케일 법칙이 다르기 때문이다. 특히 물리는 신경망에 맡기면 안 된다는 판단으로 옴니버스라는 시뮬레이션 엔진으로 분리했다. 월드 모델은 계속 커질 수 있지만 실제 물리적 개체인 로봇이나 차량에 들어가는 온보드 모델을 작아야 하기 때문에 코스모스는 데이터센터에서 동작하는 모델로 만들고, 각 신체에 필요한 지능 구조와 특성에 맞춘 VLA를 만들어서 실제 세계에서 동작하도록 하는 것이다. 다시 말해 옴니버스를 통해서 물리 정확도를 확보하고, 코스모스를 통해 데이터 다양성을, VLA를 통해 행동 최적화를 꾀하는 것이다.
엔비디아는 피지컬 AI를 볼 때, AI가 세계 안에서 동작하는 것이 아니라 세계 인프라 위에서 동작하는 애플리케이션으로 본다. 이런 계층 구조와 역할 분리를 통해서 어떤 로봇 회사, 자동차 회사, 제조 공장이라도 엔비디아 세계 위에서 개발이 가능하도록 하는 것이다. 엔비디아는 로봇을 만드는 것이 아니라 모든 로봇의 기반을 장악하고자 한다.
또한 이런 계층적 구조를 통해 기술적 확장성뿐 아니라 정책 투명성과 설명 가능성을 구조적으로 가능하게 하고자 한다. 엔드투엔드 방식은 책임 소재 분리가 불분명하다. 그러나 엔비디아의 아키텍처는 실제로 어떻게 동작했는지, 어떤 시나리오로 훈련했는지, 왜 이 행동을 선택했는가를 분리해서 파악할 수 있게 했다. 이런 구조는 여러 규제 기관이 요구하는 조건을 잘 만족시킬 수 있으며, AI 얼라인먼트 측면에서도 중요하다.
그러나 단점으로 말할 수 있는 측면도 존재하는데, 먼저 월드와 에이전트를 분리함으로써 생기는 현실 갭이다. 보통 Sim-to-Real 갭이라고 하는데 에이전트는 시뮬레이션 세계에 최적화되어 있지만 시뮬레이션이 실제 세상을 완벽히 재현하기 어렵기 때문이다. 예를 들어, 미세 마찰 변화, 센서 열화, 재질 불확실성, 인간의 비정형 행동 등이 발생하는 것이 실제 세상이기 때문이다.
두 번째의 문제는 통합 지능 또는 창발성의 발생을 억제하는 문제이다. 이 방식으로는 지능이 환경과 공진화하기 어렵기 때문에 인간식 체화 학습과는 거리가 생긴다. 세 번째로는 계층을 분리하면 투명성이 높아지지만, 문제 발생 시 책임 경계가 존재할 수 있다. 실제 산업에서 통합 악몽이라고 부르는 이 문제는 명확히 한 곳의 책임으로 규정하기 어려운 상황이 발생한다는 것이다.
또 다른 문제는 엔비디아에게는 이점이지만 이 방식은 대규모 GPU 클러스터가 필요하고 지속적인 월드 생성과 시뮬레이션이 필요하기 때문에 컴퓨팅에 들어가는 비용이 크게 증가한다. 이는 엔비디아에게는 기회지만 피지컬 AI 생태계에는 진입 장벽이 될 수 있다. 마지막으로 플랫폼 의존성인데, 이 구조가 성공하면 모든 기업이 엔비디아의 기술 스택에 의존해야 한다는 점이다. 이 점은 국내 기업에게도 매우 중요한 전략적 의사 결정이 필요한 부분이다.
엔비디아 접근 방식에 대해 그리고 다음에 소개할 구글의 방식 모두 과연 월드 시뮬레이션이 진짜 세계를 이해하는 지능을 만들어 낼 수 있는가 하는 질문에서 자유롭지 않기 때문에 가상 세계에서는 완벽하지만, 현실에서는 취약한 AI를 만들어 낼 수 있다. 따라서 현실 데이터를 어떻게 효과적으로 최종 모델에 반영하면서 심투리얼의 문제를 해결해야 하는 가는 여전히 남는 숙제이다.
테슬라는 자율 주행을 인지와 규칙의 기반이 아니라 월드 모델링과 예측을 통해 자율 주행을 실시간 월드 모델 구축 문제로 접근했다. 즉, 차량이 세계를 내부적으로 이해하고 미래를 예측하도록 하는 것이다. 그러나 테슬라는 ‘월드 모델’이라는 용어를 자주 쓰지 않으며, 오토노미 스택 전체가 사실상 월드 모델이다.
여기에는 세계의 상태를 표현하는 공간 점유 모델인 Occupancy Network가 있으며 이는 주변 공간 전체를 3D 확률 공간으로 표현한다. 즉, 객체 리스트가 아닌 연속적 세계 표현을 담으며, 다중의 카메라는 통합된 4차원 세상을 통해 시간적으로 세상이 어떻게 달라지는지를 추정한다.
자율 주행에서 핵심 중 하나는 지금 보이지 않는 것이 어디에 있는가에 대한 추론인데, 예를 들어 가려진 보행자나 코너 뒤의 차량 같은 것을 말하며, 네트워크 내부 메모리를 통해 과거 관측 유지, 속도 추정, 의도 예측을 한다. 이는 사실상 잠재적 세계 상태 추적 능력이다.
그러나 테슬라 오토노미의 핵심은 예측 능력이다. 차량은 단순히 현재를 인식하는 것이 아니라 보행자가 건널 확률, 차량 합류 의도, 신호 변화, 충돌 가능 추적 등을 현재의 세계 기반으로 미래 세계의 확률을 계산한다. 그다음은 계획 수립 단계인데, 현재 세계 상태에서 여러 미래 궤적을 생성하고, 충돌/안전/편안함을 평가한 후, 최적 행동을 선택한다.
테슬라의 엔드-투-엔드 오토노미는 인지-계획수립-제어를 하나의 신경망으로 통합하는 것이지만, 내부적으로 세계 표현, 예측, 계획 수립이 잠재 공간에서 발생하고 있다. 테슬라의 월드 모델의 가장 큰 특징은 실제 주행 데이터를 이용해 수백만 대의 차량이 세계 모델 학습 센서의 역할을 하고 있는 것이며, 명시적인 물리 모델이 없이 뉴럴 네트워크 안에 묵시적으로 학습된 물리법칙을 갖고 있는 것이다.
테슬라의 아쇼크 엘루스와미는 2025년 10월 엑스닷컴을 통해 테슬라의 자율 주행 접근 방식에 대한 상세한 의견을 올렸다.4) 그 내용을 기반으로 몇 가지 논점을 살펴보기로 한다. 우선 테슬라가 엔드투엔드 방식으로 자율 주행을 접근하는 데에는 다음과 같은 이유가 있다.
인간의 가치를 배우는 것은 매우 어렵다. 데이터를 통해 가치를 배우는 것이 훨씬 쉽다.
인지, 예측 및 계획 간의 인터페이스는 명확하게 정의되어 있지 않다. 엔드투엔드 방식에서는 제어 장치에서 센서 입력에 이르기까지 모든 단계에서 변화가 발생하여 전체 네트워크가 총체적으로 최적화된다.
실제 로봇 공학의 방대한 데이터와 긴 꼬리 패턴을 처리할 수 있도록 손쉽게 확장 가능하다.
동질적 컴퓨트에 결정론적인 잠재성을 갖는다.
전체적으로 확장 법칙이 맞는 면이 있다.
그러나 실제 세상에서의 주행 데이터로만 자율 주행을 완성하기에는 매우 드문 상황 데이터가 충분하지 않다. 이런 문제를 해결하기 위해 테슬라도 신경망 기반 월드 시뮬레이터를 만들었다. 이 시뮬레이터는 테슬라가 직접 구축한 방대한 데이터셋을 기반으로 학습을 진행하지만 기존 방식처럼 현재 상태를 기반으로 다음 행동을 예측하는 대신, 신경망 기반 월드 시뮬레이터는 현재 상태와 다음 행동을 입력받아 미래 상태를 예측한다. 이렇게 생성된 시뮬레이터는 에이전트 또는 정책 기반 AI 모델과 연동하여 폐쇄 루프 방식으로 실행하고 성능을 평가할 수 있다.
월드 시뮬레이터는 테슬라가 자체적으로 학습시켜 차량의 모든 카메라 및 기타 센서 데이터를 생성한다. 시뮬레이터는 인과 관계를 기반으로 하며 주행 정책 모델의 명령에 반응하는데, 빠른 속도를 자랑하면서도 고해상도, 고프레임률, 고품질 센서 데이터를 생성할 수 있다.
이러한 시뮬레이션은 최신 주행 모델을 과거 데이터와 비교하여 검증하는 데 사용할 수 있으며, 추가적인 예외 상황을 테스트하기 위해 새로운 적대적 시나리오를 인위적으로 생성할 수도 있다.
테슬라는 이런 개발 환경과 모델 적용을 차량 자율 주행뿐만 아니라 휴머노이드 로봇인 옵티머스에도 적용할 수 있다고 주장한다. 동일한 비디오 생성 모델이 테슬라 기가팩토리를 탐색하는 옵티머스 로봇에도 적용할 수 있다는 것이다.
그러나 하나의 거대한 신경망을 통해 내포된 월드 모델을 표현하고 물리적 법칙을 현실 데이터를 통해서 신경망이 학습하도록 하는 것은 완전함이나 확장성에 한계를 가질 수 있고, 오류가 발생했을 때 이를 추적하거나 설명하는 것이 쉽지 않을 수 있다. 나아가 엔비디아가 추구하는 책임성과 투명성을 보장하는 것이 어렵기 때문에 이 방식을 다른 영역에서 모두 받아들일 수 있을 것인가 하는 의문이 든다.
이런 측면에서 중국의 자율 주행차 기업들이 초기에는 주로 구글 웨이모의 방식을 채택했다가 최근에 테슬라 방식으로 전환을 하고 있으나 여러 기업은 카메라 기반의 완전한 엔드투엔드가 아니라 안전 문제로 센서와 고해상도 지도를 포함하는 하이브리드 방식을 취하고 있다. 여기에는 화웨이 ADS, BYD, 모멘타, 샤오미, 샤오 펭 등이 포함되어 있으나 향후에는 대부분 월드 모델과 지도가 필요하지 않는 엔드투엔드 신경망을 기반으로 하는 테슬라 모델로 발전할 것으로 본다.
그다음에 등장한 것이 드리머(Dreamer)이다.6) 드리머는 월드 모델을 먼저 배우고 그 안에서 행동을 학습하는 방식을 취했다. 드리머 버전 3는 단일 설정으로 150개 이상의 제어 과제를 해결하며 범용 제어 문제에서 성능을 입증했다. 이는 로보틱스 월드 모델에 직접적인 기반이 되었다.
2023년에 등장한 PaLM-E는 언어 모델과 피지컬 센서를 통합한 모델이다. 이를 통해 LLM이 세계 모델의 일부가 될 수 있음을 보였다. 그러나 구글은 인지와 제어만으로는 부족하다는 것을 깨닫고 중요한 것은 체화된 논증이라는 인식을 갖고 로보틱스 트랜스포머 계열인 RT-2를 발표했다. 이를 통해 로봇이 상황 의미 이해, 행동 목적 추론, 새로운 행동 생성을 수행해야 함을 확인했다. 구글은 인지를 기반으로 물리적 실체를 제어하기 위한 VLA 모델인 제미나이 로보틱스와 제미나이 로보틱스-ER을 발표했는데 이는 1월 호에서 소개했기 때문에 더 설명을 하지 않는다.
2025년부터 구글 딥마인드는 대규모 생성형 월드 시뮬레이터를 구축하고 범용의 월드 모델을 만들기 시작했는데, 대표적인 것이 지니(Genie)이다. 2024년 2월 지니 1을 시작으로 2025년 8월 지니 3를 발표했다. 이는 텍스트로부터 상호작용이 가능한 세계를 생성하고, 실시간 탐색이 가능하며, 행동에 따라 세계를 변화할 수 있게 했다. 즉, 세계를 이해하는 것이 아니라 세계 자체를 생성하는 방향을 선택했다. 즉 구글 딥마인드는 ‘세계 안에서 행동하는 AI’를 만들기 위해 게임 세계로 시작해, 생성 세계를 통해 실제 로봇 세계에 적용하기 위한 월드 모델을 단계적으로 확장해 왔다.
이는 구글이 자율 주행 같은 문제를 풀려는 것보다는 지능 자체의 생성 원리를 풀고자 하는 것이며, 구글이 갖고 있는 거대한 데이터를 기반으로 피지컬 AI를 적용할 수 있는 일반 월드 모델을 만들고자 했으며 이를 통해서 AGI로 가는 연구가 이어질 수 있다고 봤다. 딥마인드는 월드 모델은 물리적 환경에 대한 깊은 이해를 바탕으로 환경을 시뮬레이션해야 한다는 것이다.
테슬라가 현실 데이터를 이용하고자 했다면 딥마인드는 현실 데이터를 얻는 것은 너무 느리고 비용이 많이 드는 문제가 있다는 것 외에도 수조 번의 상호작용과 위험 없는 실험을 해야 하고 희귀한 상황을 생성하기 위해서는 AI가 스스로 세계를 형성해야 한다는 결론에 도달한 것 같다. 그러나 현실 세계에 기반을 두어야 하기 때문에 제미나이 로보틱스를 통해 실제 로봇 학습을 실행하고 체화된 지능을 위한 데이터셋을 구축하는 것도 사실이다.
지니 3의 한계는 아직 여러 가지가 있다. 현재는 에이전트가 수행할 수 있는 행동의 범위가 제한되며, 공유 환경에서 다른 에이전트와 상호작용이나 시뮬레이션 하는 것은 아직 연구 과제이다. 또한 실제 위치를 정확히 표현하는 수준의 시뮬레이션이 아니며, 텍스트 렌더링도 한계가 있고 아직은 몇 분 정도의 상호작용만 지원할 수 있다.
알파고를 만든 데이빗 실버가 이제는 AI가 스스로 세계를 알아나가는 경험의 시대로 넘어서야 한다고 주장하면서 최근에 이네퍼블 인텔리전스라는 스타트업을 세운 점에 주목해야 한다. 이제는 AI가 텍스트가 아닌 상호작용과 피드백을 통해 학습해야 하며, 그렇게 하기 위해서는 세상에 대한 모든 특성과 제약을 담은 월드 모델이 가장 핵심에 있어야 하는 것이다.
지금까지 투자자들도 파운데이션 모델에 가장 많은 돈을 투자했다면 2030년까지는 가장 많은 투자는 월드 모델에 대한 투자일 것이라는 것이 피치북의 2026년 AI 아웃룩 자료에서 제시한 전망이다.
우리가 지금까지 두 번에 걸쳐 피지컬 AI를 위한 AI 플랫폼의 현황을 살펴보았지만 국내에서 이에 대응할 수준의 자체 모델은 아직 매우 미흡하다. 맥스 얼라이언스를 통해 VLA 방식의 제조 특화 파운데이션 모델을 만든다는 것이 현재 진행되고 있는 수준이다.
그러나 피지컬AI에서 가장 중요한 핵심이 월드 모델임을 빨리 인식해야 하며, 이를 만드는 데는 매우 많은 시간과 자원이 필요한 점 역시 깨우쳐야 한다. 그러나 이런 월드 모델 (명시적이던 묵시적이던) 자체도 아무리 정교히 만들어도 실 세계를 완벽히 반영할 수 없을 것이라는 점에서 이 갭을 해결하기 위한 노력 역시 필요하다.
국가적으로는 엔비디아, 테슬라, 구글의 플랫폼이 뛰어나더라도 우리 피지컬 AI 산업의 기반을 해외 기술에 의존하게 할 수는 없다는 점에서 LLM 모델에서 소버린 AI 전략을 추진한 것과 마찬가지로 피지컬 AI 플랫폼에서도 소버린 정책이 필요하며 이를 어떤 단계로, 체계적으로 추진할 것인가는 우리에게 남아있는 매우 중요한 과제이다.
참고문헌
1) NVIDIA, “What Is a World Model?” https://www.nvidia.com/en-us/glossary/world-models/
2) Google, “Project Genie: Experimenting with infinite, interactive worlds,” Jan 29, 2026
3) NVIDIA,”NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development,” Jan 6, 2025
4) Ashok Elluswamy, “Tesla’s approach to Autonomy,” X.com, Oct 24, 2025
5) Google DeepMind, “MuZero: Mastering Go, chess, shogi and Atari without rules,” Dec 23, 2020
6) Google Research, “Introducing Dreamer: Scalable Reinforcement Learning Using World Models,” Mar 18, 2020