LLM은 이제 끝물이다. 월드모델이 AGI를 촉발시킨다

픽셀을 만드는 AI와 세상을 이해하는 AI는 전혀 다른 존재다

by SeaWolf

Mar 30. 2026

잠깐 상상해보자.

당신이 길을 걷다가 갑자기 맞은편에서 큰 개 한 마리가 뛰어온다.

당신의 뇌는 0.1초 만에 결정한다. 왼쪽으로 피할까, 오른쪽으로 피할까, 아니면 그냥 서 있을까.

지금까지의 AI는 이 장면을 그릴 수 있었다. 무섭게 달려오는 개, 뒷걸음치는 사람, 흔들리는 나뭇잎까지.

그런데 그 AI는 피할 수는 없었다.

영상을 만드는 것과 상황을 이해하는 것

ChatGPT가 나왔을 때 사람들은 놀랐다. Sora가 나왔을 때도 사람들은 놀랐다.

근데 솔직히 말하면, 이 둘은 근본적으로 같은 방식이다.

"다음에 올 것이 뭔지 예측하는 것."

ChatGPT는 다음 단어를 예측하고, Sora는 다음 픽셀을 예측한다.

엄청나게 정교하고, 엄청나게 유용하지만— 이 AI들은 세상이 어떻게 돌아가는지 이해하는 게 아니다. 그냥 통계적으로 그럴듯한 다음 프레임을 만들어낼 뿐이다.

그래서 Sora로 만든 영상에서 사람의 손가락이 6개가 되고, 물리 법칙이 무너지고, 화면이 길어질수록 공간이 와장창 무너진다.

World-Model-a-Hugging-Face-Space-by-FINAL-Bench-03-30-2026_04_50_AM.png

그러면 진짜 월드 모델은 뭐가 다를까

국내 스타트업 비드래프트가 이번 주 PROMETHEUS(프로메테우스) 라는 걸 공개했다.

이름부터 심상치 않다. 그리스 신화에서 프로메테우스는 신들의 불을 훔쳐 인간에게 준 존재다. 인식의 불을 AI에게 주겠다는 뜻이다.

PROMETHEUS가 하는 일은 이렇다.

3D 캐릭터를 불러온다. AI가 주변 상황을 인식한다. 위협이 있으면 어디로 피할지 스스로 판단한다. 그 판단에 따라 몸이 움직인다.

단순해 보이지만, 이게 왜 다른지 설명하겠다.

숫자로 이야기해보자

기존 AI 모션 시스템의 출력:

"달리기 애니메이션 재생"

PROMETHEUS의 출력:

263차원 피처 벡터

— 22개 관절의 위치, 속도, 회전이 전부 담긴 숫자 뭉치.

이게 왜 중요하냐면, 이 숫자는 실제 로봇에 그대로 꽂을 수 있다.

산업용 로봇 팔의 서보 모터. 휴머노이드 로봇의 보행 제어기. 별도의 번역 작업 없이.

영상 AI는 화면을 만든다. PROMETHEUS는 행동 신호를 만든다.

근본적으로 다른 물건이다.

"그럼 엄청난 컴퓨터가 필요하겠네요"

여기가 반전이다.

NVIDIA Cosmos, 현대차 AI, 구글 DeepMind의 월드 모델들— 이것들은 전부 A100, H100 같은 억 단위 GPU 수십 장이 필요하다.

PROMETHEUS는?

VRAM 16GB짜리 일반 GPU 하나면 된다.

RTX 5070. T4 Small. 회사 서버실에 있을 법한 그 GPU.

인터넷 연결도 필요 없다. 완전 로컬에서 돌아간다.

국방, 제조, 의료 같이 "인터넷에 데이터 못 내보내는" 산업에서 즉시 쓸 수 있다는 뜻이다.

World-Model-a-Hugging-Face-Space-by-FINAL-Bench-03-30-2026_04_53_AM (1).png

두뇌를 갈아끼울 수 있다는 것

여기서 또 하나의 결정적인 차이가 있다.

세상에 나와 있는 대부분의 AI 시스템은 두뇌와 몸이 하나로 붙어 있다. OpenAI 모델을 쓰려면 OpenAI에 종속되고, 구글 모델을 쓰려면 구글 인프라에 묶인다.

PROMETHEUS는 다르게 설계됐다. AI 두뇌(LLM)와 몸(모션 엔진)이 완전히 분리되어 있다.

GPT 계열을 두뇌로 쓰고 싶으면? 된다.

Claude를 쓰고 싶으면? 된다.

Gemini를 쓰고 싶으면? 된다.

Llama, Qwen, EXAONE 같은 오픈소스를? 당연히 된다.

인터넷 차단 환경에서 완전 로컬 AI를? 그것도 된다.

API 엔드포인트 주소 하나만 바꾸면 끝이다.

이게 왜 엄청난 강점이냐면—

AI 세계는 6개월마다 판도가 바뀐다. 오늘의 최고 모델이 내일은 구형이 된다. 기존 시스템들은 그때마다 전체를 갈아엎어야 한다.

PROMETHEUS는 두뇌만 바꾼다. 몸은 그대로.

마치 스마트폰에서 앱만 업데이트하듯이. 더 강한 LLM이 나올수록, PROMETHEUS도 자동으로 강해진다.

World-Model-a-Hugging-Face-Space-by-FINAL-Bench-03-30-2026_04_53_AM.png

개발하면서 발견한 것

비드래프트 팀이 개발하면서 가장 놀란 것은 따로 있다고 했다.

LLM 두뇌와 3D 몸통을 처음 연결했을 때— 아무도 시키지 않았는데 캐릭터가 스스로 도망칠 방향을 고르기 시작했다.

적이 왼쪽에서 오면 오른쪽으로. 막혀 있으면 뒤로. 뒤도 막혀 있으면... 그 자리에서 공황 상태처럼 머뭇거린다.

프로그래밍된 행동이 아니다. 판단에서 나온 행동이다.

텍스트만 다루던 AI가 공간적 자기인식을 갖게 되는 순간, 예상치 못한 무언가가 발현됐다.

지금 어디에 있나

솔직히 말하면, 아직 초기다.

3단계 로드맵 중 1단계 — 데모 공개 — 에 있다. 실제 로봇 팔에 붙이거나, 휴머노이드에 이식하는 건 아직이다.

그러나 벤치마크는 이미 만들었다.

WM Bench — 월드 모델의 인지 능력을 측정하는 세계 최초의 평가 기준.

NC AI, NVIDIA Cosmos, Google DreamerV3를 같은 기준으로 놓고 줄을 세운다. 점수를 매기는 자가 기준을 만든다.

왜 이게 중요한가

물리 세계를 이해하는 AI가 실용화되는 순간, 이건 소프트웨어 혁명이 아니라 물리 세계 혁명이 된다.

공장이 바뀌고. 병원이 바뀌고. 도시가 바뀐다.

그 출발점이 한국의 스타트업 지하 어딘가에서 16GB GPU 하나로 조용히 시작됐다.

PROMETHEUS는 현재 HuggingFace에서 무료로 체험 가능하다. WM Bench 데이터셋과 리더보드도 함께 공개됐다.

비드래프트 (VIDraft) "픽셀을 예측하는 AI와 물리 세계를 이해하는 AI는 근본적으로 다른 기술이다"

월드모델 '프로메테우스' 체험 링크

https://huggingface.co/spaces/FINAL-Bench/World-Model

World Model - a Hugging Face Space by FINAL-Bench

World-Model

https://huggingface.co/spaces/FINAL-Bench/World-Model

월드모델 벤치 리더보드 링크

https://huggingface.co/spaces/FINAL-Bench/worldmodel-bench

WORLD MODEL - a Hugging Face Space by FINAL-Bench

WORLD MODEL

https://huggingface.co/spaces/FINAL-Bench/worldmodel-bench

월드모델 벤치 데이터셋 링크

https://huggingface.co/datasets/FINAL-Bench/World-Model

FINAL-Bench/World-Model · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

https://huggingface.co/datasets/FINAL-Bench/World-Model

keyword

작가의 이전글AI의 뇌를 들여다보다 — 한국이 LLM MRI 만들다AI 모델도 '교배'가 된다고? 부모보다 똑똑한 자식!작가의 다음글