AI 사대천왕이 퇴사하는 이유

AI에 세상 이치를 가르치는 '월드 모델'

by 먀 ai

[2025년 11월 18일 먀 AI 뉴스레터로 발행한 글입니다.]

매주 가장 빠르게 소식을 받아보고 싶다면, 지금 바로 구독하세요!


AI 사대천왕이라 불리는 인물 중 하나인 얀 르쿤이 메타를 떠납니다. 컴퓨터 과학계의 노벨상이라 불리는 튜링상을 수상한 얀은, 메타가 AI 연구를 본격적으로 시작하던 시점부터 함께해 온, 메타 AI의 상징과도 같은 인물이었는데요. 왜 돌연 퇴사를 결심한 걸까요?

ce13e96a79f04365bb66cba54282797b.png 얀 르쿤. 출처: 게티이미지

사실 관심있게 지켜봐왔다면, 얀의 퇴사 소식은 아주 놀랍지는 않습니다. 그동안 개인 SNS나 인터뷰 등에서 공개적으로 'LLM 한계설'을 주장해왔기 때문이지요:


언어 모델은 언어 패턴 생성기다.
진짜 인간의 지능을 모방하려면 세상을 이해해야 하는데,
이는 언어 모델로는 부족하다.

사람은 다양한 정보를 동시 다발적으로 이해해 세상의 물리적이고 인과적인 관계를 빠르게 파악해가는 반면, 언어로만 학습한 모델은 문장을 만들 줄 알뿐, 진짜 세상을 이해하지는 못한다는 뜻입니다. 얀은 이 문제를 해결하기 위해, 이제는 LLM이 아닌, '월드 모델(World Model)'에 눈을 돌려야 한다고 강하게 주장하는데요. 퇴사 후 월드 모델에 기반한 회사 설립을 계획 중이라고 합니다. 그렇다면, 얀이 LLM의 대안으로 제시하는 월드 모델이란 무엇일까요?


월드 모델이란?

'유리컵을 꽉 쥐면 깨진다'라는 사실을 단순하게 외우고 있는 로봇
vs.
'물체에 힘을 많이 주면 파손되는 구나'라는 개념 자체를 이해하는 로봇


둘 중 하나를 집에 들여야 한다면, 어떤 로봇이 좋을까요?


대부분 후자 로봇을 고르겠지요? 집 안에는 유리컵만 있는 게 아니고, 힘과 손상의 개념을 알아야 물건이든 사람이든, 로봇과 안전하게 공존할테니까요. 이처럼 AI가 현실 세계의 물리 법칙과 인과관계를 이해하고, 그 안에서 '다음엔 무슨 일이 일어날까?'를 알기 위해서는 이 세계가 어떻게 작동하는지를 시험해 볼 수 있는 공간이 필요한데요. 이런 시뮬레이션이 가능한 공간이 바로 월드 모델입니다.


기존 LLM이 텍스트의 통계적 패턴을 학습했다면, 월드 모델은 중력이나 마찰력 등에 의해 이 세계가 어떻게 작동하는지를 학습합니다. AI가 '공을 던지면 떨어진다'는 텍스트를 아는 것을 넘어, 왜, 그리고 어떻게 떨어지는지를 '이해'하게 만드는 것이 바로 월드 모델의 목표지요.

105595_3094292_1763394186856887041.gif 페이페이가 만든 월드 모델 예시. 출처: 월드 랩스

'AI 대모'라고 불리는 스탠퍼드 대학의 페이페이 리 교수 또한 같은 결론에 도달했는데요. 페이페이 역시 LLM 한계와 월드 모델의 필요성을 강조하며, 이를 기반으로 AI가 세상을 이해하는 능력을 '공간 지능(Spatial Intelligence)'이라고 정의합니다.


세상을 3차원 공간에서 제대로 이해하기 위해, AI는

2D를 3D로 만들고

3D 공간을 기억하고

공간 속 물체와 단어를 매칭해 이해하고

그 안에서 움직이고, 움직임에 따른 결과와 장면을 볼 수 있어야 하는데요.


현 시점에서 이 모든 단계가 어떻게 이루어지고 있는지, 함께 알아볼까요?


1단계: 2D 픽셀을 3D 공간으로

공간을 이해하기 위해, AI는 흩어진 2D 이미지들을 보고 그 너머의 3D 공간을 상상하고 재구성할 수 있어야 합니다. 이 과정에서 대표적으로 사용되는 기술은 NeRF와 3D 가우시안 스플래팅(3DGS)이 있는데요. 하나씩 간단하게 알아보겠습니다.


NeRF (Neural Radiance Fields)

NeRF는 수십 장의 2D 사진을 보고, 그 장면 전체를 3D로 재구성하는 기술입니다. 사진 여러 장을 보면서 '이 쪽에서 보면 이런 색이더라' 하고 학습시키면, AI는 장면 전체를 3D로 '상상'해서 기억할 수 있게 되는데요. 새로운 위치에서 보고 싶은 장면을 물어보면 '음, 그 자리에서 보면 이런 모습이겠지!' 하고 새 사진을 만들어 주는 원리입니다. 덕분에 매우 사실적이고 선명하게 3D 장면을 복원할 수 있지만, 공간의 각 지점마다 빛의 색과 밀도를 계산하기 때문에 느리다는 단점이 있습니다. (빠르게 연구가 되고 있지만요!)

4fe9262f1d7c435893291e783cad7862.png NeRF 작동 원리. 출처: AI Summer

3D Gaussian Splatting (3DGS)

3DGS는 NeRF처럼 장면 전체를 3D로 재구성하는 방식과 달리, 장면을 작은 '물감 방울(가우시안 점)' 수백만 개로 표현하여 3D 공간을 시각화하는 기술입니다. 각 점은 고유의 색, 크기, 투명도를 가지며, 학습된 위치와 색상을 기반으로 합성해 한 장의 이미지처럼 보여지지요.

가장 큰 장점은 속도입니다. 다만 점의 크기나 배치가 부정확하면 경계가 흐릿해거나 뭉개질 수 있어, 현실감과 선명도를 높이려면 정교한 조정이 필요합니다.

edbe6b60d5a8405cb164f3cadf12f747.png 가우시안 스팰래팅 예시. 출처: Spline Dynamics


2단계: 3D 공간을 기억 속으로

3D 공간을 인식한 AI는 어떻게 머릿 속에 그 공간을 '저장'하고 '기억'할까요? 페이페이의 월드 모델이 사용하는 두 가지 전략을 알아볼까요?


1. 눈에 보이는 파일로 저장하기

AI가 만든 세계는 두 종류의 파일로 저장할 수 있습니다.

675e9a7b09f34e6b94bea1994395a76c.png 스플랫과 메쉬 예시. 출처: 월드 랩스

물감 방울 방식 Gaussian Splats

위에서 살펴본 3DGS에서 나온 장면을 수많은 작은 색 점으로 저장할 수 있는데요. 수백만 개의 '물감 방울' 데이터 자체를 파일로 저장하는 방식입니다. 3D 장면의 시각적 품질을 가장 높게 보존하지만, 파일 용량이 매우 클 수 있습니다.


전통적인 3D 모델 방식 Mesh
3D 게임에서 보는 캐릭터나 배경처럼, 수많은 다각형(polygon)으로 3D 물체의 뼈대와 표면을 구성하는 방식인데요. 눈에는 보이지 않지만, '벽은 통과할 수 없고, 물건끼리는 부딪힌다'와 같은 물리 계산에 사용되는 '충돌용 메쉬'까지 활용됩니다. 덕분에 AI가 벽을 인식하면, 그에 따른 물리적 상호작용을 시뮬레이션할 수 있지요. 하지만 아직 상용 수준으로 구현된 기술은 아닙니다.


2. 눈에 보이지 않게 머릿속에 기억하기

또 다른 방식은 파일로 저장하지 않고, AI 머릿속에서 바로 장면을 기억하는 방식입니다. 단기 기억과 공간 기억을 활용하는데요. LLM이 텍스트를 이해할 때 단기적으로 문맥을 기억하듯, 3D 공간에서도 필요한 부분만 임시로 기억할 수 있습니다. 이 기억은 공간 좌표에 맞춰 정리되어 있기 때문에, 뒤를 돌아봐도 방금 본 장면이 사라지지 않지요. 전체 공간을 모두 기억할 필요가 없는 데다가, 아무리 오래 돌아다녀도 필요한 기억만 꺼내 쓰기 때문에 효율적입니다.


3단계: 추상적 개념을 실제 물체로

5a0fd5360fe84838b56980b39f46d3e9.png 3D 물체 구조에 기반해 만든 월드 모델 결과. 출처: 월드 랩스

AI에게는 '컵'이나 '책상' 같은 단순한 단어도 모두 추상적입니다. 따라서 언어적 개념과 3D 공간상의 실제 물체를 1:1로 연결시켜주는 과정이 필요한데요. 3D 구조와 물체를 매칭시킬 수 있다면, 각 물체에 스타일을 입힐 수도 있습니다. 먼저 3D 블록으로 공간을 인지해 구조를 정의하고, 그 위에 텍스트 프롬프트로 스타일을 덧씌우는 방식이지요. 예를 들어 '아름다운 현대 미술관' 같은 스타일을 배치된 구조 위에 적용하거나, '주방 카운터를 검은색 화강암으로 바꿔줘'와 같이 구체적 지시를 내릴 수 있습니다.

82ffd719179245aaaaa161a766b2965d.png 주방 카운터를 프롬프트로 바꾼 결과. 출처: 월드 랩스


4단계: 관찰자에서 행위자로

AI는 자신이 이해한 3D 세계 안에서 물리 법칙을 예측하고, 목적을 가진 행동을 수행해야 합니다. 현재는 사용자의 움직임에 따라 실시간으로 다음 장면을 생성합니다. 사용자가 '앞으로 가⬆️', '오른쪽으로 돌아➡️' 같은 행동을 입력하면, AI가 다음 장면을 실시간으로 예측하고 계산해서 보여주는 식이지요. 이는 '내가 움직이면(행동), 세상이 바뀐다(예측)'는 월드 모델의 가장 기본적인 형태인데요. 연구자들은 여기서 더 나아가, 이 공간 안에서 벽이나 물건을 인식하고, 부딪히거나 옮기는 '물리적 상호작용'을 하는 수준을 공간 지능의 최종 단계라고 보고 있습니다.

105595_3094292_1763397265184946500.gif 공간 지능을 반영한 월드 모델. 출처: 월드 랩스




우리가 자연스럽게 이해하고 당연하게 받아들이는 세상의 이치는 생각보다 가르치기가 쉽지 않습니다. 얀은 LLM을 네 살배기 아이와 비교하는데요. 네 살짜리 아이가 살면서 흡수한 정보가 최신 LLM이 이해한 데이터보다 50배 이상이 많다고 주장합니다. 매순간, 우리는 수많은 정보를 그 어떤 성능이 좋은 컴퓨터보다 빠르게 처리하고 있다는 의미지요. 빠른 AI 발전 속도가 놀랍지만, 진정으로 놀라운 건 우리가 무의식 속에서 매순간 학습하는 인간의 능력이 아닐까 싶습니다.


이번 레터는 페이페이 리가 만든 월드 모델 플랫폼, 마블의 기술을 중심으로 소개했습니다.



오늘 이야기가 흥미로우셨나요?

다음 이야기는 브런치에 올라오기 전, 이메일로 가장 먼저 받아보세요!


구독하기: https://mmmya.stibee.com/


keyword
매거진의 이전글AI: 원하시면, 식빵 로봇 만들어 드릴게요.