얀 르쿤의 '월드 모델'과 인공지능 기술의 미래

- 월드 모델은 LLM 방식을 뛰어넘을 것인가?

Dec 26. 2025

최근 메타를 떠난 딥러닝 기술의 3대 아버지 중 한 분인 얀 르쿤에 관한 소식이 들려옵니다. 퇴사한 이후 그는 AMI(Advanced Machine Intelligence) Labs란 스타트업을 차렸는데, 곧바로 기업 가치가 30~35억 달러로 평가받고 있습니다.

몇 번 말씀드린 적이 있지만, 르쿤은 현재 LLM 방식의 인공지능 아키텍처의 한계를 초지일관 지적하고 있는 학자입니다. 확률적 언어 선택에 의한 문장 생성기는 ‘환각의 족쇄’로부터 자유로울 수 없고, 적절하고 안정적인 확률적 선택을 위해 어마어마한 양의 토큰과 파라미터를 사용해야 하고, 이들을 처리하기 위해서 소용되는 또 막대한 양의 전력과 연산 장치들, 발열과 냉각 비용까지 따지면, 이런 방식의 인공지능 한계는 분명하다고 지적합니다.

그가 내세운 것은 ‘월드 모델’입니다. 제대로 된 인공지능은 세상을 시각적, 물리적으로 이해해야 합니다. 그래서 학습된 데이터 없이도 물리적 환경을 경험하여 그 안에서 원칙을 발견하고, 이를 이후 판단의 근거로 삼을 수 있으며, 이 역시 매우 효율적 운영을 통해 인간 정도의 에너지만 사용할 수 있어야 제대로 된 인공지능이라 할 수 있겠죠. 인간은 대략 20W 정도의 전력으로도 지금의 문명을 이루었습니다. 그에 반해 현재 LLM 기반 인공지능이 소비하는 에너지의 양은 최신 가속기 한 대당 700W에서 1000W 이상의 전력을 소모합니다. 인간과 비교해서는 지금보다 35~50배 이상의 전력 효율 혁신을 가져와야 할 과제가 현 인공지능 기술에 있다 할 겝니다.

르쿤이 제안한 월드 모델은 예측 부호화를 통해 에너지 소모의 효율화를 꾀합니다. 이는 뇌과학에서 말하는 ‘베이지안 뇌 가설’과 유사한 구조를 지닙니다. 베이지안 뇌 가설에 따르면, 우리 뇌는 수동적으로 입력되는 모든 정보에 반응하는 것이 아니라, 내부에 자신만의 모형 세계를 만든 후 사전 확률과 사후 확률을 통해 그 세계를 업데이트함으로써 예측 오류를 최소화하는 방향으로 설계되었다는 주장입니다. 그러니까 사람이라면 저마다 자신 내부에 자신의 경험으로부터 재구성한 ‘작은 세계’가 있고, 그것에 기반해 세상과 조우하고 반응하다가 예측이 틀어지는 오류나 일탈이 생기는 경우 내부의 세계를 수정하거나 업데이트하여 예측의 확률을 높이는 방식으로 운영된다는 이론입니다. 르쿤의 월드 모델도 구조적으로 이와 매우 유사합니다.

르쿤이 주창한 월드 모델의 핵심 알고리듬은 JEPA(Joint-Embedding Predictive Architecture)인데 이를 쉽게 이야기해 보면 다음과 같습니다. 현재 LLM 모델이 도서관형으로 수조 개의 문장을 학습케 하고, “이런 질문에는 이런 답을 해야 한다” 혹은 “다음에 올 단어는 이것이다”를 해결하기 위한 통계적 확률에 익숙해진 글쓰기 기계라 한다면, 월드 모델은 야생형에 가깝습니다. 이제 인공지능은 텍스트가 아니라 동영상이나 온라인 공간의 모형 세계를 보고, 경험하면서 각각의 대상의 물리적 세계에 반응하는 모습을 학습하게 됩니다. 벽에 막히는 공을 보면서, 아래로 떨어지는 물체들을 수만, 수백만 번 관찰하면서 자연스레 물리적 세계의 원리를 터득하게 하는 방식입니다. 그래서 르쿤이 이 모델에 ‘세상’이란 이름을 붙인 겁니다.

르쿤의 월드 모델 인공지능은 비생성적 방식 기반입니다. 현재 생성형 인공지능은 앞차의 번호판 글씨, 길가에 굴러다니는 낙엽의 모양과 색깔, 구름의 이동 경로와 모양, 크기까지 그대로 구현하려 노력합니다. 그래서 엄청난 연산과 그에 부응하는 에너지를 필요로 합니다. 반면 르쿤의 JEPA 방식 기반 월드 모델은 낙엽이나 구름, 그리고 자동차 번호 등은 무시합니다. 그에게 필요한 것은 “앞차가 속도를 줄이면 나도 줄여야 한다!”는 핵심적 의미에만 집중하며 미래를 예측하게 만드는 겁니다. 그래서 기본적으로 생성형 인공지능보다는 에너지 소모가 훨씬 줄어들게 됩니다. 이런 방식을 통해 인간과 유사한 20W 수준의 에너지 효율성을 보이면 그야말로 비할 데 없이 좋은 결과가 될 수 있겠죠.

이를 기반으로 결국 피지컬 인공지능(Embodied AI)을 구현하는 것이 르쿤의 기획입니다. 물론 이 역시 쉽지는 않습니다. 우선 인공지능에게 신체성을 확보해 주기 위해선 앞서 언급했던 여러 난제들을 기술적으로 공학적으로 극복해야 하기 때문입니다. 효율적 연산을 위해 어쩌면 지금의 GPU나 TPU와는 전혀 다른 방식의 연산 칩도 만들어야 할지도 모릅니다. 가급적 독립된 신체에 자율적 인공지능 에이전트를 구동하기 위해선 대부분의 부품이 경량화 소형화되어야 할 겁니다. 그래야 인간이 감당할 정도의 스케일을 지닌 안드로이드를 구현할 수 있기 때문이죠. 허나 그것만으로도 부족하고 전원 케이블 없이 인간의 활동 시간 정도에 달하는 운영 시간을 보장할 수 있는 전원 관리 기술도 성장해야 할 겁니다.

요행히 이 모든 난관을 기술적으로 극복한다 하더라도, 과연 이 ‘물건’을 어떻게 경제적 손실 없이 효과적으로 사용할 것인가에 대한 사회적 합의도 필요할 겁니다. 최우선적으로 공공성을 확장하기 위한 영역에 사용할 것인지, 곧바로 상업용 안드로이드 시장을 개척할 것인지 고민의 파고는 계속 이어질 겁니다. 아무리 정교한 안드로이드형 인공지능을 만들었다고 하더라도 수천만 원을 호가하는 이 물건을 설거지 용으로만 쓰는 것은 매우 사치스러운 낭비가 될 테니 말이죠. 인간의 인건비를 생각하면, 차라리 단순 노동으로도 충분한 일거리를 맡을 수 있는 곳(청소, 고령인 돌보미, 위험한 의료 환경, 건설 현장 등)부터 대체되어 가지 않을까 싶습니다.

지금의 LLM 기반 인공지능은 계속해서 인간의 사무 환경을 주도하는 컴퓨팅 작업의 API로 자리 잡을 것이고, 또 B2C와 B2B 플랫폼을 통해 최적의 경제적이고 꽤 수준 있는 ‘글쓰기 기계’로 자리 잡을 가능성이 커 보입니다. 그리고 자율주행과 공공적이나 위험하고 단순한 노동 현장에는 르쿤의 JEPA 기반 인공지능이 활약할 날도 머지않은 걸까요? 인공지능 분야의 기술 발전을 지켜보는 재미 또한 쏠쏠합니다.

keyword