LLM(대규모 언어 모델)은 하루가 다르게 우리의 일상 속으로 파고들고 있습니다. 그러나 동시에, AI 연구의 거장들은 여전히 “지능의 본질은 무엇인가”라는 근본적인 논의를 이어가고 있습니다. 과연 현재의 LLM은 무엇을 학습하는 걸까요? 단순히 다음 단어를 예측(next token prediction) 하는 모방 기계일 뿐일까요, 아니면 모방 자체가 지능의 본질일까요?
최근 The Bitter Lesson으로 잘 알려진 리처드 서튼은 팟캐스트 진행자 Dwarkesh Patel과의 대화에서 이 문제를 정면으로 다뤘습니다. 그는 LLM이 주도하는 현재의 AI 흐름에 근본적인 한계가 있다고 지적하며, “지능은 모방이 아니라 경험으로부터 배우는 능동적 과정”이라고 강조했습니다. 그리고 지금의 LLM 열풍 역시 결국 “Bitter Lesson의 반복”이 될 것이라고 경고합니다.
이 맥락에서 주목받는 개념이 바로 월드 모델(World Model)입니다. ChatGPT 같은 LLM이 ‘말을 잘하는 AI’라면, 월드 모델은 한 단계 더 나아가 ‘세상을 이해하고 시뮬레이션하는 AI’라 할 수 있습니다.
오늘날 LLM이 보여주는 성과는 눈부십니다. 대량의 텍스트 데이터를 학습한 모델은 자연스러운 대화를 만들어내고, 복잡한 질문에 논리적인 답변을 제시하며, 사람과 협업하는 수준으로 발전했습니다. 수학 문제를 푸는 데 도움을 주거나, 새로운 프로그래밍 코드를 작성해내는 장면은 많은 이들에게 충격을 안겼습니다. 이런 모습을 보면 마치 AI가 이미 세상을 이해하는 단계에 도달한 것처럼 보입니다.
그러나 연구자들의 시각은 조금 다릅니다. 얀 르쿤(Yann LeCun)은 언어 모델의 유용성을 높게 평가하면서도, 그것만으로는 분명한 한계가 있다고 지적합니다. 언어 데이터는 세상의 거울이긴 하지만, 간접적인 반영일 뿐 실제 환경의 인과 구조를 온전히 담지 못합니다. 그는 “진정한 지능을 위해서는 언어 모델 위에 월드 모델을 결합해야 한다”고 주장합니다. 즉, 언어는 세상을 설명하는 창일 수 있지만, 창 너머의 실제 세계를 직접 다루는 능력이 결여돼 있다는 것입니다.
리처드 서튼 역시 같은 맥락에서 LLM을 비판합니다. 그는 LLM을 “사람들의 말을 모방하는 기계”라 규정하며, 목표를 세우고 결과를 예측하는 능력이 빠져 있다고 지적합니다. 서튼은 지능이란 곧 “목표를 달성하기 위해 경험을 통해 배우는 능력”이라고 정의합니다. 이 정의에 비춰볼 때, LLM은 지능의 껍데기는 흉내내지만 본질에는 도달하지 못한 셈입니다.
따라서 LLM이 아무리 인상적인 결과를 내더라도, 인간과 같은 수준의 지능을 구현하기에는 근본적 한계가 있습니다. 이 한계를 넘어설 대안으로 월드 모델 개념이 부상하게 된 것입니다.
LLM과 월드 모델은 모두 세상을 재현하려 하지만, 방식은 근본적으로 다릅니다.
LLM은 언어라는 거대한 데이터 축적물에서 패턴을 찾아냅니다. 수많은 책, 논문, 블로그, 소셜미디어 글을 학습하면서 언어적 규칙성과 지식을 내재화합니다. 덕분에 “공을 던지면 어떻게 될까?”라는 질문에 “포물선을 그리며 날아간다”는 답을 내놓을 수 있습니다. 심지어 물리 공식을 불러와 궤적을 계산하는 시늉도 할 수 있습니다. 그러나 이는 본질적으로 기억된 공식을 꺼내 적용한 것이지, 실제 세계 경험에서 비롯된 이해는 아닙니다.
반대로 월드 모델은 공식을 외우지 않습니다. 대신 직접 세상과 부딪치며 학습합니다. 아이가 공을 던져 보고, 그 결과를 눈으로 확인하며 “이 정도 힘이면 저쯤에 떨어지겠구나”라고 감각을 익히는 것과 같습니다. 이 학습은 정확한 수학적 계산이 아니라 직관적이고 경험적인 이해에 기반합니다.
즉, LLM은 언어 속 세계를 학습하고, 월드 모델은 경험 속 세계를 학습합니다. LLM은 기록된 텍스트라는 “간접 신호”를 통해 세상을 흉내 내는 반면, 월드 모델은 직접 세계와 상호작용하며 “내적 시뮬레이션”을 구축합니다. 이 차이가 바로 두 접근법의 본질적인 경계입니다.
LLM 옹호자들은 종종 반박합니다. “수조 개의 문장을 학습한 모델이라면, 세상에 대한 어떤 암묵적 세계 모델을 이미 내재하고 있는 것 아니냐?”라는 것이죠.
실제로 최근 연구들은 LLM 내부 표현이 물리 법칙, 인과 관계, 상식적 지식을 일정 부분 반영한다는 증거를 제시합니다. 예를 들어 ‘물체가 바닥으로 떨어진다’거나 ‘전등을 켜면 주변이 밝아진다’ 같은 기본적 상식이 모델 내부에서 통계적 패턴으로 드러나기도 합니다. 이는 LLM이 단순한 언어 모방을 넘어, 데이터 속에서 세계의 규칙성을 암묵적으로 학습했음을 시사합니다.
하지만 그 수준은 아직 미약합니다. 다양한 벤치마크 실험은 LLM이 일부 상황에서 인과적 추론을 흉내 낼 수 있으나, 실제 상황 예측이나 계획 수립에서는 쉽게 한계를 드러냅니다. 즉, LLM은 “말로 표현된 세계”는 능숙하게 다루지만, 실제 상호작용을 통해 형성되는 살아 있는 세계 모델과는 거리가 있습니다.
따라서 LLM이 내재하는 암묵적 세계 모델은 한계가 구조적으로 명확합니다. 인간 지식 자체가 여전히 불완전하고 편향돼 있기 때문입니다. 현대 문명이 축적한 지식은 방대하지만, 세상의 모든 현상을 온전히 이해한 것은 아닙니다. 따라서 LLM은 인간 지식을 흉내 내는 수준에서는 유용할 수 있으나, 그것만으로는 인간을 넘어서는 창의적 발견이나 근본적 혁신을 이루기는 어렵습니다.
여기서 흥미로운 질문이 이어집니다. “AI가 반드시 완전한 세계 모델을 가져야 할까?” 사실 인간조차 완전한 세계 모델을 갖고 있지 않습니다. 인간 지능은 완벽한 시뮬레이터가 아니라, 불완전하지만 상황에 충분히 유용한 모델 위에서 작동합니다.
AI도 마찬가지일 수 있습니다. LLM이 암묵적으로 세계 모델을 품고 있느냐의 문제는 정도의 차이로 보는 편이 타당합니다. LLM은 방대한 언어 데이터를 통해 “세상에 대한 그림자 모델”을 만들지만, 그것은 경험 기반 월드 모델의 대체물이 아니라 보완물에 가깝습니다.
그렇다면 질문은 자연스럽게 이렇게 이어집니다. “진짜 월드 모델은 어떻게 만들어지는가?”
월드 모델의 본질은 단순합니다. “세상과 상호작용하며 구축되는 지능의 지도”입니다. 단순히 외부 데이터를 흡수하는 것으로는 부족합니다. 핵심은 행동과 그 결과의 반복적 경험에 있습니다. 내가 어떤 행동을 했을 때 세상이 어떻게 반응하는지를 통해, 모델은 점차 세상의 구조와 규칙을 내재화합니다.
가장 직관적인 비유는 아이의 학습 과정입니다. 아이는 책으로 중력을 배우기 전에 이미 알고 있습니다. 이유는 단순합니다. 공을 던져보고, 컵을 밀어보고, 넘어져 보고—이런 경험을 통해 세상이 어떻게 움직이는지 몸으로 터득하기 때문입니다. 머릿속에 작은 시뮬레이터가 생기고, 거기서 “이렇게 하면 저렇게 될 것”이라는 예측을 돌려보는 것이죠. 바로 이것이 월드 모델의 핵심입니다.
이러한 원리는 이미 다양한 연구와 시스템에서 구현되고 있습니다.
・ 구글 딥마인드 Genie 3 (2024) : Genie 3는 단순히 게임 영상을 재생하는 것이 아니라, 비디오 데이터에서 세계의 규칙을 추출해 새로운 상호작용 가능한 환경을 만들어냅니다. 이는 학습된 영상을 ‘재현’하는 차원을 넘어, 내적 시뮬레이션 엔진처럼 작동한다는 점에서 월드 모델의 성격을 띱니다.
・ NVIDIA Cosmos (2024) : Cosmos는 수많은 멀티모달 데이터를 학습해 세계 전반에 대한 일반화된 이해를 시도하는 대규모 모델입니다. 단순히 텍스트나 이미지를 처리하는 것이 아니라, 물리적 상식, 공간적 추론, 시간적 패턴까지 포괄하려는 점에서 월드 모델에 가까운 접근입니다. 즉, Cosmos는 단일 과제 해결을 넘어 “세상 그 자체를 모델링하려는 시도”라 볼 수 있습니다.
・ 비디오 생성 모델 (Sora, Pika, Runway 등) : 비디오 생성은 단순히 프레임을 잇는 작업이 아닙니다. 공이 굴러가다 멈추거나, 액체가 쏟아지는 장면처럼, 시간적 연속성과 물리적 일관성을 유지해야 자연스럽습니다. 따라서 비디오 생성 모델은 결과적으로 세계의 물리적 규칙과 인과 구조를 암묵적으로 내재화하게 됩니다. 즉, “비디오 생성 모델 = 경험 없는 월드 모델의 초기 형태”라고 해석할 수 있습니다.
완전한 월드 모델은 아마 존재하지 않을지도 모릅니다. 인간조차 세상의 모든 변수를 계산하지 못하니까요. 하지만 불완전하다고 해서 지능이 아닌 것은 아닙니다. 오히려 지능이란, 불확실한 세계 속에서 충분히 잘 작동하는 능력에 가깝습니다.
자율주행차는 도로의 모든 가능성을 예측하지 못해도 목적지에 도달합니다. 로봇은 물체의 모든 물성을 알지 못해도 물건을 들어 올립니다. 이들은 끊임없는 시도와 수정 속에서 세상을 이해하고, 그 과정 자체로 더 똑똑해집니다. 지능은 완벽한 계산이 아니라, 경험을 통한 자기 갱신의 과정입니다.
그렇기에 AI 연구의 초점은 “완전한 세계를 복제할 수 있는가”가 아니라, “불완전한 세계 속에서도 배워 나갈 수 있는가”로 옮겨지고 있습니다. 예측이 틀렸을 때 빠르게 교정하는 능력, 처음 보는 상황에서도 합리적으로 대응하는 일반화 능력, 그리고 자신이 모르는 것을 인정하는 겸손함—이 세 가지가 진정한 지능의 징표입니다.
LLM은 지식의 시대를 열었습니다. 이제 월드 모델은 지식 이후의 지능, 즉 세상과 함께 성장하는 존재를 향한 첫걸음이 될 것입니다. 우리가 향하는 방향은 분명합니다. 데이터를 흉내 내는 지능에서, 세상을 살아가는 지능으로. 이것이 바로 월드 모델이 던지는 궁극의 질문이자, AI가 인간의 지능을 진정으로 닮아가기 위한 다음 여정입니다.