월드 모델 연구 동향 (2022–2026)

Feb 22. 2026

월드 모델이란 무엇인가?

월드 모델(World Model)은 인공지능 에이전트가 환경에 대한 내재적 모델을 학습하는 개념으로, 주어진 관측을 압축해 표현하고 행동의 결과로 환경이 어떻게 변화할지 예측하는 모델을 말합니다[1]. 월드 모델은 강화학습 에이전트의 상상(Imagination)을 가능하게 해주며, 실제로 보지 않은 상황을 정신적으로 시뮬레이션하여 장기 계획을 세울 수 있도록 도와줍니다[2][3]. 이러한 개념은 2018년 하와이 등이 발표한 초기 연구[1]에서 제시되었지만, 2022년 이후 다양한 분야의 발전을 통해 차세대 AI의 핵심 요소로 급부상하고 있습니다[4][5]. 최근에는 강화학습, 자율주행, 로보틱스, 게임 AI, 에이전트형 LLM 등에서 월드 모델이 활발히 연구되고 있으며, 이는 범용 인공지능(AGI)을 향한 중요한 퍼즐 조각으로 여겨집니다[6][4].

강화학습 분야의 월드 모델 적용

강화학습에서 월드 모델은 모델 기반 RL의 형태로 사용되어, 환경의 동적 모델을 예측함으로써 계획적 행동을 가능케 합니다. 2023년 발표된 DreamerV3 알고리즘은 월드 모델을 활용한 대표적인 성과로, 150가지가 넘는 다양한 태스크(로봇 제어, 비디오게임 등)에 단일 구성으로 높은 성능을 보이며, 특히 Minecraft 게임에서 인간 데이터 없이 다이아몬드 채굴 목표를 최초로 성공한 알고리즘으로 주목받았습니다[2][3].

DreamerV3는 환경 모델(월드 모델), 가치망(크리틱), 정책망(액터)의 세 가지 신경망으로 구성되며, 에이전트는 월드 모델로 미래 시나리오를 예측하고 가치망의 평가를 거쳐 최적의 행동을 선택합니다[7][3]. 이를 통해 Dreamer 계열은 모델 프리 RL의 전문 알고리즘들을 여러 분야에서 능가하였고, “상상”을 통한 학습으로 범용성까지 확보하였습니다[8][3]. 특히 DreamerV3는 입력 유형이나 보상의 규모가 다른 환경들에서도 별도 튜닝 없이 학습이 안정되도록 symlog 등의 정규화 기법을 도입하여 범용성을 높였습니다[9]. 이 연구는 2025년 Nature에 실리며 세계적인 주목을 받았는데, “월드 모델을 학습함으로써 상상 속 미래 시나리오로 행동을 개선”할 수 있음을 강조하고 있습니다[5].

한편, 딥마인드의 MuZero 알고리즘은 비록 2020년 발표되었지만, 체스·바둑·아타리 게임 등 정형화된 규칙 환경에서도 모델 학습+계획(MCTS)으로 인간 최고수를 능가하는 플레이를 보여주어 모델 기반 접근의 위력을 입증했습니다. MuZero는 환경의 동적 모델을 내부적으로 학습하여 향후 전개를 예측하고, 트리 탐색과 결합함으로써 알파고/알파제로의 지식 없는 환경에도 적용되었지요. 모델 기반 방법론의 부활로 일컬어지는 이러한 연구들은, 과거 모델 프리 강화학습의 한계를 넘어 표현 학습+모델 예측+계획을 아우르는 새로운 패러다임을 열고 있습니다[3]. 특히 2022~2023년 NeurIPS, ICLR 등 주요 학회에서도 월드 모델 및 모델 기반 RL 논문들이 증가하였으며, Diffuser[10]와 같이 확률적 확산 모델을 세계 모델로 사용해 행동 시퀀스를 생성하거나, CoPlan 등 계획특화 세계모델 연구[11]도 등장했습니다. 요약하면, 강화학습 분야에서 월드 모델의 핵심 트렌드는 “상황을 예측하는 모델을 통해 표본 효율성과 범용성을 개선”하는 것으로 정리할 수 있습니다.

로보틱스에서의 월드 모델 활용

로봇 공학에서는 월드 모델이 현실 세계에서의 학습 효율 문제를 해결하는 열쇠로 떠오르고 있습니다. 2022년 UC버클리 연구진은 DayDreamer라는 알고리즘을 발표하여, 시뮬레이터 없이 실제 로봇이 자신의 세계 모델을 학습하도록 했습니다[12][13]. 이 방법으로 로봇은 센서 데이터를 신경망 월드 모델(인코더+동역학 예측망)로 압축하고, 실제 행동을 통해 모델을 개선하며, 학습된 모델로 가상의 행동 결과를 “상상”하여 추가 학습합니다[14][15]. 그 결과, 기존에는 며칠이 걸리던 로봇 학습이 불과 몇 시간 내에 이뤄져, 네 발 로봇의 기립·보행 (1시간), 로봇팔의 물체 집기 (10시간), 이동 로봇 자율주행 (2시간) 등의 실험적 성공을 거두었습니다[16]. 이는 월드 모델이 실환경 학습과 시뮬레이션의 장점을 결합하여, 실제 로봇이 자신의 환경에 대한 디지털 트윈을 뇌 속에 만들어 빠르게 실력을 향상시킨 사례입니다[15]. 연구진은 “로봇이 스스로 자기 환경의 시뮬레이터를 학습한 것”이라고 비유하며, 월드 모델이 향후 로봇 학습의 플랫폼 역할을 할 것이라 전망했습니다[17][15].

이외에도 로봇 분야에서는 3차원 공간 이해를 위한 월드 모델 연구가 병행되고 있습니다. 예를 들어 Occupancy Network나 NeRF 기반 기법으로 로봇이 실시간으로 주변 환경의 3D 지도를 학습·업데이트하며, 물체 배치나 충돌 여부를 예측하는 방향으로 발전하고 있습니다[18][19]. 특히 NVIDIA는 2025년 코스모스(Cosmos) 프로젝트를 공개하여, 物理 AI (Physical AI)를 위한 월드 파운데이션 모델 플랫폼을 제시했습니다[20]. Cosmos는 대규모 비디오 데이터로 학습된 범용 세계 모델(예: 도로/가정/작업장 등 물리 환경의 생성 모델)을 제공하고, 이를 각종 로봇 응용에 맞게 파인튜닝해 활용할 수 있는 오픈소스 플랫폼입니다[20][21]. 즉, “로봇의 디지털 트윈(정책 모델)과 환경의 디지털 트윈(월드 모델)이 모두 필요”하다는 관점에서 출발한 것으로, 이 플랫폼을 통해 다양한 로봇/자율시스템 개발자들이 자체 월드 모델을 구축하도록 지원하고 있습니다[20][21].

자율주행 분야의 월드 모델 동향

자율주행 차량은 복잡하고 동적인 현실 교통 상황을 다루어야 하며, 최근 연구에서는 월드 모델을 통해 이러한 난제를 풀고자 합니다. 월드 모델은 자율주행에서 멀티센서 데이터(카메라, LiDAR 등)를 일관된 표현으로 통합하고, 시공간적 예측을 수행하는 생성적인 신경 시스템으로 정의됩니다[1]. 차량은 이 내부 모델을 통해 가상 시나리오를 롤아웃(roll-out)하며, 실제 주행 전에 “미리 연습”을 할 수 있습니다[1]. 예컨대 2023년 자율주행 스타트업 Wayve가 발표한 GAIA-1 모델은 9억 개 매개변수 규모의 생성형 월드 모델로, 텍스트·주행영상·주행동작을 동시에 입력받아 향후 도로 상황 비디오를 생성합니다[22][23]. GAIA-1의 코어는 자기회귀 트랜스포머 기반 월드 모델(약 65억 파라미터)로, 이전 영상 토큰과 맥락 정보(운전 명령, 텍스트 지시 등)를 조건으로 다음 영상 프레임들을 예측합니다[23]. 이렇게 생성된 미래 영상 시나리오는 별도의 확산 기반 비디오 디코더를 거쳐 고해상도 동영상으로 출력되며, “차량이 만날 수 있는 다양한 상황을 가상으로 만들어 내는 기능”을 제공합니다[24][23]. GAIA-1 같은 모델을 통해 자율주행 AI는 앞으로 일어날 일들을 예측 및 계획하여, 돌발상황에 선제 대응하고 안전성을 높일 수 있습니다[22]. 실제 Wayve 팀은 “정확한 미래 예측은 차량이 행동을 계획하고 안전을 향상하는 데 필수적”이며, 세계 모델 도입으로 인간 운전자의 결정까지 이해하고 일반화할 가능성이 생긴다고 강조했습니다[22].

학계에서도 자율주행용 월드 모델에 대한 체계적인 정리가 진행 중입니다. 2025년 Feng 등은 자율주행 월드 모델을 3가지 층위로 분류하는 설문 논문을 발표했는데[25][26], (i) 물리 세계의 미래 생성 – 이미지, BEV(Bird’s Eye View), Occupancy Grid, Point Cloud 등을 예측하여 향후 장면을 생성 (특히 Diffusion 모델과 4D Occupancy 예측 활용), (ii) 지능형 에이전트의 행동계획 – 규칙 기반+학습 기반 방법을 결합하여 복잡한 교통 조건에서 고수준 플래닝 수행 (강화학습 및 비용지도 최적화 등), (iii) 예측과 플래닝의 상호작용 – 잠재 공간 상의 diffusion이나 메모리 보강 구조로 다차량 협업 의사결정 수행, 이렇게 세 분야로 나누어 월드 모델 연구를 정리했습니다[27][28]. 이러한 계층적 접근은 “예측-계획 통합”이라는 자율주행의 오랜 과제를 월드 모델로 풀어내려는 시도로 볼 수 있습니다. 실제 산업계에서도 Tesla나 Waymo 등은 차량에 탑재된 월드 모델로 주변을 3D로 파악하고 시뮬레이션하여, 레이더가 가려진 객체의 움직임까지 추론하거나 장면 재현으로 코너 케이스를 생성하는 기술을 발전시키고 있습니다[29][30]. 2024년 Waymo 자회사 연구에서는 BEV 월드 모델을 통한 온라인 경로평가 기법이 소개되었고[31], Vista 등 고화질 운전 시뮬레이터와 결합한 월드 모델 연구[32]도 CVPR 등에 등장했습니다. 즉, 자율주행 월드 모델의 최근 트렌드는 멀티모달 환경 표현 + 미래 예측 + 계획 연동으로 요약되며, 이는 복잡한 교통 시나리오에서 안전하고 적응적인 의사결정을 도와주는 방향으로 발전하고 있습니다[33][34].

게임 AI에서의 월드 모델 활용

게임 인공지능 분야에서도 월드 모델은 캐릭터의 지능적인 행동과 환경 창출 양쪽 측면에서 주목받고 있습니다. 앞서 언급한 Dreamer 계열 알고리즘은 아타리(Atari) 게임이나 DeepMind Lab 3D 환경에서 픽셀 단위로 동작하는 세계 모델을 학습하여, 시각적 복잡성이 높은 게임에서도 모델 프리 기법 이상의 성능을 달성했습니다[8][35]. 예를 들어 DreamerV3는 26종의 아타리 게임(100k 프레임 제한), 55종의 아타리(200M 프레임), 3D 미로 탐사(DMLab) 등 다양한 게임 벤치마크에서 새로운 최첨단 성능을 세웠으며[36][37], 이는 월드 모델이 게임 환경의 물리 및 논리 구조를 효율적으로 내재화해 계획적인 플레이를 가능케 함을 보여줍니다. 또한 월드 모델 + 트리 탐색의 개념은 체스·바둑 같은 보드게임 AI에서도 위력을 발휘하여, 앞서 언급한 MuZero는 게임 규칙을 모르더라도 스스로 월드 모델(게임진행 예측망)을 학습하고 MCTS 계획을 통해 최고 수준의 플레이를 구현했습니다. 이는 게임 AI가 모델 학습을 통해 전략적 상위개념까지 터득할 수 있음을 시사합니다.

한편, 게임 콘텐츠 생성 측면에서 월드 모델을 활용하려는 시도도 나타나고 있습니다. 생성형 AI와 결합된 월드 모델은 게임 내 환경 시뮬레이션이나 레벨 디자인에 활용될 수 있습니다. 예를 들어 OpenAI의 Sora 모델은 본래 비디오 생성 모델이지만, 물리적으로 그럴듯한 동영상 시뮬레이션을 가능케 하여 게임 엔진이 만들어내기 어려운 복잡한 장면을 생성할 수 있습니다[38][39]. Sora 2(2025)는 “비디오의 GPT-3.5”라고 불릴 만큼 발전하여, 농구공이 링을 빗나가면 백보드에 튕겨 나오도록 객체 간 상호작용을 사실적으로 묘사하는 등 기존 모델이 간과하던 물리적 일관성을 크게 향상시켰습니다[39]. 이러한 기술은 향후 게임 시뮬레이션에서도 캐릭터나 물체의 움직임을 더 현실감 있게 만들어줄 것으로 기대되며, 게임 AI가 스스로 세계를 생성하고 그 안에서 “상상 속 플레이”를 테스트하는 용도로 확장될 수 있습니다. 실제로 2024년 발표된 TeleWorld라는 연구는 4차원(3D+시간) 월드 모델을 영상 생성에 도입해, 개가 소파 뒤로 숨었다 다시 나오는 장면에서 카메라 앵글이 바뀌어도 일관성을 유지하는 시연을 보였습니다[40]. NeoVerse라는 연구도 일반 2D 영상 여러 개를 학습해 해당 장면의 3D 공간 모델을 만들고, 임의의 시점에서 새로운 뷰의 영상을 합성해냈습니다[41]. 이러한 4D 월드 모델링 기법은 게임 엔진에 접목되어, 예를 들어 플레이어가 자유롭게 시점을 움직이며 볼 수 있는 동적 장면이나, 현실에 가까운 AR/VR 게임 환경을 생성하는 데 활용될 것으로 전망됩니다[42]. 요컨대, 게임 AI에서 월드 모델은 플레이 전략 학습과 현실감 있는 가상환경 생성 두 방면에서 모두 중요한 역할을 차지하며, 2022년 이후 관련 연구가 급증하는 추세입니다.

에이전트형 LLM과 월드 모델

거대언어모델(LLM)이 다양한 작업의 에이전트로 활용됨에 따라, LLM과 월드 모델의 결합도 중요한 연구 주제가 되었습니다. LLM은 방대한 텍스트 학습으로 세계에 대한 암묵적 지식을 갖고 있지만, 실시간 환경과 상호작용하거나 지속적으로 상태를 업데이트하는 능력은 부족합니다[43][44]. 예컨대 GPT-4 같은 최신 LLM도 훈련 이후 경험으로부터 배우지 못하기 때문에[45], 물리적 세계에서 현재 상태를 인식하고 기억하는 명시적 월드 모델이 없습니다. 이 한계를 인식하여, 연구자들은 LLM을 환경 시뮬레이터와 연동하거나 LLM 내부에 상태 메모리를 부여하는 방향을 모색 중입니다[46][47]. UC버클리의 Kanazawa 교수는 “스트리밍 입력을 받아 세계에 대한 이해를 업데이트하며 행동하는 LLM 비전 시스템이 필요한데, 이는 AGI 달성에 반드시 풀어야 할 과제”라고 지적했습니다[44]. 이러한 비전에 따라, 2024년 Li Fei-Fei 교수는 World Labs라는 연구소/스타트업을 설립하고 텍스트·이미지·동영상·3D 레이아웃 등으로부터 3D 세계를 생성하는 Marble 소프트웨어를 시연했습니다[6]. 또한 페이스북 AI 총괄이었던 Yann LeCun은 2025년 메타를 떠나 AMI Labs를 창업, “물리 세계를 이해하고 지속적 메모리를 지니며 복잡한 행동 시퀀스를 계획할 수 있는 시스템” 개발에 착수했습니다[6][48]. 그는 이미 2022년 포지션 페이퍼에서 인간의 일반화 능력 비결은 “세계 모델을 학습하는 능력”에 있다고 강조한 바 있습니다[4].

에이전트형 LLM과 월드 모델의 결합은 이미 일부 구현 사례에서도 엿볼 수 있습니다. 2023년 발표된 Voyager는 GPT-4를 코치로 삼아 Minecraft 오픈월드 게임에서 스스로 탐험하고 연속 학습하는 LLM 에이전트입니다[49][50]. Caltech, Stanford, NVIDIA 등의 협업으로 개발된 Voyager는 자동 커리큘럼에 따라 새로운 목표를 설정하고, 시도-실패 과정을 코드 형태의 스킬로 축적하면서, 인간 개입 없이 마인크래프트 세계에서 목표 달성 능력을 확장해 나갔습니다[50][51]. 예를 들어, Voyager는 점차 복잡한 도구 제작·건축·탐험 스킬을 익혀 다이아몬드 채굴 단계까지 도달했고, 새로운 세계에 놓아도 배운 스킬들을 활용해 처음 보는 과제도 해결해냈습니다[52][53]. 이는 LLM의 추론력과 월드 모델적인 환경 상호작용이 결합된 사례로, 연구자 Jim Fan은 “호기심과 생존본능으로 동기를 부여받아 열린 환경에서 탐험·계획·학습하는 자율 에이전트가 AI의 다음 단계”라고 언급했습니다[51]. 현재 Voyager 자체는 명시적 세계 모델을 학습하지는 않았지만, 환경으로부터 피드백을 받아 행동을 조정하고 메모리(Library)를 구축했다는 점에서, LLM 에이전트가 내재적 월드 모델을 형성하는 방향으로 진화할 가능성을 보여줍니다.

또 다른 방향으로, 코드 생성 분야에서도 “월드 모델” 개념이 도입되고 있습니다. 메타(Meta)는 2024년 Code World Model (CWM)이라는 320억 파라미터의 LLM을 공개했는데, 이는 단순 코드 문법 예측을 넘어 코드 실행 결과까지 예측하는 세계 모델 개념을 적용한 것입니다[54][55]. CWM은 코드와 함께 실행 트레이스 데이터를 학습하여, 함수나 프로그램이 실행되면 메모리/출력 등 상태가 어떻게 변할지까지 예측할 수 있습니다. 이를 통해 기존 LLM이 놓치기 쉬운 실행 단계 오류를 줄이고 보다 정확한 코드 생성을 목표로 하고 있습니다. 이처럼 지속적으로 상태를 추적·업데이트하는 월드 모델 접근은, LLM을 강화하여 툴 사용, 로봇 제어 등 사실적인 맥락에서 신뢰성 있게 동작하는 에이전트형 AI를 만드는 핵심으로 각광받고 있습니다[46]. 앞으로 LLM과 월드 모델의 결합은 “LLM=언어 및 상식 인터페이스 + 월드 모델=시공간 메모리”라는 구조로 발전할 것이며[46][47], 이를 통해 에이전트 AI가 현실 세계를 이해하고 대응하는 능력이 획기적으로 향상될 것으로 기대됩니다.

주요 연구 및 프로젝트 개요 (2022–2025)

아래 표에는 2022년부터 2025년 사이 발표된 대표적인 월드 모델 연구 및 프로젝트를 요약하여 정리했습니다:

연도연구/프로젝트분야 및 기관주요 내용 및 성과 (기술적 특징)

2022DayDreamer (UC Berkeley)[12][15]

로보틱스 강화학습실제 로봇이 자체 월드 모델을 학습하여 시뮬레이터 없이도 빠른 학습 달성. 4종 현실 로봇에 적용하여 보행·조작 등 과제를 수 시간 내 학습 성공[16]. 인코더+RNN 동적모델+보상모델로 구성, 현실 상상 (imagine reality) 개념 입증.

2023DreamerV3 (DeepMind & U.Toronto)[2][3]

범용 강화학습150+개 태스크에서 단일 설정으로 SOTA 달성 (비디오픽셀 입력 Atari→3D환경까지). 월드 모델+액터-크리틱 구조로, 상상 속 롤아웃 통해 행동 최적화[56]. Minecraft 다이아몬드 수집을 인간 데이터 없이 최초 성공[8][57].

2023GAIA-1 (Wayve)[22][23]

자율주행텍스트+비디오+행동 조건으로 미래 주행 영상을 생성하는 9억 параметр 월드 모델. 자가회귀 Transformer(65억)로 다음 프레임 예측 + Diffusion 디코더로 고품질 동영상 출력. 다중모달 프롬프트로 날씨·환경 제어 가능, 운전자 행동 예측 및 시나리오 생성에 활용.

2024Voyager (Caltech/Stanford/NVIDIA 등)[49][50]

LLM 에이전트GPT-4 기반 자율 에이전트로 Minecraft 오픈월드 탐험. 자동 커리큘럼으로 목표 확장, 스킬 라이브러리 축적으로 평생학습 구현[50][52]. 환경 피드백으로 코드를 개선하는 루프를 통해 다이아몬드 기술트리까지 달성. LLM+월드 상호작용의 가능성 제시.

2024Sora 2 (OpenAI)[38][39]

비디오 생성거대 비디오 생성 월드 모델. 전작 Sora(2024)의 업그레이드로, 객체 영속성 및 물리 정확성 대폭 향상. 예: 농구공이 빗나가면 자동으로 백보드 리바운드 표현[39]. 여러 샷에 걸친 세계 상태 지속 및 사운드 동기화까지 구현한 종합 시뮬레이터.

2025Cosmos (NVIDIA)[20][21]

물리 AI 플랫폼대규모 범용 세계 모델 플랫폼. 다양한 물리환경 비디오로 학습된 월드 파운데이션 모델 제공, 이를 각종 로봇/AV 응용에 파인튜닝하여 사용. 비디오 토크나이저, 전처리 파이프라인 포함된 툴킷을 오픈소스로 공개. 현실 세계의 디지털 트윈 구축 가속화.

각 프로젝트는 저마다 특화된 도메인에서 월드 모델의 효과를 입증하고 있으며, 공통적으로 세계에 대한 표현 학습과 미래 예측을 핵심으로 합니다. 연구자들 (예: Danijar Hafner, Pieter Abbeel, Raia Hadsell, Jürgen Schmidhuber, Zheng Zhu 등)과 기관들 (DeepMind, OpenAI, Berkeley, Stanford, Wayve, NVIDIA 등)이 앞다투어 이 분야를 개척하고 있습니다. 특히 NeurIPS, ICLR, CVPR, CoRL 같은 최상위 학회에서도 2022년 이후 월드 모델 관련 논문 채택이 크게 늘었으며, 강화학습 세션뿐 아니라 컴퓨터비전(4D 모델링), 로봇학습(모델 기반 계획) 등 여러 트랙에 걸쳐 연구가 진행되고 있습니다. 또한 OpenAI, DeepMind, Meta, NVIDIA와 같은 빅테크 기업들도 월드 모델을 내재한 차세대 AI를 향한 경쟁에 돌입하여, 관련 알고리즘과 오픈소스 툴킷 (예: OpenAI Gym, MuJoCo, MineDojo, DeepMind Control Suite 등 시뮬레이터와 DreamerV3 구현 코드 등)이 커뮤니티에 공유되고 있습니다.

기술적 접근 방식 비교와 최근 패러다임 변화

월드 모델 구현 방식은 연구마다 다양하지만, 몇 가지 흐름으로 정리할 수 있습니다:

•Latent Dynamics Model (잠재 공간 동역학 모델): Dreamer, DayDreamer처럼 인코더-동역학-디코더 구조를 사용해 추상화된 상태를 예측하는 접근입니다. 주로 RNN(순환신경망)이나 시계열 모델로 latent 상태를 업데이트하며, 데이터 효율성이 높고 상황 “상상”이 빠릅니다[15][58]. 다만 복잡한 고차원 세부묘사는 어려울 수 있습니다.

•Autoregressive Transformer (자기회귀 트랜스포머): Sora, GAIA-1처럼 대용량 Transformer로 시계열 토큰을 예측하는 접근입니다[23]. 비디오 프레임, 텍스트, 행동 등을 하나의 시퀀스로 보고 다음 토큰을 생성하므로 정교한 장면 생성이 가능하며, 병렬 연산을 통해 대규모 데이터 학습에 유리합니다. 다만 파라미터 규모가 크고 학습에 막대한 자원이 필요합니다[23][59].

•Diffusion 및 확률적 생성 모델: 확산 모델을 세계 모델로 활용하여, 다양한 미래 시나리오 표본을 생성하고 그중 높은 가치를 선택하는 방법입니다. Janner 등이 제안한 Diffuser는 trajectory 데이터를 Diffusion으로 학습해 계획 최적화에 사용했고[10], 자율주행 분야에서도 4D Occupancy Diffusion으로 여러 가능한 교통 전개를 시뮬레이션하는 연구가 진행되었습니다[60][61]. 확률적 생성은 불확실성 표현에 강점이 있으나 제어가 어려운 도전이 있습니다.

•멀티모달 통합 vs. 단일모달: 자율주행이나 로봇은 카메라, LiDAR, 관성센서 등 여러 센서 데이터를 동시 처리하는 월드 모델을 개발 중이며[62], AR/VR을 위해서는 영상+텍스트+오디오까지 아우르는 모델(Sora 2처럼)을 실현하고 있습니다[63][64]. 반면 게임이나 시뮬레이션에서는 주로 픽셀 입력 단일모달 모델이 주류였습니다. 최근 추세는 멀티모달 세계 모델로 더 풍부한 세계 이해를 얻는 쪽입니다.

•온라인 학습 vs. 오프라인 학습: 강화학습계 월드 모델(Dreamer 등)은 에이전트가 경험을 쌓으며 온라인으로 모델 갱신을 합니다[14]. 반면 Sora, GAIA처럼 대규모 사전학습을 거친 후 활용하는 오프라인 학습 모델도 있습니다[38][65]. 전자는 적응성이 높고 후자는 보편적 상식을 많이 내장합니다. 궁극적으로는 두 방향의 통합(사전학습 월드 모델을 online 파인튜닝)이 예상됩니다.

이러한 기술 발전과 함께 월드 모델 패러다임의 변화도 감지됩니다. 과거에는 월드 모델이 강화학습의 부속물 정도로 여겨졌다면, 이제는 월드 모델 자체가 거대한 파운데이션 모델로 부상하고 있습니다[20][21]. 이는 곧 “환경 시뮬레이션 능력”이 곧 AI 시스템의 핵심 지능으로 인정받는 추세라 할 수 있습니다. 세계적인 연구자들도 이 방향에 동참하고 있는데, LeCun은 월드 모델을 중심으로 한 새로운 AI 아키텍처를 제안했고[4], Fei-Fei Li는 멀티모달 세계 생성에 초점을 맞춘 연구소를 설립했습니다[6]. 또한 OpenAI는 Sora를 통해 “현실 시뮬레이션을 이해하는 AI”의 가능성을 타진하며, 물리적으로 정확한 비디오 생성 기술을 AI 훈련에 활용할 수 있다고 언급했습니다[59][66]. Meta는 거대 LLM에 세계적 맥락 이해를 접목한 CWM을 공개하여 소프트웨어 에이전트의 자기인식 개념을 탐구했고[54][55], NVIDIA는 Cosmos로 현실 문제 해결을 위한 시뮬레이션 플랫폼을 열었습니다[20][21]. 요컨대, “세계를 배우고 창조하는 AI”라는 월드 모델 패러다임이 2022년 이후 연구계와 산업계를 막론하고 큰 전환점을 맞이했으며, 이는 향후 AGI 구현을 위한 필수 경로로 인식되고 있습니다[46][47].

결론

2022년부터 2026년 현재까지 월드 모델에 대한 연구 동향을 종합하면, 다양한 분야에서 월드 모델이 중심적인 역할로 부각되고 있음을 알 수 있습니다. 강화학습 에이전트는 월드 모델을 통해 상황을 예측하고 상상하며 범용적인 문제 해결력을 얻었고, 로봇은 세계 모델로 실세계 학습의 장벽을 극복하고 있습니다. 자율주행 차량은 내재화된 세계 이해로 더 안전하고 영민한 주행 전략을 수립하고 있고, 게임 AI는 현실감 넘치는 가상 세계를 만들고 그 안에서 계획할 수 있게 되었습니다. 거대 언어모델을 비롯한 에이전트 AI에도 지속적으로 업데이트되는 세계 모델을 통합하려는 시도가 늘어나, 기억하고 예측하는 AI로의 진화를 도모하고 있습니다. 이러한 흐름 속에서 등장한 수많은 논문과 오픈소스 프로젝트들은 상호참조하며 발전하고 있습니다 (일례로 Dreamer의 소스코드 공개와 커뮤니티 재현, Wayve의 GAIA 기술 리포트 공개, 다양한 시뮬레이터의 확산 등). 앞으로 다가올 몇 년간 NeurIPS, ICLR, CVPR, CoRL 등에서 우리는 더 커지고 정교해진 월드 모델들과, 새로운 패러다임 (예: 세계 모델+LLM 하이브리드, 대규모 4D 시뮬레이터 등)이 발표되는 것을 볼 것으로 기대됩니다. 월드 모델 연구의 궁극적인 목표는, AI가 공간과 시간, 인과관계를 지속적으로 이해하고 과거 경험을 토대로 미래를 만들어가는 능력을 얻는 것입니다. 이는 인간이 세계를 인지하고 사고하는 방식과도 통하는 부분으로서, 세계 모델을 제대로 갖춘 AI는 곧 더 안전하고 믿을 수 있으며 창의적인 인공지능을 의미합니다[67][68]. 이제 “세계”를 아는 기계라는 오래된 꿈이 현실에 성큼 다가왔으며, 2022–2026년의 급속한 진보는 그 꿈의 실현에 한층 가까워진 발걸음이라 하겠습니다.

[1] [25] [26] [27] [28] [33] [34] [60] [61] [62] A Survey of World Models for Autonomous Driving

https://arxiv.org/html/2501.11260v4

[2] [3] [7] [8] [9] [35] [36] [37] [56] [57] DeepMind Announces Minecraft-Playing AI DreamerV3 - InfoQ

https://www.infoq.com/news/2023/01/deepmind-dreamer-minecraft/

[4] [5] [6] [40] [41] [42] [43] [44] [45] [46] [47] [48] World models could unlock the next revolution in artificial intelligence | Scientific American