영상 AI에도 'GPT-2 모멘트'가 왔다

Odyssey-2 Pro가 여는 월드 모델의 시대

by 능구의 시선

1. Odyssey-2 Pro 릴리즈

오디세이(Odyssey)는 AI를 통해 실시간으로 상호작용할 수 있는 3D 가상 세계(월드 모델)를 생성하고 스트리밍하는 기술을 개발하는 AI 스타트업이다.


바로 어제인 2026년 1월 23일, 오디세이가 월드 모델 Odyssey-2 Pro와 개발자 API를 공개했다. AI 업계에 또 하나의 역사적 순간이 온 것이다. 오디세이는 이를 두고 "월드 모델의 GPT-2 모멘트"라고 선언했다.


2019년에 GPT-2가 공개됐다. 당시 개발자들은 텍스트 생성의 가능성에 열광했고, 그 사건은 결국 ChatGPT로 이어지는 LLM 혁명의 시작점이 되었다. 오디세이의 CEO 올리버 카메론(Oliver Cameron)은 월드 모델에게 지금이 바로 그 순간이라고 주장한다.


월드 모델이 정확히 무엇일까?

이 기술도 LLM만큼 혹은 그 이상으로 중요한 기술이 될까?



2. 월드 모델

월드 모델은 세계가 어떻게 작동하는지 이해하고 시뮬레이션하는 AI다. LLM이 텍스트의 다음 단어를 예측한다면, 월드 모델은 시간에 따라 세계가 어떻게 진화하는지를 프레임 단위로 예측한다.


오디세이-2 프로는 대규모 비디오 및 상호작용 데이터로 훈련되어, 물리 법칙, 역학, 행동 패턴을 학습했다. 그 결과 실시간으로 생성되는 연속적이며 상호작용 가능한 시뮬레이션을 만들 수 있게 됐다. 그냥 비디오를 생성하는 게 아니라 사용자가 개입하고 영향을 줄 수 있는 살아있는 가상 환경을 만들어낸 것이다.


챗GPT와 같은 LLM은 통계적으로 그럴듯한 다음 텍스트를 예측한다. 하지만 세계에 대해 명확하게 정의된 모델을 지속적으로 업데이트하며 의사결정을 내리지는 않는다. 월드 모델은 그걸 한다.



3. 2D에서 4D로, 예측에서 이해로

월드 모델의 핵심은 3차원 공간에 시간을 더한 4D 모델링에 있다. '아바타: 불과 재'를 3D로 본다고 생각해 보자. 입체감은 있지만, 네이티리가 카메라를 등지고 있다면 뒷모습은 볼 수 없다. 모든 관객은 같은 시점에서 피사체를 바라보는 것이다.


하지만 4D 모델에서는 다르다. 시간축을 따라 이동하며 다른 순간을 보거나, 공간을 돌아다니며 다른 관점에서 같은 장면을 경험할 수 있다. 최근 논문인 'NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos'와 'TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model'은 이런 기술이 어떻게 비디오를 4D 모델로 변환하고 새로운 시점에서 콘텐츠를 생성할 수 있는지 보여준다.


인풋 장면 하나로도 다양한 뷰가 생성되는 모습 (사진1)


그리고 기존 영상 생성 모델은 일관성 문제가 있었다. 생성된 영상에서 목줄을 찬 강아지가 소파 뒤로 뛰어가면 목줄을 잃어버리거나, 소파가 갑자기 의자로 변하는 등의 오류가 있었다. 월드 모델은 지속적으로 업데이트되는 4D 내부 표현을 통해 이런 문제를 해결하려 한다.



4. 3D vs 비디오 기반

월드 모델은 크게 두가지 방식으로 발전하고 있다.


(1) 네이티브 3D 월드 모델

텍스트나 이미지 프롬프트로부터 탐험 가능한 3D 환경을 생성한다. 리페이페이(Fei-Fei Li)가 설립한 월드랩스(Word Labs)의 Marble이 대표적인 사례다. 게임 개발, 건축 시각화, 산업 디자인 등에 즉시 적용할 수 있다. 명확한 기하학적 구조를 갖추며 공간 일관성이 높다. 그리고 기존 3D 워크플로우와의 통합 용이성이 좋다는 장점이 있다. 하지만 고품질 3D 데이터가 부족하며 생성 속도와 품질 간의 트레이드오프가 발생한다는 한계가 있다.


(2) 비디오 기반 월드 모델

과거 프레임과 사용자 입력을 기반으로 미래 프레임을 예측하며 동적 시퀀스를 생성한다. 구글 딥마인드의 Genie 3, 데카르트 랩스의 Oasis, 그리고 이번에 공개된 Odyssey-2 Pro가 여기에 속한다. 풍부한 웹 스케일 비디오 데이터를 활용할 수 있고, 시각적으로도 풍부한 경험을 줄 수 있다.



5. 오디세이의 혁신

오디세이-2 프로는 이전 모델 대비 모든 차원에서 개선됐다. 인과관계 학습이 더욱 정교해졌고, 더 자연스러운 동작과 반응을 구현하며, 720p로 초당 22프레임의 스트리밍이 가능하다. 일반적으로 유저들이 익숙한 1080p에 24 FPS보다는 낮지만 계속 개선되고 있다는 점에 주목할 만하다.


물이 떨어지면 파동이 생긴다. 반죽을 하면 모양이 빚어진다. (사진2)


오디세이는 세가지 API 엔드포인트를 제공한다. 덕분에 실시간으로 생성되는 영상에 프로그래밍 방식으로 개입할 수 있고, 하나의 인터랙티브 스트림을 다수의 사용자에게 배포할 수 있으며, 사용자 지정 액션과 정확한 타임스텝으로 시뮬레이션을 생성할 수 있다.


현재는 자바스크립트와 파이썬 SDK가 제공되며, iOS와 Android SDK도 곧 출시될 예정이다.


오디세이가 제공하는 Simulations, Interactive Streams, Viewable Streams API (사진3)



6. 왜 지금이 'GPT-2' 모멘트?

GPT-2가 공개됐을 때 개발자들은 도구를 만들고, 사이드프로젝트를 진행하고, 초기 제품을 런칭하고 실험을 수행했다. 그 탐험 과정을 통해 언어 모델이 뭘 잘하는지, 어디에 개선이 필요한지 그리고 어떤 새 앱이 등장할지 이해하기 시작했다. 그 순간이 월드 모델에도 온 것이다. 프론티어 모델들이 실용적인 수준에 도달하며 대규모 실험이 시작할 수 있게 됐다.


사람들은 월드 모델을 두가지 방식으로 사용하려 한다.


(1) 지식 추출

챗GPT에 질문하듯, 월드 모델로 가상 공간을 생성하고 탐험하며 현실 세계를 이해한다. 건축가는 금문교 뒤의 석양이 건물 42층에서 어떻게 보일지 테스트한다. 산업 디자이너는 수술실에서 회복실까지의 환자 동선을 더 깊게 이해한다. 로보틱스 엔지니어는 가상 건물에서 안내견 로봇을 테스트한 후 실제 테스트를 진행한다.


(2) 창작

미드저니나 수노로 창작을 해내듯, 월드 모델로 상호작용 공간을 만들어낸다. 게임 디자이너는 레벨을 묘사하고 플레이 가능한 공간을 생성한다. 영화 제작자는 물리적 세계를 만들기 전에 가상으로 장면을 테스트한다. 여행자는 XR에서 랜드마크를 생성하며 여행을 계획한다.



7. 해결할 과제

(1) 일관성 문제

현재 월드 모델은 GPT-2처럼 기억력이 좋지 않다. 게임에서 다이아몬드 곡괭이를 얻었다면 20분 후에도 가지고 있어야 하는데, 현재 기술로는 이런 상태 추적이 어렵다. 해결 방안으로 RAG(검색 증강 생성)와 RNN(순환 신경망) 기반 메모리 시스템이 연구되고 있다.


(2) 제어 및 인터페이스

전문가들은 조명, 시간대, 날씨 등 환경 요소의 동적 조작, 정밀한 카메라 포지셔닝, 그리고 가장 중요하게는 영상 생성 후 개별 객체 수정을 요구한다. 건물의 재질을 바꾸거나 특정 가구를 교체하되 전체 장면을 재생성하지는 않아야 한다. Unity나 Blender 같은 기존 도구는 정밀하지만 사용하려면 전문 지식이 필요하다. 텍스트-to-월드 접근법은 접근성은 높지만 제어가 거의 불가능하다. AI 네이티브 인터페이스가 필요하다.



8. 미래는 어떨까

(1) 로보틱스

월드 모델은 로봇이 현실 세계에 배치되기 전 가상 환경에서 훈련될 수 있게 한다. Illumix의 CEO가 말했듯 로봇은 조명 변화, 바닥에 떨어진 레고, 넘어진 팔레트 같은 동적 환경에서 작동해야 한다. 월드 모델은 이런 시나리오를 무한히 시뮬레이션할 수 있다.


(2) 게임과 엔터테인먼트

게임 개발자가 간단한 3D 에셋 하나를 만드는 데 며칠이 걸리고 수천 달러가 든다. 월드 모델은 하나의 프롬프트로 전체 3D 씬을 생성할 수 있다. 프로토타이핑 효율 개선을 넘어 '끝나지 않는 게임(NeverEnding Game)'의 가능성을 여는 것이다. '슬립 노 모어(Sleep no more)' 같은 몰입형 연극이 무대극을 관객이 자유롭게 탐험하는 환경으로 변모시켰듯, 월드 모델은 스토리텔링을 선형적이고 정해진 내러티브에서 풍부하고 반응하는 세계로 진화시킬 것이다.


(3) World-as-a-Service

먼 얘기일 수 있지만, 비즈니스 모델도 소유에서 경험으로 전환될 것이다. 생성형 디지털 테마파크를 상상해보라. 매 순간이 개인의 욕구에 맞게 동적으로 만들어진다. 시간당 요금을 내고 탐험한다. 맥킨지는 2030년까지 에이전틱 커머스(agentic commerce)로 연간 3~5조 달러의 매출이 발생할 것으로 예측한다.



무엇보다도 월드 모델의 가장 큰 의의는 무한한 세계 속에서의 발견이다.

당신의 모든 상호작용이 완전히 새로운 우주를 생성할 수 있다.






Disclaimer

본 매거진은 AI, 블록체인 기술의 트렌드와 사회·경제적 영향, 그리고 이를 활용한 인간 삶의 변화상을 소개하는 데 목적이 있습니다. 제시된 정보는 일반적인 참고자료일 뿐, 개별적인 법적·재정적·투자적 조언으로 간주될 수 없습니다.

본 매거진은 AI·블록체인 기술과 관련된 정보를 폭넓게 제공하려 노력하지만, 기술적 세부사항이나 각국의 규제·법률 해석은 시점과 지역에 따라 다를 수 있습니다.

AI·블록체인 분야는 빠른 기술 발전, 시장 유동성, 정책 변화 등으로 인해 정보가 시시각각 달라질 수 있으니 조회 시점의 최신 정보를 다시 확인하시기 바랍니다.


* 커버 사진 출처: 오디세이 공식 홈페이지

* 본문 사진 출처: 사진1(NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos), 사진2-3(오디세이 공식 홈페이지)

일요일 연재