You can make anything
by writing

C.S.Lewis

AI 산업 트렌드, 물리적 AI와 대형월드모델 LWM

by Tommyhslee Jan 01. 2025


LWM이 무엇인가?

- 최근 텍스트를 활용한 LLM과 같이 3D 공간을 학습한 LWM(Large World Model) 개념이 주목받고 있다.

- LWM은 실제 세계의 시공간적 표현을 학습하여 물리적 특성과 공간지능(spatial intelligence)을 이해하는 모델이다.

- 페이페이 리 교수의 월드랩스가 대표적이며 이 외에 구글, 데카르트 그리고 다수의 스타트업들이 LWM을 개발 중이다.

- 현재 Diffusion 기반의 생성형 AI 이미지나 영상이 일관성, 물리적 특성과 관련된 답을 찾지 못하고 시각적 요소를 가공하는 수준에 머무는데 반해 LWM으로 접근한 서비스들은 아직 그래픽 퀄리티가 낮지만 일관성, 물리적 특성이 개선된 특징을 갖고 있다.


LWM이 왜 필요한가?

- AI가 학습하는 데이터를 크게 구분하면 텍스트, 이미지, 영상 3가지다. 이 중 LLM은 텍스트를 학습하는 것이다.

- 이미지나 영상을 생성하는 서비스들은 당연히 이미지와 영상을 학습하고 추론한다.  

- 많은 기업과 사람들이 이야기하는 AGI(일반인공지능)를 구현하기 위해서는 텍스트(언어)를 넘어 공간과 물리에 대한 이해가 필요하다.

- 텍스트,언어(LLM)는 많은 상호작용과 소통 방식 중 하나이기에 이것만을 갖고 AGI를 구현할 수는 없다.

- 활자를 넘어 인간과 같이 보고 듣고 판단할 수 있는 지능이 필요하다.

- 얀 르쿤의 제파(JEPA)나 페이페이 리의 World Labs처럼 AI 석학들이 LWM을 학습하는 이유 중 하나가 바로 여기에 있다.

- 이런 LWM 연구와 기업들은 자본시장에서도 큰 주목을 받았다.

- World Labs는 창업 4개월 만에 유니콘에 등극했고, 'Oasis'를 만드는 Decart AI 역시 5억 달러(약 7500억원)의 기업가치를 인정받았다.

- 구글, Open AI 같은 기업들도 뛰어든 상태다.

- 단순히 텍스트, 이미지, 영상을 학습해서 흉내 내듯 생성하는 게 아니라 공간과 물리를 명확히 이해해야 한다.

- 즉 3D를 이해해야 한다. 현재 만들어지는 이미지와 영상 비주얼의 표현 방식은 대부분 2D다. 그래서 일관성, 편집 기능, 물리적 특성이 빠져있는 것이다.

- 2D와 3D, 이 둘은 상당히 다른 얘기다.


Gen-AI의 문제는 무엇인가?

- 계속 얘기하지만 현재 주 Gen-AI Image & video의 가장 큰 문제가 일관성과 물리적 특징이다.

- 그럴듯한 그래픽 퀄리티를 보이지만 표정이나 액션을 늘리거나, 길이를 늘이거나 조금만 변형을 줘도 무너진다.

- 많은 Gen-AI 서비스가 비주얼을 2D 형태로 구현한다. 얼핏 보면 꽤 괜찮아 보이지만 근본적인 문제가 있다.

- '슬롯머신'이란 별명이 붙을 정도로 결과물을 예측할 수 없다. 또한 사용자의 의도를 반영하지 못한다.

- 예를 들어 '바람에 흔들리는 촛불'이라는 이미지나 영상을 만들어보자.

-  AI는 1만 장의 이미지와 1천 개의 영상에서 바람이 불면 촛불이 흔들린다는 사실을 인지했다.

- 하지만 바람이 얼마나 센지, 어디서 바람이 불어오는지, 모든 촛불에 바람이 동일하게 적용되는지 등은 알지 못한다.

- 결과물은 당연히 3D의 물리적 특성을 갖지 못하고, 촛불이 서로 다르게 움직이거나 속도, 순서 모두 뒤엉킨다.

- 2D 만으로 이걸 구현하기는 불가능하다(엄청나게 많은 데이터를 학습하면 가능한 것처럼 보이겠지만 이는 근본적인 해결책이 아니다)

- 결국 근본적인 공간과 물리를 이해한 AI 모델이 들어가야 한다.

- Open AI의 Sora나 Google의 Veo와 같은 Gen-AI Video들도 공간과 물리를 학습하고 있다.

- 최근 공개된 Veo2를 보면 물리적 특징이 기존의 Gen-AI Video와 달리 상당히 개선된 모습을 보인다. 공간과 물리에 대한 이해가 분명 다르다는 것을 느끼게 해 준다.

- 하지만 아직까지 생성형 AI 서비스 중 제대로 된 3D 환경을 구현하는 서비스는 없다.

- 구글이 Genie2와 같은 LWM을 연구하는 것도 이런 이유가 아닐까 추측해 본다.


공간과 물리를 이해하면 뭘 만들 수 있나?

- 공간과 물리를 인지한 AGI가 만들어질 수 있고 이를 탑재한 로봇이 등장할 수도 있다.

- 현실세계와 같은 공간지능이 탑재된 디지털 세계를 구현할 수 있다. 영화 매트릭스 같은 디지털 세상을 만들 수도 있다.

- 지금 우리가 아는 AI 모델들은 원시인처럼 느껴질 수 있다.  

- 가상현실과 증강현실, spatial computing, 자율주행 등 다양한 기술이 접목될 수 있다.

- AI가 공간과 물리를 이해하는 순간 이를 활용할 수 있는 범위는 기하급수적으로 늘어난다.

- AI의 paradigm shift다.


- ‘25년 이후 이런 Physical AI와 호환이 가능한 서비스들이 등장하게 될 것이다.

- 모델과 함께 물리적 특성을 갖고, 일관성을 유지할 수 있는 서비스들이다.

- 특히 캐릭터의 모션, 표현, 상호작용 등은 상당히 중요한 개념이 될 것이다.


--------------------------25/01/08 업데이트

source : https://fortune.com/2025/01/06/nvidia-new-ai-platform-robotics-chatgpt-moment-robots-self-d

- 젠슨 황 엔비디아 CEO가 2025 CES에서 Cosmos(코스모스)를 발표하며 Physical(물리적) AI에 대한 신호탄을 쐈음

- 코스모스와 같은 물리적 AI는 현재 AI모델이 갖고 있지 못한 물리적 특성을 갖춘 모델로 단순히 AI로 밈 콘텐츠를 제작하는 수준을 넘어 실제 산업현장에서 쓰일 수 있는 가능성을 갖고 있음

- 아래는 엔비디아 공식 유튜브 계정에서 공개한 코스모스에 대한 기능과 설명


https://youtu.be/9Uch931cDx8?si=JTkdj-HZv1n8Su3f

https://n.news.naver.com/mnews/article/092/0002359123?sid=105

https://www.aitimes.com/news/articleView.html?idxno=166909


매거진의 이전글 이동진 평론가가 말하는 AI와 영화산업

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari