brunch

You can make anything
by writing

C.S.Lewis

by delight Mar 01. 2024

오픈AI 소라, 동영상 생성 AI 너머 파괴력을 보라

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번에는 미디엄에 올라온 Thomas Smith의 글을 정리한 것입니다.


지난주 OpenAI는 새로운 동영상 생성 AI인 소라(Sora)의 예시들을 공개했다.  나는 이 기능을 오래 전부터 예상해왔지만 다른 사람들과 마찬가지로 Sora의 동영상 제작 품질에 놀랐다. OpenAI가 공개한 예시들은 필수적인 고양이와 강아지 동영상뿐만 아니라 눈 속에서 장난치는 털복숭이 매머드 같은 것들도 포함돼 있다.

영화 제작자 타일러 페리(Tyler Perry)는 소라의 영상을 본 후 4억 달러 규모 스튜디오 확장을 취소한 것으로 알려질 정도로 소라는 뛰어나다. 페리는 곧 물리적 스튜디오를 AI로 대체할 수 있게 될 것이기 때문에 스튜디오 물리적 공간을 확장할 필요가 없다고 말했다.


Sora는 AI 동영상 제작에 있어 큰 진전을 이룬 것은 물론 사실이다. 하지만 소라의 진정한 혁신은 훨씬 더 드라마틱하고 파괴적인 것이다.


세계 모델들(Models of the World)

AI 비디오를 생성하는 것은 이미지를 생성하는 것보다 훨씬 더 어렵다. AI 이미지를 생성하려면 생성 AI 시스템이 픽셀을 사물, 장소, 사람 또는 아보카도 의자와 유사한 것으로 조립하는 방법을 학습해야 한다. 이는 어려운 기술적 도전이다. 


하지만 AI 이미지를 만들기 위해 시스템이 생성하는 대상을 반드시 이해할 필요는 없다. 내부 시스템이 허용 가능하다고 판단하는 이미지에 도달할 때까지 이미지에서 고양이 같지 않거나 사람 같지 않은 특징을 천천히 제거하기만 하면 된다.


설득력 있는 동영상을 만드는 것은 다르다. 동영상에서 사물과 그 환경은 단순히 정적인 개체로 존재하는 것이 아니라 규칙에 따라 엄격하게 상호 작용한다. 예를 들어 테이블 위를 굴러가는 공이 갑자기 테이블의 단단한 나무 상판을 뚫고 떨어질 가능성은 거의 없다. 샌프란시스코를 달리는 경주용 자동차가 갑자기 땅에서 공중부양하거나 코끼리로 변신하지도 않을 것이다. 마찬가지로 두 사람이 걷고 있을 때 제3의 사람이 갑자기 하늘에서 나타나 한 사람의 얼굴을 주먹으로 때리지는 않는다.


현실 세계에서 물체의 한계와 물리적으로 제한된 상호 작용은 성인인 우리에게 분명해 보인다. 하지만 사실 우리가 알고 있는 물체에 대한 지식은 어렵게 얻은 것이다. 예를 들어, 연구에 따르면 아기들은 물리적 법칙을 이해하기 위해 세상을 보는 데 지나치게 많은 시간을 소비한다. 아기에게 물리 법칙을 위반하는 장면을 보여주면, 아기들의 뇌는 낯설고 새로운 장면을 기존 물리적 세계 작동 방식에 대한 예측과 통합하려고 노력하면서 갑자기 환하게 밝아진다.


어른이 되어서도 우리는 주변 사물이 어떻게 상호작용할지에 대해 끊임없이 예측한다. 우리 모두는 예상보다 가벼운 것으로 판명된 물체(예를 들어, 가득 차 있다고 생각한 빈 우유병)를 집어 들었던 경험이 있다. 우리는 필요 이상의 힘으로 물건을 잡고 격렬하게(그리고 종종 우스꽝스럽게) 공중으로 던져버린다. 이는 물건을 집어 들기 전에 우리 뇌가 무의식적으로 모든 물건 무게를 예측하기 때문이다. 우리는 물리적 세계에 대한 이전 경험을 바탕으로 주변 세계가 어떻게 작동할지 가정한다. 이 모든 경우 우리는 우리가 특별한 일을 하고 있다는 것을 알아차리지 못할 수도 있다. 하지만 실제로 인간은 물리적 세계에서 살아온 경험을 바탕으로 물리적 세계가 어떻게 구성되는지에 대해 끊임없이 가정한다.


물리적 컴퓨터(Physical Computers)

인간과 달리 컴퓨터는 물리적 세계에 대한 선천적인 지식이 없다. 연구자들은 인간이 당연하게 여기는 기본적인 물리 지식을 체계적으로 가르치기 위해 노력해 왔다. 예를 들어, 키네틱스 데이터베이스는 600가지 유형 인간 움직임을 포착한 50만 개 비디오 클립으로 구성되어 있다. 이 데이터베이스는 병원 환자 낙상 위험을 예측하는 등의 작업을 수행하기 위해 머신러닝 시스템을 훈련하는 데 자주 사용된다.


하지만 이러한 물리적 기본 사항을 가르치는 과정은 느리다. 비포장 도로를 달리는 자동차 바퀴에서 먼지가 어떻게 날아오는지, 해가 뜰 때 꽃잎 사이로 빛이 어떻게 들어오는지 이해하도록 훈련시키는 것은 훨씬 더 어려운 과제다.


결과적으로 이것이 바로 소라가 인상적인 이유다. OpenAI가 시스템에 대한 발표에서 설명했듯, Sora는 단순히 멋진 동영상을 만드는 것이 아니라 자체적으로 개발한 물리적 세계 모델을 기반으로 동영상을 생성한다.  다시 말해, 소라는 수백만 또는 수십억 시간의 실제 세계 영상을 검토했을 가능성이 높다. 언리얼 엔진과 같은 최신 비디오 게임과 특수 효과를 구현하는 데 사용되는 물리 시뮬레이터 결과물을 학습했을 수도 있다.

이를 통해 소라는 물리적 세계가 어떻게 작동하는지에 대한 상세한 모델을 개발했다. 주변 사물을 관찰하는 아기처럼 소라는 자동차가 도로를 달리고, 개가 귀여운 표정을 짓고, 미술관이 아름다운 빛으로 가득 차 있다는 사실을 알게 되었다.


이러한 지식을 바탕으로 길고 설득력 있는 동영상을 만들 수 있다. 도쿄를 걷는 사람의 장면을 만들어 달라고 요청하면, 소라는 얻은 지식과 세계 모델을 바탕으로 실제로는 존재하지 않는 디지털 공간을 만들어낸다. 다시 말하지만, 이 영상은 그 자체로도 인상적이다. 하지만 소라가 자체적으로 세계 모델을 개발했다는 사실은 훨씬 더 인상적이고 영향력이 크다.


세계 모델을 개발하는 것은 AI 연구의 성배인 인공 일반 지능(AGI)을 향한 큰 발걸음이다. OpenAI는 발표에서 "Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반이 되며, 이 기능은 AGI를 달성하는 데 중요한 이정표가 될 것으로 믿는다"라고 말한다. 소라가 세상이 어떻게 돌아가는지 진정으로 이해한다면 재미있는 동영상을 만드는 것 이상으로 그 지식을 활용할 수 있다. 예를 들어, 로봇을 실제 환경으로 안내하거나 실제 인생을 경험한 사람처럼 글을 쓸 수도 있다.


AI 세계 모델의 잠재적 영향력을 고려할 때, 다른 회사들이 OpenAI의 발견에 찬물을 끼얹으려는 시도를 한 것은 놀라운 일이 아니다. Meta와 같은 경쟁 AI 회사 연구원들은 소라가 세상을 실제로 이해하는 것이 아니라 단순히 학습 데이터에서 본 패턴을 모방하고 있다고 주장했다. 나는 이 주장을 믿지 않는다. 나의 반려견 랭스가 갑자기 셰익스피어를 암송하기 시작했다고 상상해 보라. 시인은 아마도 개이기 때문에 셰익스피어의 말을 완전히 이해하지 못한다고 주장할 것이다.


하지만 누가 신경이나 쓸까? 랭스는 여전히 셰익스피어를 암송하는 개일 테니 말이다. 마찬가지로 AI가 유용한 작업을 수행할 수 있을 만큼 충분히 좋은 세계 표현 모델을 개발했다면, 그 작업을 어떻게 수행했는지에 대한 정확한 기술적 측면은 거의 중요하지 않다. 소라가 단순히 관찰을 통해 정확한 예측과 추론을 할 수 있는 세계 모델을 만들었다면, 그 정도면 이해에 가깝다고 할 수 있다. 그리고 내가 본 영상에 따르면 실제로 그렇게 한 것 같다.


소라의 미래

소라는 현재 일반인들은 사용할 수 없다.  OpenAI는 조심스럽게 소라에 접근하고 있다. 현재 오픈AI는 시스템을 일반에 공개하기 전에 이러한 약점을 수정할 수 있도록 숙련된 전문가를 투입해 소라가 파괴적인 작업을 수행하도록 하는 작업을 진행 중이다. 하지만 궁극적으로 AI 시스템이 단순히 관찰을 통해 세상에 대한 상세하고 정확한 모델을 개발할 수 있다면(그리고 Sora의 초기 결과는 그럴 수 있음을 시사한다), 그러한 시스템을 개발한 회사는 OpenAI뿐이 아닐 것이다.


이러한 모델을 훈련시키는 데는 이미지 생성 AI를 훈련시키는 것보다 훨씬 더 많은 비용이 들 것이다. 하지만 몇 년 후에는 오픈소스 모델도 소라의 역량을 따라잡을 수 있을 것이며, 세상을 모방한 AI가 넘쳐나게 될 것이다. 페리의 예측대로라면 강력한 동영상 제작 기능이 등장할 수도 있다. 하지만 훨씬 더 많은 일을 할 수 있으며, 로봇 공학에 혁명을 일으키고 모든 AI 시스템의 논리적 추론 능력을 향상시키며 AGI에 한 걸음 더 다가갈 수 있다. 실제와 같은 AI 고양이 동영상은 멋지다. 하지만 인공지능 세계 많은 것들이 그러하듯, 이는 앞으로 다가올 훨씬 더 큰 일의 전조일 뿐이다.

작가의 이전글 왜 맘바를 트랜스포머 언어 모델링의 대안으로 주목하는가
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari