Open AI가 공개한 비디오 생성 인공지능 Sora에 대해 알아보자
이 영상은 Open AI의 Sora로 만든 영상으로, 한 여자가 도쿄의 거리를 걷고 있는 장면을 묘사한 Prompt만 입력하면 이렇게 생생한 비디오를 생성할 수 있다고 하네요. 지금까지의 비디오 생성 AI와는 차원이 다른 퀄리티로 많은 사람들을 충격에 빠뜨렸는데요, 가장 인상 깊은 특징 3가지를 통해 Sora에 대해 알아보도록 하겠습니다.
우선, 가장 큰 특징은 일관성 유지예요. 아래 세 사진은 Sora의 영상에서 캡처한 사진으로 여성이 간판을 지나가는 모습을 볼 수 있습니다. 간판의 글씨가 여성에 의해 가려지지만, 인물이 지나가고 난 후 다시 등장한 간판의 글씨가 그대로 유지되고 있어요. 이는 Sora가 간판과 여성 객체를 정확하게 인식해서 가려졌던 배경을 다시 복원할 수 있기 때문이에요.
그렇기 때문에 Sora는 카메라가 이동하고 회전하는 역동적인 영상에서도 3D 일관성을 유지할 수 있어요. 기존의 다른 AI 영상 제작은 객체, 배경이 들쑥날쑥 변하거나 노이즈가 생기는 현상을 최대한 억제하기 위해 카메라가 정면으로 고정된 동영상 위주로 생성했다는 점을 고려하면 이런 Sora의 일관성 유지는 대단하다고 볼 수 있습니다.
처음 Sora의 영상을 봤을 때는 "실제로 촬영한 영상이네"라고 생각했어요. 선명한 고화질, 사실적이고 복잡한 배경, 그리고 수면이나 유리창에 비치는 모습 등 그 생생한 표현력이 가짜라고는 믿기지 않았는데요. 아래 영상 캡처 화면을 보시면 바로 이해가 될 거예요.
심지어 Sora는 굉장히 다재다능하기까지 해요. 앞에서 보여드린 영상처럼 text를 기반으로 video를 생성할 수 있는 것은 물론이며 이미지나 비디오를 인풋 하여 자연스러운 영상을 만드는 것 또한 가능합니다. 심지어는 이미 생성한 비디오를 연장해서 생성하는 것도 가능하며, 서로 다른 두 비디오를 연결하는 영상 생성 또한 가능합니다.
실사 영상뿐만 아니라, 디지털 아트와 일러스트, 수채화, 게임 속 디지털 세상까지도 영상으로 표현할 수 있다는 점도 Sora의 놀라운 점이에요. 그리고 Minecraft 영상과 함께 제공된 설명에서 Sora와 같은 비디오 생성 인공지능은 일종의 시뮬레이터로서의 가능성도 존재한다고 시사했어요.
Sora의 영상은 인공지능 생성 비디오라고 믿을 수 없는 퀄리티로 사람들에게 굉장히 충격을 주었지만, 아직 어색한 점도 분명히 존재하고 있어요. 유리의 깨짐 등 기본적인 상호작용을 잘 모델링하지 못하거나, 많은 개체가 등장하는 영상의 경우 부자연스럽게 개체가 등장하는 영상을 생성하기도 합니다.
또, 아직은 영상을 생성하기 위해 많은 컴퓨팅 자원을 사용해야 되고 모델을 학습하기 위해도 엄청난 양의 데이터를 복잡한 과정을 통해 학습시켜야 하기 때문에 대중이 활용하기까지는 시간이 걸릴 것으로 보이네요.
하지만 이런 단점들을 고려하더라도 Sora가 AI 영상 생성에 엄청난 성과임은 분명해요. 특히, AI 업계와 다른 사람들에게 Sora가 준 의의는 나아가고 있는 방향에 대해 믿음을 주었다는 점입니다. 지금까지 하던 방식이 틀리지 않았고, AI 영상의 퀄리티가 안 좋았던 이유는 Scale이 부족했기 때문이라는 대답을 Sora가 해줬죠. 아직까지 "Scale is all you need"는 틀리지 않고 있습니다.
아직 Sora의 출시 예정일에 대한 구체적인 정보는 언급되지 않았어요. Open AI 측은 연구 초기 성과와 상황에 대한 공유가 목적으로 내부 피드백을 위해 일부 예술가 등을 대상으로만 제공하고 있다고 밝혔어요. 최근 AI를 이용한 가짜뉴스, 범죄사례, 윤리적 이슈 등이 증가하고 있기 때문에 Sora는 이런 문제에 충분히 대비할 필요가 있다고 판단되네요.