비디오 생성 AI Sora가 놀라운 3가지 이유

Open AI가 공개한 비디오 생성 인공지능 Sora에 대해 알아보자

Feb 18. 2024

Open AI가 공개한 충격적인 비디오 생성 인공지능

Sora가 만든 영상: tokyo-walk

이 영상은 Open AI의 Sora로 만든 영상으로, 한 여자가 도쿄의 거리를 걷고 있는 장면을 묘사한 Prompt만 입력하면 이렇게 생생한 비디오를 생성할 수 있다고 하네요. 지금까지의 비디오 생성 AI와는 차원이 다른 퀄리티로 많은 사람들을 충격에 빠뜨렸는데요, 가장 인상 깊은 특징 3가지를 통해 Sora에 대해 알아보도록 하겠습니다.

일관성 유지

우선, 가장 큰 특징은 일관성 유지예요. 아래 세 사진은 Sora의 영상에서 캡처한 사진으로 여성이 간판을 지나가는 모습을 볼 수 있습니다. 간판의 글씨가 여성에 의해 가려지지만, 인물이 지나가고 난 후 다시 등장한 간판의 글씨가 그대로 유지되고 있어요. 이는 Sora가 간판과 여성 객체를 정확하게 인식해서 가려졌던 배경을 다시 복원할 수 있기 때문이에요.

간판을 가리기 전

간판을 가리는 중

간판을 지나간 후

그렇기 때문에 Sora는 카메라가 이동하고 회전하는 역동적인 영상에서도 3D 일관성을 유지할 수 있어요. 기존의 다른 AI 영상 제작은 객체, 배경이 들쑥날쑥 변하거나 노이즈가 생기는 현상을 최대한 억제하기 위해 카메라가 정면으로 고정된 동영상 위주로 생성했다는 점을 고려하면 이런 Sora의 일관성 유지는 대단하다고 볼 수 있습니다.

3D 일관성 유지를 보여주는 영상 시퀀스

Civit.ai 영상들 (대부분 정면 view)

높은 사실감

처음 Sora의 영상을 봤을 때는 "실제로 촬영한 영상이네"라고 생각했어요. 선명한 고화질, 사실적이고 복잡한 배경, 그리고 수면이나 유리창에 비치는 모습 등 그 생생한 표현력이 가짜라고는 믿기지 않았는데요. 아래 영상 캡처 화면을 보시면 바로 이해가 될 거예요.

고화질의 영상 퀄리티

수면에 비치는 모습 표현

창문에 비친 모습 표현

다재다능함

심지어 Sora는 굉장히 다재다능하기까지 해요. 앞에서 보여드린 영상처럼 text를 기반으로 video를 생성할 수 있는 것은 물론이며 이미지나 비디오를 인풋 하여 자연스러운 영상을 만드는 것 또한 가능합니다. 심지어는 이미 생성한 비디오를 연장해서 생성하는 것도 가능하며, 서로 다른 두 비디오를 연결하는 영상 생성 또한 가능합니다.

실사 영상뿐만 아니라, 디지털 아트와 일러스트, 수채화, 게임 속 디지털 세상까지도 영상으로 표현할 수 있다는 점도 Sora의 놀라운 점이에요. 그리고 Minecraft 영상과 함께 제공된 설명에서 Sora와 같은 비디오 생성 인공지능은 일종의 시뮬레이터로서의 가능성도 존재한다고 시사했어요.

이미지를 인풋으로 영상 생성

좌측 영상과 우측 영상을 연결하는 영상 생성

화가가 캔버스에 수채화를 그리는 영상

Minecraft 디지털 세계를 영상으로 생성

Sora의 한계점과 의의

Sora의 영상은 인공지능 생성 비디오라고 믿을 수 없는 퀄리티로 사람들에게 굉장히 충격을 주었지만, 아직 어색한 점도 분명히 존재하고 있어요. 유리의 깨짐 등 기본적인 상호작용을 잘 모델링하지 못하거나, 많은 개체가 등장하는 영상의 경우 부자연스럽게 개체가 등장하는 영상을 생성하기도 합니다.

또, 아직은 영상을 생성하기 위해 많은 컴퓨팅 자원을 사용해야 되고 모델을 학습하기 위해도 엄청난 양의 데이터를 복잡한 과정을 통해 학습시켜야 하기 때문에 대중이 활용하기까지는 시간이 걸릴 것으로 보이네요.

모델링하기 어려운 상호작용: 유리의 깨짐

하지만 이런 단점들을 고려하더라도 Sora가 AI 영상 생성에 엄청난 성과임은 분명해요. 특히, AI 업계와 다른 사람들에게 Sora가 준 의의는 나아가고 있는 방향에 대해 믿음을 주었다는 점입니다. 지금까지 하던 방식이 틀리지 않았고, AI 영상의 퀄리티가 안 좋았던 이유는 Scale이 부족했기 때문이라는 대답을 Sora가 해줬죠. 아직까지 "Scale is all you need"는 틀리지 않고 있습니다.

영상을 AI에게 학습시키는 과정

AI 동영상 생성 과정

Sora는 언제 사용할 수 있을까?

아직 Sora의 출시 예정일에 대한 구체적인 정보는 언급되지 않았어요. Open AI 측은 연구 초기 성과와 상황에 대한 공유가 목적으로 내부 피드백을 위해 일부 예술가 등을 대상으로만 제공하고 있다고 밝혔어요. 최근 AI를 이용한 가짜뉴스, 범죄사례, 윤리적 이슈 등이 증가하고 있기 때문에 Sora는 이런 문제에 충분히 대비할 필요가 있다고 판단되네요.

Sora: Creating video from text

https://openai.com/sora

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that oper

https://openai.com/research/video-generation-models-as-world-simulators

keyword

패트릭 직업 기획자

기획자의 시선으로 바라보는 AI 세상 이야기

팔로워 2

작가의 이전글[서비스 기획] 페르소나, 잘 사용하고 계신가요?LLM의 인터랙션 진화 과정 5단계로 살펴보기작가의 다음글