Sora AI 알아보기

영상 생성형 AI

Jul 4. 2024

| Sora Overview

“Creating video from text”
Sora is an AI model that can create realistic and imaginative scenes from text instructions.

지난 2월 OpenAI는 “텍스트에서 비디오로 변환하는(Text-to-Video)” 인공지능 모델인 ’Sora’를 공개했습니다. OpenAI 공식 홈페이지를 통한 Sora 모델과 관련한 주요 내용은 다음과 같습니다:

[기능] Sora는 입력된 프롬프트를 기반으로 최대 1분 분량의 비디오를 생성하는 모델로, 다양한 캐릭터와 움직임은 물론 배경 및 배경과 상호작용하는 장면을 제작 가능합니다. 즉, Sora는 단순히 사용자가 텍스트를 통해 요청한 것뿐만 아니라, 입력된 텍스트가 물리적 세계에서 어떻게 작용하는지에 대한 이해를 바탕으로 실제적이고 현실감 있는 장면을 제작합니다.

[활용 및 피드백] Sora는 주로 보안 및 위험 평가를 담당하는 레드 팀 멤버들과 예술가, 디자이너, 영화 제작자들에게 공개되어 있으며, 창의적인 활용 방안을 모색하고 피드백을 수렴하고 있습니다. 전문가들의 피드백을 반영하여 OpenAI는 Sora의 발전 방향을 결정하고, 사용자들의 요구에 더욱 적합한 기능을 갖추게 될 것으로 예상하고 있습니다.

[강점 및 취약점] Sora는 다양한 캐릭터와 움직임, 상세한 배경 등을 포함한 복잡한 장면을 생성할 수 있으며, 입력된 텍스트를 깊이 이해하여 사용자의 요구를 정확하게 해석할 수 있습니다. 그러나 현재 모델은 물리적 세계의 복잡한 상황을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있고, 특정한 인과 관계를 이해하지 못할 수도 있으며, 공간적 세부 사항과 시간에 따른 이벤트의 정확한 설명에도 어려움을 겪을 수 있습니다.

[안전성 보장] OpenAI는 오해의 소지가 있는 내용을 탐지하는 데 도움이 되는 ‘탐지 분류기(detection classifier)’ 도구를 개발 중입니다. 해당 도구를 통해 Sora가 생성한 영상을 식별하고, 영상이 생성된 시점이 확인 가능하며, 향후 C2PA[1] 메타데이터를 추가하여 안정성을 강화할 계획입니다.

또한, 사용 정책을 위반하는 프롬프트 내용을 배제할 계획이며, 이러한 정책 위반 사항에는 극단적인 폭력, 성적 콘텐츠, 혐오적 이미지, 유명인 모방 또는 다른 사람의 지적 재산권을 요청하는 경우 등이 포함됩니다. 이 밖에도, 텍스트 및 이미지 분류기(detection classifier)를 사용하여 정책 준수를 확인하고, 사용자 피드백을 수렴하여 새로운 기술의 안전한 활용 방법을 모색하고 있습니다.

[연구 기법] Sora는 텍스트에서 비디오로 변환하는 인공지능 모델로, ‘확산 모델(diffusion model)’을 기반으로 합니다. 모델은 먼저 비디오 생성을 위해 정적 잡음으로 시작하여 여러 단계를 거쳐 잡음을 제거하여 비디오를 생성합니다. 이는 소라 모델이 다양한 비디오 생성 작업을 수행할 수 있으며, 기존 비디오의 수정이나 확장에도 유용하게 활용될 수 있음을 의미합니다. 또한, 모델은 transformer 아키텍처를 사용하여 다양한 형태의 시각 데이터를 처리하며, 이는 사용자의 텍스트 입력을 더 정확하게 이해하고 실행할 수 있도록 합니다. 과거 DALL·E와 GPT 모델 연구를 기반으로 구축되었으며, 이를 통해 실제 세계를 이해하고 모방하는 능력이 향상되어 인공 지능 기술의 발전에 중요한 역할을 할 것으로 기대됩니다.

| Sora 기술

Sora는 Transformer 기술을 기반으로 한 ‘패치(Patch)’ 개념을 도입한 것이 주요 특징입니다. 패치는 ChatGPT의 토큰과 유사한 역할로, 영상 생성 과정에서 각 영상의 프레임을 작은 패치로 나누고 이를 연속된 백터(1차원 배열)로 재구성하며 다음 프레임을 패치 단위로 예측하여 연속적인 영상을 생성합니다.

기존의 영상 생성 AI는 특정 카테고리와 고정된 크기의 짧은 영상 생성에 집중하여 학습 데이터 표준 크기로 제한했으나, Sora의 경우 패치 기술을 적용함으로써 다양한 길이, 해상도, 비율의 데이터를 학습에 활용 가능합니다.

※ Diffusion Transformer (DiT) = Diffusion model + Transformer

| 데모 영상

OpenAI는 Sora 페이지에는 Sora로 생성한 다수의 영상이 사용된 프롬프트와 함께 공개되어 있습니다.

[출처: OpenAI Sora]

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

[번역] 프롬프트: 세련된 여성이 따뜻하게 빛나는 네온과 애니메이션으로 만들어진 도시 간판으로 가득 찬 도쿄의 거리를 걸어 내려갑니다. 그녀는 검은 가죽 재킷, 긴 빨간 드레스, 그리고 검은 부츠를 신고 검은 핸드백을 들고있습니다. 그녀는 선글라스를 쓰고 붉은 립스틱을 바르고 있습니다. 그녀는 자신감 넘치고 여유로운 모습으로 걸어 다닙니다. 거리는 축축하고 반사되어 다채로운 빛의 거울 효과를 만들어냅니다. 많은 행인들이 걸어 다닙니다.

[출처: OpenAI Sora]

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snowcapped mountains in the distance, midafternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

[번역] 프롬프트: 여러 마모스들이 눈이 쌓인 목초지를 걸어가고 있습니다. 그들의 긴 털은 바람에 가볍게 흔들리며 걷는 모습을 보여줍니다. 멀리 눈이 덮인 나무와 장엄한 눈 위의 산이 보입니다. 낮의 중간쯤에는 흐린 구름과 멀리 떠 있는 태양이 따뜻한 빛을 만들어냅니다. 낮은 카메라 시각은 아름다운 사진과 함께 큰 털을 가진 큰 포유류를 잡아내며 심도 있는 장면을 찍어냅니다.

| 활용 영역

Sora는 다양한 산업 및 분야에서 혁신적인 응용 가능성을 제시하고 있습니다. 이 중에서 미디어, 게임 개발 및 로보틱스 분야를 중점적으로 살펴보고자 합니다.

[소라의 응용 프로그램] [2]

1. [미디어/엔터테인먼트] 영상 제작의 진입 장벽을 크게 낮추어주며, 영화 제작 과정 단순화는 물론, 드라마, 웹툰 등 다양한 콘텐츠 영역에서 변화를 가져올 것으로 기대됩니다. 초기에는 짧은 영상 (숏폼) 형식에서 시작하여 점차 길이와 품질이 개선됨에 따라 더욱 다양한 분야로 침투가 가시화될 것으로 예상되며, 새로운 AI 기반 영상 전용 플랫폼의 출시 또한 전망됩니다.

[콘텐츠 제작 프로세스: 제작 단계에 영상 생성 AI 접목 시 효율성] [3]

2. [게임 개발] 지난 3월 구글 딥마인드는 텍스트와 이미지를 기반으로 2D 게임을 생성하는 지니(Genie)를 공개했습니다. 현재 기술은 게임 동작 등 제한적인 부분이 다수지만, 텍스트만으로 동작이 가능한 게임을 구현하는 가능성을 보여주었다는 점에서 의미가 있습니다. 또한, 그래픽 제작 비용을 낮추어, 향후 영화와 게임의 구문이 점차 무의미 해질 것으로 전망되고 있습니다.

3. [로보틱스] Sora의 기술은 휴머노이드 로봇이 소프트웨어적으로 작업 환경에 유연하게 적응하여 다양한 업무를 효과적으로 수행할 수 있는 시스템을 구축하는 데 중요한 역할을 할 것으로 예상됩니다. 최근 피규어 AI가 발표한 데모 영상에서 보이듯, 카메라를 통한 이미지와 음성 인식을 통해 입력된 프롬프트는 로봇에 탑재된 대형 멀티모달 모델의 또 다른 입력(인풋)으로 작용하며, AI 모델은 전체 대화 맥락과 과거 이미지를 포함한 상식적 추론을 통해 적절한 행동을 결정하고 수행합니다. 이는 단순히 업무 수행에만 초점을 맞추는 것이 아니라, 주변 환경을 설명하거나 행동의 이유를 설명하는 데에도 적용될 수 있습니다.

| 타사 비디오 생성형 AI 모델 현황

‘마켓앤드마켓’의 보고서에 따르면 글로벌 ‘텍스트-이미지 변환 AI 시장 규모(Text to Video AI Market)’는 2027년까지 37.1%로 고속 성장할 것으로 예상됩니다. 비디오 생성형 AI의 대표적인 서비스로는 메타의 ‘메이크어비디오(Make-A-Video)’, 에뮤 비디오(Emu Video), 구글의 페나키(Phenaki)와 이매진 비디오(Imagen Video)등이 있습니다.[4] 이 밖에 빅테크 서비스 외에도 스타트업인 스태빌리티 AI, 런웨이 리프레이즈, 피카랩스 등이 출시한 서비스도 주목받고 있습니다.

[비디오 생성 AI 요약] [5]

References:

[1]C2PA(Content Authenticity Initiative): 콘텐츠의 출처와 변조 여부를 확인할 수 있는 메타데이터 표준을 제공하며, 이를 통해 생성된 콘텐츠의 신뢰성을 높이고 변조된 정보를 식별하는 데 도움이 됩니다.

[2] Liu, Yixin, et al. “Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models.”

[3] 스튜디오드래곤, 삼성증권 “생성 AI, 영상 혁명의 시작”

[4] “Text to Video AI Market Size and Forecast, [Latest].” MarketsandMarkets,

www.marketsandmarkets.com/Market-Reports/text-to-video-ai-market-236764144.html.

[5] Lehigh University, Microsoft Research. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

keyword

크리스탈 직업 기획자

이름처럼 본질을 비추다, 조직과 전략을 새롭게 바라보는 '크리스탈 전략 칼럼'

구독자 15

임직원을 위한 AI 툴 활용법작가의 다음글