brunch

You can make anything
by writing

C.S.Lewis

by Tommyhslee Feb 18. 2024

누구나 원하는 영상을 만드는 시대(생성형 AI영상)

AI를 기반으로한 영상 제작 환경의 혁신적인 변화

지난 2월 16일, 업계에 있었던 소식 중 가장 인상적이었던 소식을 한 가지 꼽으라면 OpenAI가 발표한 동영상 생성 AI Sora(소라)였습니다. 이미 많은 분들이 소식을 접하셨을 건데 소라는 말 그대로 동영상을 생성하는 AI 서비스입니다. 일명 Text to video라고 하여 문구를 작성하면 이에 맞는 영상이 생성되는 것이죠. Midjourney, Leonardo, Dall-E 등 Text to Image 서비스를 통해 이미 우리에게 익숙한 그런 방식입니다. 아쉬운 점은 OpenAI가 소라 서비스를 대중에 공개한 것은 아닙니다. 대신 테스트 영상 수십 개와 관련 연구 내용 들을 일부 공개했습니다. 이 소식이 가장 인상적이었던 것은 22년 말 우리가 놀랐던 AI 기술이 또 한 번 놀라운 진보를 나타냈기 때문입니다. 텍스트가 아닌 영상의 영역에서 말이죠.


텍스트는 의미와 뜻을 구성하고 전달하는 도구입니다. 반면 이미지는 시각적으로 표현하는 도구죠. 그만큼 방식이 다양합니다. 실사와 같은 이미지도 있지만 2D, 3D 애니메이션의 이미지도 있죠. 둘 중 무엇이 더 깊고 가치가 있다고 볼 수는 없지만 텍스트와 이미지 두 영역 모두 높은 기술 수준을 요구합니다. OpenAI를 비롯한 많은 기술기업들이 도전하고 있고 유의미한 성과도 냈죠.  


prompt : Happy superhero in beijing (by Leonardo AI)
prompt : commercial beer image with oriental vibe (by Leonardo AI)

하지만 영상은 좀 다릅니다. 텍스트와 이미지보다 복잡하죠. 고려할 요소가 훨씬 많거든요. 저도 기술 전문가는 아니지만 원더월 서비스를 준비하며 꽤 많은 영상 콘텐츠를 제작했습니다. 때문에 글을 쓰거나 사진을 찍고 그림을 그리는 것보다 영상이 더 많은 기술적 요소들이 고려되어야 한다는 것을 알고 있습니다. 글을 쓰거나 이미지를 만드는 것이 영상을 만드는 것보다 쉽거나 간단하다는 뜻이 아니라 기술적으로, 물리적으로 고려하고 준비해야 할 것이 많다는 것입니다.


예를 들어볼까요. 글작가 글을 쓰기 위해서는 펜과 종이, 혹은 문서작업이 가능한 노트북만 있으면 됩니다. 화가에게는 붓과 캔버스가 필요하죠. 영상은 어떨까요. 간단한 영상은 카메라 한대로도 가능하지만 조금 더 퀄리티 있는 영상을 촬영하기 위해서는 각기 다른 여러 대의 카메라부터 지미집이나 레일과 같은 촬영 장비, 조명, 사운드 장비 같은 기술적인 것부터 극본, 연출, 연기, 특수효과, 미술 등 많은 준비가 수반됩니다. 기술적으로, 물리적으로 가장 많은 공수가 들어가는 게 영상 콘텐츠입니다. 비용도 많이 들죠. 책 한 권을 쓰는 것과 그림 한 장을 그리는 것, 영화 한 편을 찍는 것의 비용을 비교해 보면 알 수 있죠.


때문에 텍스트와 이미지 생성 AI가 등장했음에도 영상 쪽은 가장 마지막 순서로 남아있었던 겁니다. 지난해('23년) 하반기 정도부터 생성형 이미지 쪽은 실사와 구분이 어려울 정도로 퀄리티가 높아졌고, 이와 동시에 생성형 영상서비스들도 하나둘씩 등장했습니다. Pika나 Runway의 Gen-2같은 생성형 영상 서비스들입니다. 방식은 대부분 비슷했는데 이미지를 넣거나 텍스트를 입력하면 3~4초가량의 영상이 생성되는 식입니다.  

Prompt : Super hero saving people in bejing (Gen-2)
Prompt : Super hero saving people in bejing (Gen-2)
Prompt : Smiling African (Pika)


위 영상들을 보면 놀라운 점들도 있지만 아쉬운 점들도 분명하죠. 재미로 만들어볼 수는 있지만 아직 상업적으로나 유의미한 콘텐츠를 만들기엔 부족한 점이 많습니다. 재생시간도 4초라고는 하지만 동작의 어색함을 제어하기 위해 느리게 만들어진 재생속도를 감안하면 정상 재생속도로는 1초 전후가 될 듯합니다.


그러다가 '24년 2월에 등장한 게 Sora입니다. 아래 영상을 보시면 알겠지만 놀라운 퀄리티로 기존 서비스들을 무색하게 만드는 수준입니다. 더 많은 영상은 https://openai.com/sora에서 볼 수 있고요.


Source : OpenAI Sora
Source : OpenAI Sora
Source : OpenAI Sora

https://techcrunch.com/2024/02/15/openais-newest-model-can-generate-videos-and-they-look-decent/


소라는 Text to Video 방식입니다. OpenAI에 따르면 길이가 60초라고 하죠. 기존 서비스들이 3~4초였던 것과 비교하면 20배 수준입니다. 이게 의미를 갖는 이유는 생성형 동영상 서비스들이 겪은 일관성 문제 때문에 그렇습니다. 우리가 알고 있는 것처럼 영상은 수많은 이미지의 결합으로 이뤄지는데 캐릭터나 배경, 사물들이 한 영상을 이룰 수 있도록 일관성을 유지하는 게 기술적으로 상당히 어렵다고 합니다. 그동안 우리가 본 AI생성 영상이 자연스럽게 흘러가지 못하고 각기 다른 여러 이미지를 짜깁기 해놓은 듯한 느낌이 나는 것도 이 때문입니다. 기존에 있는 영상을 AI로 변환하는 것도 일관성을 유지하기 어려운데 생성형으로 영상을 만들어낸다면 그 난이도는 훨씬 더 높겠죠.


OpenAI에 따르면 소라의 아키텍쳐는 Chat GPT와 유사합니다. Chat GPT가 문장을 쪼갠 뒤 이를 하나의 덩어리인 토큰(token)으로 분리하고 나면 사용자의 요청에 따라 이 토큰들을 재결합하는 방식으로 소통한다고 알려져 있죠. 소라 역시 이미지 단위를 자신만의 기준으로 쪼개서 이를 토큰과 같은 비주얼 패치(Visual Patch)로 분리한 뒤 이를 해상도, 듀레이션, 비율 등에 따라 재조합하여 이미지를 만들고 여기서 Diffusion Model을 통해 노이즈를 깎아 가면서 영상을 생성해 냅니다. 구조는 좀 더 복잡하지만 기본 로직은 Chat GPT와 유사한 거죠. 소라는 일관성 측면에서 큰 진보를 보였습니다. 또한 렌더링, 피사체의 질감 등도 훌륭하죠.


다만 서비스가 아직 공개되지 않았다는 점은 다소 아쉽습니다. 실제로 어느 정도 구현이 가능한지 확인할 수없기 때문이죠. 기술적으로 준비가 덜 된 부분이 있을 수도 있고 오남용에 대한 우려가 있을 수도 있습니다. 특히 올 11월 미국 대선을 앞두고 딥페이크나 가짜뉴스 등 문제가 있을 소지가 다분한 만큼 OpenAI(이라고 쓰고 샘알트만이라고 말합니다)가 공개일정을 무리하게 잡을 필요도 없어 보입니다.


----------

여기서부터가 좀 중요한데, 생성형 AI영상 서비스에 대해 한 가지 단상을 해볼까요. 대중에게 필요한 창작 기술은 과연 어떤 것일지 말이죠. 일단 소라는 숏폼이나 영상 내 설명을 위한 참고자료, 삽입 영상으로 쓰기에 매우 훌륭합니다. 내가 생각하고 원했던 의도에 매우 가까운 비주얼을 만들어줍니다. 하지만 소라를 포함한 AI기반 영상 서비스는 창작자의 '자율성'측면에서 분명한 한계를 드러냅니다. 이들은 수많은 데이터를 학습하고 이를 표준화하여 내가 표현하고자 하는 바를 가장 일반적으로 그럴듯하게 표현해 내는 데는 탁월한 기능을 갖고 있지만 창작자의 의도를 제대로 반영하기는 어려운 것이죠. 쉽게 말하면 내가 A4용지에 그림을 그리는 것은 순수한 창작에 가깝습니다. 다른 것에 영감을 받을 수는 있지만 의도적으로 똑같이 표현한 것이 아니라면 순수창작으로 보죠. 반면 AI는 수많은 데이터를 학습해 가장 적합한 답을 만들어냅니다. 그럴듯하지만 내가 진짜 원했던 것이 이런 visual이었나? 생각하면 꼭 그렇지 않을 수 있습니다. 사진을 찍으면 있는 그대로 볼 수 있지만 그걸 눈으로 보고 그림으로 그려내면 전혀 다른 결과물이 나오죠. 사진을 원하는지, 직접 그려낸 창작물을 원하는지에 따라 다른 것과 같습니다.


이게 어떤 사람들과 어떤 콘텐츠에는 적당한 수준이면 충분할 수 있지만, 어떤 콘텐츠와 사람들, 특히 창작자들에게는 그렇지 않습니다. 이들은 나의 창작 의도를 제대로 표현하는 게 가장 중요하다고 생각하는데 AI는 이걸 반영하는데 한계가 있기 때문에 AI 서비스가 커버할 수 있는 영역과 그렇지 않은 영역이 매우 분명하게 갈라질 수 있다는 것이죠. 상세한 prompt가 도움은 되겠지만 이 역시 창작이 갖고 있는 자율성에 미치기에는 한계가 있습니다. 소라가 현재 갖고 있는 기술적인 결함들, 예컨대 물질의 속성에 따른 물리적 변형(유리가 떨어지면 깨지는 현상, 모래를 치면 흩뿌려지는 현상 등) 같은 것들도 한계점으로 지적되지만 이는 시간이 흐르면 점차 개선될 것이라고 생각합니다. 하지만 내가 원하는 창작의도를 반영하는데 순수 AI서비스가 갖고 있는 한계점은 분명히 존재합니다. 돌이켜보면 게임 캐릭터 하나만 하더라도 내가 원하는 대로 꾸미고 바꾸는 것을 좋아하는 사용자들이 상당수인데, 콘텐츠에 있어 자율성과 창작의도라는 것이 생각보다 중요하다고 느끼는 사람들이 많습니다.


그래서 필요한 것이 창작의도와 AI 기술이 결합된 서비스입니다. 예를 들어 사람이 물을 마시기 위해 컵으로 손을 뻗어 들어 올리는 동작은 매우 간단해 보이지만 어떤 감정을 가지고 물을 마시는지, 손은 어떤 속도로 뻗을 것인지, 감정에 따라 손을 떨어야 할지, 물을 흘릴지 등 짧은 동작에서 드러나는 많은 표현 방식이 될 수도 있고, 50대 동양인 남성이라는 캐릭터를 세웠을 때 이 사람의 외형적인 부분과 분위기를 얼마나 내가 원하는 형태로 바꿀 수 있는지 등은 콘텐츠 스토리텔링에 있어 매우 중요한 것들입니다. 이런 것들에서는 창작자의 의도가 잘 반영될 수 있도록 하고, 대신 기존 영상 제작 과정에서 발생하는 비효율과 제반 작업들, 많은 공수와 과도한 비용들을 최소화할 수 있다면, 물론 풀어가야 할 문제도 많겠지만 자율성이라는 창작자의 의도를 유지하면서 영상 제작의 효율을 획기적으로 끌어올릴 수도 있습니다.


일반인에게는 똑같아보이는 물감도 질감이나 색상에 따라 수많은 브랜드와 선택지가 존재하고 영상 편집툴만해도 여러 종류가 존재하죠. 하물며 영상제작부터 편집까지 가능한 툴은 어떨까요. 이 영역을 기술로만 접근하면 이해가 되지않을 수 있지만 창작과 예술의 시각에서 접근하면 이야기가 완전히 달라집니다.


----------

(여기서부터는 일방적인 회사소개입니다.. ^^;)

다소 이상적으로 보이지만 놀랍게도(?) 그런 서비스를 개발하고 있는 회사가 있습니다. 시네브이(Cine V)는 국내 스타트업인 시나몬이 개발하고 있는 언리얼엔진 기반의 3D 영상제작 기술서비스입니다. text to video 방식을 활용해 누구나 손쉽게 자신만의 영상을 만들 수 있는 세상을 향해 나아가는 팀입니다. 글로벌 유수의 생성형 AI영상 회사들과 경쟁하는 한국 기반의 스타트업으로 기존의 영상제작 방식을 혁신적으로 개선하는데 집중하고 있으며 훌륭한 수준의 프로덕트 역량을 갖추고 있습니다. 데이터 축적을 위한 자체 모션 캡쳐 스튜디오도 보유하고 있고 알토스, 네이버, 크래프톤 등으로부터 투자를 유치하기도 했습니다. 감사하게도 저는 시나몬의 전략, 투자를 담당하는 CSO포지션으로 최근에 합류해 회사와 업계의 이런저런 상황을 파악하고 있습니다.


https://www.cinamon.io/


https://n.news.naver.com/mnews/article/366/0000841937?sid=105


회사는 자체적으로도 여러 콘텐츠 IP를 보유하고 있으며, 향후 시네브이 서비스를 통해 수많은 IP들이 만들어지기도 할 회사입니다. 지난해 출간한 <IP유니버스>를 통해 IP비즈니스와 한 층 더 가까워진 제게는 창작자들에게 더욱 많은 옵션과 제작 기회를 제공할 수 있는 기업에 합류하게 되어 개인적으로 큰 의미가 있습니다.


일련의 상황들을 보면 글로벌 영상 콘텐츠 산업은 현재 매우 큰 변화를 앞두고 있습니다. 이미 업계에서 여러 의견이 들려오고, 실제로 필드에서 영향을 받고 계신 분들의 이야기도 쉽게 들을 수 있습니다. 당장 내일 어떤 기업이 어떤 기술로 등장할지 모르고, 시장이 어떤 방향으로 변화할지 쉽게 예측할 수 없는 만큼 기존 업계 종사자나 기술기업들 모두 정신은 바짝 차리고 대응해야겠죠. 많은 역경과 고민이 있겠지만 큰 변화가 있다는 것은 그만큼 엄청난 기회들도 동시에 존재한다는 의미입니다. 변화의 한복판에 있다 보니 이런저런 생각이 많이 드네요. 글 읽어주셔서 감사하고 관련해서 재밌는 소식 있으시면 언제든 이야기 나누고 공유하면 좋겠습니다. 함께 변화를 지켜보시지요.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari