실제 제작 과정으로 살펴보는 AI 영상 제작 워크플로우
누구나 한 번쯤 상상해봤을 것이다다. 내 머릿속에만 있던 장면이 실제 영상으로 만들어진다면 어떨까? 나는 조지 오웰의 소설 '1984'를 읽으며 상상한 소설 속 장면들을 현실로 구현해보고 싶었다. 그리고 약 두달간 제작한 AI 애니메이션 1984 1부가 3월 13일 업로드 되었다. 이번 글에서는 '1984' AI 애니메이션을 만들었던 과정을 하나씩 풀어보려 한다. 100% AI를 사용해 제작하였고, 영상 생성에 사용한 툴들은 아래와 같다.
기획 및 프롬프트 작성 보조 : 챗지피티(ChatGPT)
이미지 생성 : 미드저니(MidJourney)
영상 생성(Image to Video) : 클링(Kling)
음성 나레이션 : 타입캐스트(Typecast)
효과음 : 일레븐 랩스(Eleven Labs)
배경음악 : 유튜브 오디오 라이브러리(Youtube audio library)
https://www.youtube.com/watch?v=n9ynu036bV0&t=618s
나의 경우, 영상을 제작하는 워크플로우는 다음과 같다.
AI로 영상을 만든다고 해도 이야기를 어떻게 각색하고 전할지는 여전히 사람의 몫이다.
소설 1984를 처음부터 끝까지 정독한 후, 영상으로 담을 수 있는 주요 장면과 대사, 핵심 메시지를 뽑아냈다. 영상에 어울리도록 과감하게 축약하고, 일부 장면은 현대적으로 각색했다. 또 유튜브 콘텐츠 특성상 영상이 너무 루즈해지지 않도록 소설에서 이야기하는 철학적인 메시지 같은 것들은 생략했다. 독특한 세계관과 재미있는 줄거리를 전하는 것에 초점을 맞추어 이야기를 각색했다.
어느 정도 소설의 줄거리를 요약하고, 이어붙여 대략적인 구성이 나왔다면,
초고를 '영화 대본'에 맞게 변환하는 작업이 필요했다.
아직까지는 AI 영상만 보고는 이야기나 의도한 바를 이해할 수 없기 때문에,
정말 영화처럼 영상 언어만으로 감정이나 어떤 의도를 전달하기에는 어렵다고 판단했다.
즉, 나레이션이 필수였다.
이 과정에서 챗지피티에게 '내가 작성한 글을 시네마틱한 나레이션 톤으로 변환해줘'라고 요청했다.
그리고 GPT가 편집해준 스크립트를 다시 한번 보며 어색한 부분이 있다면 직접 수정해 최종 스크립트를 완성한다.
최종 스크립트는 그대로 시나리오가 되어 이제 각 시나리오에 필요한 장면들을 하나 하나 제작한다.
나의 경우 이미지 생성 툴은 미드저니를 사용하고 있고, Standard Plan 연 구독을 사용하고 있으며
왠만한 작업은 Standard Plan으로 충분하다.(이 이상의 구독료는 투머치)
대본에서 묘사한 장면들을 Midjourney 프롬프트로 작성해 하나하나 생성한다.
이때 초기에 영상의 비주얼을 결정해야 한다.
실사 느낌의 영상으로 만들 것인지, 애니메이션 스타일로 갈 것인지, 애니메이션 스타일로 갈거라면 2D인지 3D인지 등 수많은 스타일 중에 본인이 원하는 스타일을 정해야한다.
나의 경우 AI 영상이 죄다 실사 느낌으로 제작되는 것을 보았기 때문에, 애니메이션 스타일을 시도해보고 싶었다. 사람들에게 아직 익숙하지 않은 새로운 비주얼을 보여줄 수 있을거란 기대도 있었고, 1984 작품 분위기가 그래픽 노블 스타일로 표현했을 때 잘 전달될 수 있을 거라 생각했다.
그래픽 노블 스타일의 경우 미드저니 프롬프트에 Graphic novel style이라고 작성하면, 원하는 이미지 스타일과 유사한 결과물들을 여러개 생성해준다. 생성된 이미지들 중에 원하는 스타일의 이미지가 나왔다면, 이제 해당 스타일 이미지를 몇 개 더 생성한 뒤 이후 작업시 미드저니에 해당 이미지들을 '스타일 첨부'해주면 보다 더 일관성 있는 이미지들을 생성할 수 있다.
선별한 이미지들을 스토리보드로 배치한다.
스크립트 순서에 맞게 이미지들을 배치하며 빠져있거나 필요한 이미지들을 보충한다.
(보통 이 작업은 영상 생성 단계에서 다시 하게 된다)
빠른 작업을 위해서 스토리보드가 필수인 것은 아니지만, 영상의 길이가 10분만 넘어가도 대략 120~200장의 이미지를 기반으로한 영상을 붙여야 하기 때문에 정리가 되어있지 않으면 나중에 헷갈리게되고 해당 소스를 찾는데 시간을 허비하게 된다. 따라서 각 이미지가 어떤 순서로 이어지는지 미리 정리해두고 파일명도 이에 맞게 정리해두면 효율적으로 영상을 생성하는데 도움이 된다.
이제 정적인 이미지들을 움직이게 만들 차례이다.
AI 영상을 만드는 것에 대해 기초적인 얘기를 먼저 하자면,
현시점에서 AI 영상을 만드는 방법은 크게 두 가지이다.
바로 Text To Video와 Image To Video이다.
말 그대로 Text To Video는 만들 영상에 대한 텍스트를 작성하면 영상이 생성되는 방식이고,
Image To Video는 베이스가 될 이미지를 첨부한 뒤 이 이미지를 어떻게 움직여달라는 텍스트를 작성하면 영상이 생성되는 방식이다.
Text To Video 보다 Image To Video를 써야 의도했던 영상에 더 가깝게 출력이 되기도 하고, 무엇보다 영상 전체의 결이 맞는, 일관성 있는 영상을 얻을 수 있기 때문에 대부분 Image To Video를 사용한다.
영상 생성 툴은 KLING을 사용하고 있다. KLING AI는 높은 퀄리티와 프롬프트 이해도로 대다수의 AI 영상 크리에이터들에게 가장 선호되는 툴이긴 하지만, 무제한 요금제가 없기 때문에 LUMA나 RUNWAY 무제한도 많이 이용하는 추세이다. 나 역시 이번 작업이 끝나면 LUMA를 사용해볼 생각이다.
이미지를 영상으로 생성할 때는 프롬프트를 최대한 단순하고 간단 명료하게 작성하는 것이 핵심이다.
프롬프트가 너무 길고 복잡해지면 그만큼 작업이 어려워진다.
그리고 AI가 그림을 보고 어떻게 동작을 줘야할지를 판단하기 때문에, 애니메이션 보다는 실사 스타일의 이미지로 영상을 생성하는 것이 유리하다.(예를 들면 인물의 눈코입, 팔과 다리를 명확하게 구분해야 동작이 생성되는데, 애니메이션의 경우 그림체가 조금 흐릿하거나 경계가 명확하지 않으면 이런 작업이 수월하게 되지 않는다.) 나는 이를 모르고 애니메이션으로 제작해서, 어려움을 많이 겪었으니 영상을 제작하실 분들은 참고하시길 바란다. 영상으로 제작할 때는 뜻밖에 선물처럼 의도했던 것 보다도 고급지게 연출된 장면이 추출될 때도 가끔(20번에 한번?) 있지만, 대체로 내가 의도한 대로 잘 생성되지 않는다. AI가 잘 만드는 영상이 있고, 만들기 어려워하는 영상이 있는데 이를 돈과 시간을 때려박으며 울며 겨자먹기로 알게되었다. 영상 제작 팁과 관련해서는 다음 기회에 더 자세히 설명하도록 하겠다.
이제 남은 건 소리를 덧입히는 작업이다.
타입캐스트에서 원하는 AI 보이스를 선택해 나레이션을 입히고,
유튜브 오디오 라이브러리에서 고른 배경 음악과 일레븐 랩스로 생성한 효과음을 삽입해 분위기를 극대화했다.