영상 전문가 vs 비전문가
이번에는 생성형 AI를 사용해서 영상을 만드는 과정에 대한 이야기를 해보려고 합니다. 얼마 전에 팀 작업으로 진행했던 AI 단편영화 작업을 하면서 느꼈던 내용들을 정리하는 목적과 실제 AI 서비스를 사용하면서 작업하는 실질적인 작업자의 관점을 전하고자 합니다. 그리고 마지막으로 AI가 만들어 내는 1차 결과물의 퀄리티가 갈수록 높아짐에 따라 이른바 비전공자와 전공자와의 차이가 이제 거의 없다고 말하는 경우가 많아지는 것 같아서 정말 그 말이 사실에 가까운 근거가 있는 말인지 아니면 섣부른 일반화의 오류에 빠진 주장인지 한 번 이야기해 볼 만한 주제라는 생각이 들어서 정리를 해보려고 합니다. 저만 궁금한 거 아니죠?
먼저 생성형 AI를 통해 만들어낸 결과물의 범위를 조금 더 좁혀서 비교를 해보는 게 좋을 것 같습니다. 먼저 현재 시점에서는 AI 생성을 통해 만든 콘텐츠의 길이가 짧은 숏폼 형태가 많기 때문에 쇼츠/숏폼 콘텐츠를 기준값으로 상정하고 이야기를 해보려고 합니다.
러닝타임 : 1분 내외
배경음악 : 유
등장인물 : 유
대사(또는 내레이션) : 유
어떤 주제로 영상을 만들던지 메시지를 전달하기에 가장 적합한 스토리를 구성하는 작업이 필요합니다. 어떤 구조와 흐름으로 이야기를 구성할지에 대한 구체적인 내용이 정리가 되어야 합니다.
AI를 통해 생성해 낼 구체적인 기준값이 지금부터 잘 정리가 되어야 합니다. 기준자료가 되기 때문에 인물, 공간에 대한 참고자료 조사부터 시작해야 하는데요. 등장인물에 대한 인물묘사에 필요한 다양한 요소가 준비되어야 합니다. 인종, 연령, 성별에 대한 큰 기준값에 맞춰 의상과 헤어 등 인물의 모습을 일관성 있게 만들어 낼 수 있도록 캐릭터 시트를 만들어야 두어야 합니다. 그리고 스토리에 등장하는 공간이 다양하다면 각각의 공간과 인물이 그 공간에 있다는 가정하에 각각의 공간에 대한 비례(휴먼스케일)가 맞는 이미지가 미리 준비되어야 합니다.
대본에 포함되어 있는 대사와 내레이션을 만들기 위해 어떤 목소리가 좋을지 AI 서비스에서 제공하는 다양한 목소리 샘플들과 해당 영상의 인물과 매치시키는 테스트 작업이 필요합니다. 나중에 바꿔도 되지만 가급적 프리단계에서 목소리 연기나 톤에 대한 기준값은 구체화해 두어야 나중에 수정사항이 적게 발생할 가능성이 높습니다.
10초 내외의 정말 짧은 영상이 아니라면 스토리보드를 미리 정리하고 프로덕션 단계로 넘어가는 것이 모든 면에서 좋습니다. 스토리보드를 만드는 방법은 정말 다양하지만 이미 작성된 대본에 맞춰 구성을 하면 되겠죠. 어떤 장면을 어떤 화면 사이즈와 구도로 구성하고 인물은 어디에 배치할 것이며 카메라 움직임은 어떻게 할지 등 세부적인 내용이 스토리보드에 명시되어 있어야 합니다.
프리프로덕션 단계에서 정리된 내용을 바탕으로 이미지, 영상, 대사/내레이션, 배경음악 등을 생성합니다. 생성한 데이터들을 폴더, 파일명 규칙을 만들어 해당 씬과 컷에 맞춰 폴더별로 정리하는 작업까지를 프로덕션 단계라고 볼 수 있을 것 같습니다.
프로덕션 단계에서 생성한 데이터들을 편집툴에서 불러와 편집을 시작하게 됩니다. 먼저 전체 컷들을 순서에 맞게 배열하고 연결된 흐름이 원래 의도와 맞는지 확인하면서 전체 영상을 계속 다듬어 나갑니다.
영상과 오디오 싱크가 중요한 장면은 프레임 단위로 싱크를 수정하면서 최대한 입모양과 대사가 일치하도록 조정이 필요하고요. 내레이션의 경우는 내레이션 타이밍과 영상의 타이밍을 반복해서 보면서 수정합니다. 추가로 특정한 공간이나 효과음(예 전화수화기 소리 등)이 필요하다면 미리 마커 기능을 이용해 해당 작업이 추가적으로 필요하다는 내용을 메모해 두고 나중에 전체 사운드 작업 시 반영하도록 합니다.
이 과정에서 재생성이 필요한 컷들이 나올 가능성이 상당히 높습니다. 전체 흐름을 보고 아쉬움이 나오는 컷들이 생긴다면 다시 생성해서 컷들을 교체해 줍니다. AI 영상 제작의 가장 독보적인 차별점이 바로 이 부분이라고 생각하는데요. 말 그대로 업로드 직전까지 컷들을 계속 다시 만들며 완성도를 높여나갈 수 있다는 점이 엄청난 장점이자 마지막까지 피 말리는(?) 상황을 만들 수 있는 점이라는 생각이 듭니다.
전체 영상에서 일관된 색감과 톤을 유지하기 위해서 색보정 작업을 합니다. 추가로 최종 결과물에 반영될 다양한 후보정 작업(선명도, 밝기, 비네팅, 크로마 효과, 부분 합성 등)도 같이 작업합니다.
프로덕션 단계에서 생성한 배경음악을 삽입하고 볼륨에 키프레임 작업을 통해 페이드인/아웃 같은 기본적인 작업 외에 클라이맥스 부분을 강조한다던지 두 가지 이상의 음악을 부분적으로 사용하는 등 의도에 맞게 배경음악을 영상과 잘 어우러지도록 수정합니다. 대사나 내레이션이 나오는 부분은 배경음악을 살짝 눌러주어 대사, 내레이션이 더 잘 들리도록 작업합니다. 그리고 영상에서 아예 소리가 빠진 부분이 없도록 배경음악이 깔리지 않는 영상이라면 룸톤 사운드도 넣어줍니다.
오디오 채널별로 필요한 사운드 이펙트 작업을 진행합니다. 오디오 트랙별로 피크를 치지 않도록 리미터를 사용해서 영상 전체를 체크합니다. 대사를 더 또렷하게 들리도록 해주고 보완할 효과음이 남아 있다면 추가 생성이나 또는 무료 음원 소스 사이트를 통해 다운로드하여 작업을 마무리합니다.
유튜브나 비메오 등 업로드 환경에 맞춰 다양한 포맷으로 렌더링 결과물을 만듭니다. 특정한 송출 환경에 맞춰 보내달라는 요구사항이 있다면 그에 해당하는 옵션과 용량등을 고려해서 렌더링 합니다.
이 글의 서두에서 이야기한 AI가 다 알아서 멋진 이미지와 영상을 만들어 주니까 비전공자와 전공자와 큰 차이가 없다는 말은 부분적으로 맞다고 할 수 있을 것 같습니다. 잘생기고 예쁜 인물이나 물건들을 힙한 배경음악 위에 나열하는 형식의 단순한 영상제작에 한해서는 전문가(전공자 또는 경력자)와 비전문가(비전공자)와 크게 차이가 없을지도 모릅니다. 하지만 위와 같은 형태의 단순한 양산형 영상이 아니라면 앞서 이야기한 많은 과정에서 콘텐츠가 가진 완성도와 밀도에서 차이가 벌어질 거라는 생각이 듭니다.
AI가 50~60% 정도를 해준다고 본다면 40~50%는 작업자의 실력과 내공이 받쳐주지 않으면 따라가기 힘든 영역이라고 생각합니다.
가장 중요한 기획 영역 그리고 그 기획을 최대한 의도에 맞춰 생성하고 만들어 내는 능력, 생성된 데이터들을 편집하고 가공하는 능력, 편집 툴에 대한 숙련도가 뒷받침되어야 하는 거죠. 아무리 딸깍으로 멋진 영상 소스를 얻는다 하더라도 단순한 나열로 그치는 영상이 많은 이유가 바로 여기에 있습니다. 메시지를 전달하는 구조를 갖춘 영상은 아닌 것이죠. 편집툴을 잘 다루는 것과 이야기를 전달하는 구조와 맥락을 이해하고 편집을 하는 것은 언뜻 착각하기 쉬운 지점이기도 합니다. 그래도 기본적인 컴포지팅 능력은 갈수록 중요해질 것 같습니다. 아직은 AI가 복잡한 이야기 구조를 가진 영상 편집에 대해서는 갈길이 멀어 보입니다.
영상 분야 전문가가 이미지/영상 생성 AI를 툴로써 사용하는 것과 개발 분야 전문가가 AI 바이브 코딩으로 개발을 하는 것은 분명 해당 분야 전문가에게만 보이고 수정가능한 디테일이 분명히 존재할 거라고 생각하는데요. 이건 어쩔 수 없는 게 아닌가 싶은데 각각의 특성과 특징이 있는 AI 서비스마다 동일 분야 경험치와 내공이 결과물의 차이를 가져올 수밖에 없기 때문이겠죠.
AI 영상 제작이 갈수록 치열한 시장이 되어갈수록 영상이라는 언어를 더 깊이 있게 이해하려는 고민과 공부를 게을리하면 안 되는 이유이기도 합니다. AI가 많은 것을 해주고 있지만 AI는 아무런 의도를 가지고 있지 않다는 사실을 잊으면 안 되겠습니다. 자신의 의도를 표현하는 도구로서 AI가 존재하는 것이지 AI가 의도까지 생성해 주지는 않으니까요.