생성형 AI 이미지와 사운드는 접근이 달라야 한다.

Ai 영화 사운드 디자인 1

Jun 23. 2025

Ai 영화 제작자는 사운드 생성에 대해 이미지 생성과 다르게 접근해야 한다. Ai 영화 제작을 위해서 필수인 이미지 생성과 다르게 높은 퀄리티의 아카이브 자료를 사용할 수만 있다면 생성을 할 필요 자체가 없다는 말이다. 본격적인 사운드 작업을 하기 전에 각자가 정한 기준에 맞춰 사운드를 생성할 것인지 아카이브 자료를 사용할 것인지 구분하는 작업이 우선되어야만 한다.

나는 실사 영화를 위주로 동시녹음과 믹싱, 음악 등의 사운드 관련 작업을 하고 있는 사운드 디자이너이다. 최근 사람들이 생성형 Ai를 통해 영화를 제작하는 것을 보고 사운드 분야에서의 Ai 활용에 대한 고민을 해봐야겠다는 생각이 들었고, 현재는 동료들과 여러 편의 Ai 영화를 제작하면서 정립한 프로세스로 최대한 효율적인 방법을 적용시킨 상태이다. 이 글에서는 실사 영화 사운드 전문가가 Ai 영화를 제작하면서 알게 된 Ai 영화 사운드 디자인 활용 가능성에 대해 얘기하려고 한다.

지금까지 Ai 영상의 선두주자라고 볼 수 있는 이들의 영상을 보아도 사운드 퀄리티는 TTS와 Ai 음악을 적당히 활용하는 것에 그칠 뿐, 기존의 영화처럼 사운드 디자인을 전문적으로 진행하려고 공을 들이는 경우는 굉장히 찾아보기 어려웠다. 실사 영화의 파이프라인에 익숙한 나는 첫 Ai 영화 제작 당시 사운드 생성형 Ai의 특성에 대해서 고민하지 않고

Ai 이미지 생성하듯이 사운드 전부 생성해서 기존처럼 작업하면 되는 거 아닌가?

라는 단순한 생각으로 작업을 진행하기 시작했고, 이후에 작업을 이어가며 그렇게 단순하지 않다는 사실을 깨달았다.

영화는 아카이브 자료들을 활용하는 다큐멘터리가 아닌 이상 반드시 그 영화만을 위해 촬영하고 제작된 이미지 클립을 사용한다. 레퍼런스 이미지가 있을지언정 반드시 직접 구현해내야 하는 영역이라는 거다.

하지만 사운드는 늘 그렇지만은 않다.

기존의 실사 영화의 사운드는 동시녹음, 폴리, 아카이브, 후시녹음 등으로 수급하게 된다. 이렇게 얻은 소리들을 편집단계에서 잘 배치하고 믹싱 하여 완성하는 것이다. 그중 아카이브는 기존에 존재하는 라이브러리에서 영화에 맞는 소리를 불러와 사용하는 것인데, 이미지와 다르게 같은 소리가 여러 영화에 존재할 수 있다. 영화에 자주 쓰이는 발소리, 총소리, 흔한 로케이션의 엠비언트 사운드 등은 라이브러리에서 가져와 중복 사용한다고 해서 관객의 몰입을 해치지 않을뿐더러 직접 녹음하는 수고를 덜 수 있기 때문이다. 그렇기에 동시녹음으로 해결되지 않고, 폴리 작업을 하기엔 어려운 상황에서는 아카이브 자료 사용을 택하게 된다.

무료로 고품질의 아카이브 소스를 다운 가능한 한국 서비스 K-sound library

어떻게 만들지 고민하는 게 아닌 내가 만들 것인지를 고민해라

우리는 영화에 Ai를 왜 사용하려고 하는가? 물론 Ai가 자신의 능력 이상을 구현할 수 있을지도 모르지만 가장 큰 이유는 돈과 시간을 아끼기 위함이다. 사람이 직접 촬영하고 합성했다면 돈과 시간이 굉장히 많이 들었을 영상을 Ai는 획기적으로 적은 비용과 시간으로 구현해 낸다. 그런데 사운드는 어떨까? Ai가 생성해 내는 클립의 퀄리티는 결국 라이브러리에 있던 소리를 학습하여 적당히 짜깁기한 수준이고, 영상을 인식해서 생성하는 Video to Audio Ai들의 경우에는 각 소스들의 분리가 쉽지 않고 해상도도 매우 떨어져 전문적인 용도로는 적합하지 않은 것이 현실이다. 이미지와 영상은 퀄리티가 조금 떨어지더라도 값싸게 비슷하게라도 구현하는 것에 초점을 맞춰 타협할 수 있지만, 우리가 최소 몇십 년간 쌓여온 인터넷의 저렴하고 방대한 사운드 라이브러리가 아닌 생성형 Ai를 통해 사운드 디자인을 해야 할 필요가 있을까?

사실 각 클립의 퀄리티만을 1순위로 둔다면, 아카이브를 두고 생성형 Ai를 사용할 이유가 전혀 없다. 전문가들이 직접 녹음하거나 제작한 소리들이기에 현재의 Ai가 이길 수 없을뿐더러 크레딧 제한이 있는 elevenlabs 등의 사운드 생성형 Ai 서비스들은 가격조차도 아카이브에 비해서 비싸다고도 볼 수 있다. 그렇지만 생성형 Ai의 진가는 그 짜깁기에 있다. 너무 구체적이거나 지나치게 추상적인 소리여서 도저히 사운드 클립을 서치로 찾을 수 없는 소리라고 해도 연출자의 의도에 맞게 생성해 낼 수 있다는 것이다.(그렇지만 난도가 높다.) 또 당연하게도 아카이브로 구현할 수 없는 소리들에 가장 유용하게 사용된다. 바로 대사와 음악이다. 물론 음악은 기성곡으로 대체할 수 있지만, 연출자의 의도를 더 잘 반영할 수 있고 독창성을 만들어내는 데에 도움이 된다. 대사는 Ai로 만들어낸 영상이기에 실제 배우가 존재하지 않고, 그에 따라 인간이 따로 더빙을 하는데에 드는 품을 줄이기 위해 필수적으로 사용할 수밖에 없다.

정리하자면, 영화 사운드 디자인에서 Ai를 사용할 때에는 먼저 이 소리를 아카이브로 해결할지 Ai로 생성할지 고민하는 과정이 우선되어야 한다. 각 컷별로 필요한 소리를 전부 정리한 다음, 대사와 대사가 아닌 소리를 구분하고, 대사가 아닌 소리들을 하나씩 생성할지 말지 정리하는 작업을 거쳐야 한다. 이는 챗GPT 등의 Ai 툴을 통해서 자동화도 가능할 것이다. 모든 이미지를 Ai로 생성하고 영상화하는 것에 익숙해진 Ai 영상 제작자들은 후반 작업에 들어가기 전에 이런 고민을 하지 않는 경우가 많은 것 같다. 그렇지만 결과물의 퀄리티를 최대한으로 끌어올리면서 비용과 시간을 절감하는 가장 좋은 방법은 모든 것을 Ai로 해결하려고 지나치게 의존하지 않고, 영화에 필요한 소리들을 정리하며 기회비용과 가능성을 따져 이들을 어떻게 수급할지 먼저 정하는 것이다.

앞으로는 이 글에서 언급한 생성과 아카이브 자료 사용의 기준점을 어떻게 잡아야 하는지, 어떻게 생성한 사운드를 믹싱 단계에서 자연스럽게 할 수 있는지 등의 보다 구체적이고 실용적인 글을 써보려고 한다.

keyword