목소리가 먼저일까, 그림이 먼저일까?
본문은 구어체로 작성된 리뷰 방송 대본을 AI를 활용하여 다듬은 글입니다.
디즈니, 픽사, 혹은 지브리 스튜디오의 명작들을 보며 그 생생한 캐릭터들의 목소리가 어떻게 만들어지는지 궁금해 본 적 없으신가요? 우리는 너무나 자연스럽게 완성된 작품을 즐기지만, 사실 그 목소리를 입히는 과정에는 할리우드와 우리나라 사이에 근본적인 차이가 존재합니다.
바로 배우나 성우가 연기를 먼저 하고 그에 맞춰 그림을 그리는 ‘선녹음’ 방식과, 반대로 완성된 그림에 목소리를 입히는 ‘후시녹음’ 방식의 차이입니다. 오늘 이 두 방식이 어떻게 다르고 왜 그런 차이가 생겼는지, 그리고 이 차이가 작품에 어떤 영향을 미치는지에 대한 이야기를 해보겠습니다.
할리우드의 선택, 배우의 숨결을 먼저 담다
먼저 할리우드, 그중에서도 디즈니나 픽사 같은 세계적인 스튜디오의 제작 방식을 들여다보겠습니다. 이곳에서는 대부분 ‘선녹음(Pre-scoring)’ 방식을 채택합니다. 이름 그대로, 애니메이션의 본격적인 작화 작업에 들어가기 전에 배우들의 목소리 연기를 전부 녹음하는 것입니다.
이 방식의 힘을 가장 극적으로 보여주는 사례는 영화 <알라딘>의 ‘지니’ 캐릭터일 겁니다. 지금은 고인이 된 명배우 로빈 윌리엄스는 지니의 목소리를 연기하며, 단순히 대본을 읽는 수준을 넘어 엄청난 양의 즉흥 애드리브를 쏟아냈다고 전해집니다. 애니메이터들은 완성된 대본이 아닌, 로빈 윌리엄스의 예측 불가능하고 에너지 넘치는 연기 그 자체를 청사진으로 삼았습니다. 그의 목소리 톤, 속도, 갑작스러운 유머에 맞춰 지니라는 캐릭터의 표정과 몸짓 하나하나를 창조해낸 것입니다.
그 결과는 우리 모두가 알고 있듯, 애니메이션 역사에 길이 남을 독보적이고 생명력 넘치는 캐릭터의 탄생이었습니다. 이것이 바로 선녹음 방식이 가진 가장 큰 장점입니다. 배우는 정해진 그림의 입 모양이나 길이에 자신을 맞출 필요가 없으므로, 마치 실사 영화를 촬영하는 것처럼 훨씬 자유롭고 창의적인 연기를 펼칠 수 있습니다. 그 미묘한 감정선, 호흡, 심지어는 작은 숨소리까지 캐릭터에 고스란히 이식됩니다.
이 때문에 할리우드에서는 기획 단계부터 특정 배우를 염두에 두고 캐릭터를 디자인하는 경우가 많습니다. 심지어 애니메이터들이 배우의 녹음 현장을 비디오로 촬영하여, 그들의 실제 표정이나 제스처를 연구하고 캐릭터 디자인에 적극적으로 반영하기도 합니다. 배우와 성우의 경계가 뚜렷하지 않은 서구권에서는 이것이 매우 자연스러운 창작 과정의 일부입니다.
이러한 선녹음 방식의 철학이 기술의 발전과 만나 정점에 이른 것이 바로 ‘퍼포먼스 캡처’ 기술입니다. 영화 <아바타>를 떠올리면 쉽게 이해할 수 있습니다. 배우의 목소리뿐만 아니라 얼굴의 미세한 표정 변화와 몸동작 전체를 데이터로 변환하여 디지털 캐릭터에 그대로 이식하는 이 기술은, 단순한 녹음을 넘어 배우의 연기 전체를 캐릭터에 복사해 넣는, 선녹음 방식의 완전체라 할 수 있습니다.
한국 애니메이션의 현실
그렇다면 우리나라나 일본 같은 아시아권의 경우는 어떨까요? 이곳에서는 전통적으로 ‘후시녹음’ 방식이 훨씬 보편적으로 사용되어 왔습니다. 이는 할리우드와는 정반대의 순서로 진행됩니다. 먼저 캐릭터의 움직임과 입 모양이 모두 결정된 완성된 영상을 만들어두고, 그 이후에 성우들이 화면을 보면서 타이밍에 맞춰 목소리를 입히는 방식입니다.
왜 이런 차이가 발생했을까요? 여기에는 상당히 현실적인 이유가 있습니다. 한국 애니메이션 산업은 초창기부터 독자적인 창작보다는 미국이나 일본 작품의 하청 제작, 이른바 OEM(주문자 상표 부착 생산) 방식으로 성장해왔습니다. 이 구조 안에서는 주어진 예산과 극도로 빡빡한 제작 일정에 맞춰 결과물을 신속하게 완성하는 ‘효율성’이 무엇보다 중요했습니다. 이미 모든 그림과 타이밍이 정해진 상태에서 가장 효율적으로 우리말 목소리를 입히는 방법은 당연히 후시녹음일 수밖에 없었습니다.
이러한 산업적 배경은 우리나라에서 ‘배우’와 ‘성우’라는 직업이 명확하게 구분되고 고도로 전문화되는 결과로 이어졌습니다. 후시녹음은 단순히 연기력만으로 해낼 수 있는 작업이 아니기 때문입니다. 정해진 캐릭터의 입 모양과 대사 길이에 정확히 맞춰 감정을 표현하고, 호흡을 조절하며, 대사의 속도를 자유자재로 조절하는 고도의 기술을 필요로 합니다.
특히 일본 애니메이션에서 유래한, 입만 뻐끔거리는 듯한 제한적인 입 모양(소위 ‘쿠치파쿠’)에 맞춰 자연스러운 연기를 하는 것은 상상 이상의 난이도를 자랑합니다. 때로는 정말 숨 쉴 틈도 없이 빠른 속도로 대사를 처리해야 하는 경우도 비일비재합니다. 이는 체계적인 훈련과 오랜 경험이 축적되어야만 가능한 전문 영역인 것입니다.
우리가 종종 극장판 애니메이션의 ‘연예인 더빙’에 대한 어색함과 논란을 접하게 되는 것도 바로 이 지점과 관련이 있습니다. 후시녹음이라는 특수한 기술적 훈련이 부족한 상태에서 작업이 이루어질 때 발생하는 필연적인 마찰에 가깝습니다.
경계를 허무는 새로운 시도들
그렇다면 어느 한쪽이 절대적으로 우월하고 다른 쪽은 열등한 방식일까요? 결코 그렇지 않습니다. 선녹음 방식은 배우의 살아있는 연기를 통해 캐릭터에 깊이를 더할 수 있다는 막대한 장점이 있지만, 그만큼 제작 기간이 길어지고 비용도 훨씬 많이 소요됩니다. 반면 후시녹음은 정해진 틀 안에서 효율적으로 결과물을 만들어내야 하는 환경에 최적화된 방식입니다. 각자의 산업 환경과 역사 속에서 발전해 온 나름의 이유와 가치를 지니고 있는 것입니다.
최근에는 이 두 방식의 경계가 점차 허물어지고 있다는 점이 매우 흥미롭습니다. 우리나라에서도 작품의 완성도와 캐릭터의 깊이를 위해 과감하게 선녹음 방식을 도입하는 사례가 늘고 있습니다. 한국 애니메이션의 흥행 역사를 새로 쓴 <마당을 나온 암탉>과 그 뒤를 이은 <언더독> 같은 작품이 대표적입니다. 배우들의 섬세한 감정 연기를 먼저 담아내 캐릭터에 생생한 숨결을 불어넣으려는 의미 있는 시도였습니다.
<부산행>으로 유명한 연상호 감독 역시 <돼지의 왕>, <사이비>와 같은 자신의 애니메이션 작품에서 꾸준히 선녹음 방식을 고수해왔습니다. 이는 상업적 목적을 넘어, 감독 특유의 날것 같고 사실적인 연출을 애니메이션에서도 구현하려는 작가주의적인 선택으로 해석됩니다. 또한, <레드슈즈>와 같은 작품은 기획 단계부터 해외 배우들과 협업하여 할리우드식 선녹음 파이프라인을 그대로 적용하며 글로벌 시장을 직접 공략하기도 했습니다.
심지어 하나의 작품 안에서 두 방식을 혼합하여 사용하는 ‘하이브리드 모델’도 등장하고 있습니다. 예를 들어, 인물의 감정선이 중요한 대화 장면은 선녹음으로 깊이를 더하고, 복잡하고 빠른 액션 장면은 후시녹음으로 제작 효율성을 높이는 방식입니다.
특히 넷플릭스와 같은 글로벌 스트리밍 서비스의 등장은 이러한 변화를 더욱 가속하고 있습니다. 처음부터 전 세계 동시 공개를 목표로 하는 작품들은 수십 개의 언어로 더빙 작업을 거쳐야 하므로, 통일된 고품질의 제작 과정이 중요해졌습니다. 이러한 흐름 속에서 우리나라 스튜디오들도 점차 단순히 그림만 그려 납품하는 하청 기지에서 벗어나, 기획 단계부터 적극적으로 참여하며 글로벌 표준에 맞는 제작 방식을 받아들이고 있습니다.
목소리에 담긴 창작의 철학
정리하자면, 할리우드의 선녹음은 ‘배우의 연기’를 창작의 중심으로 삼아 캐릭터에 영혼을 불어넣는 방식이며, 우리나라의 후시녹음은 ‘효율성’을 기반으로 정해진 영상에 완벽하게 소리를 맞춰 넣는 고도의 기술적 전문성이 돋보이는 방식이라고 할 수 있습니다.
앞으로는 기술의 발전이 이러한 경계를 더욱 빠르게 허물 것입니다. 언리얼과 같은 게임 엔진을 활용한 실시간 렌더링 기술이나, 목소리만으로 입 모양을 자동으로 생성하는 인공지능 기술 등이 보편화된다면, 지금 우리가 아는 제작 방식과는 또 다른, 새로운 형태의 창작 과정이 등장할지도 모릅니다.
다음에 애니메이션을 보실 때, 이 캐릭터의 목소리는 과연 그림보다 먼저 존재했을까, 아니면 그림 위에 섬세하게 입혀진 것일까 한번쯤 생각해보시는 것은 어떨까요? 분명 이전과는 다른 새로운 재미를 발견하는 감상법이 될 것입니다.