brunch

매거진 미디어와AI

라이킷 10 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 조영신 Sep 24. 2024

유튜브, 언어 장벽이 사라진 세상에 한걸음 더

Youtube Auto dubbing Expansion 출시 예정

많은 걸음이 필요한 건 아니다.

세상을 바꿀 이정표는 딱 한 걸음이면 충분하다.

다만 그 한 걸음의 무게가 가볍지 않다는 차이가 있었을 뿐.

콘텐츠 사업자는 언제나 로컬 사업자였다. 봉준호 감독이 아카데미를 로컬 수상식이라고 칭했던 것도 다 맥락이 있는 발언이었다. 차이가 있다면 로컬 콘텐츠의 품질이 떨어져서 로컬 밖의 콘텐츠를 소비했을 뿐 동등한 조건이라면 밖의 것을 소비하고 싶어 하진 않았다. 70년대 심야 시간을 채웠던 외화들이 사라지고 그 자리에 국산 콘텐츠가 사라진 것에서도 잘 알 수 있다. 비단 우리뿐일까? 태국 등 자국 콘텐츠의 품질이 올라가는 지역이면 여지없이 같은 공식이 작동된다.

우리 동네 얼굴이 아니어서이기도 했고, 우리 동네 말이 아니어서도 그랬다. 동네 얼굴이라고 하더라도 언어가 다르면 수용하기가 쉽지 않았다. 언어와 얼굴 생김새 중 무엇이 더 중요한 지를 따진다면 언어가 더 크다. 문화적 특수성을 제외하고 나면 흔히 영어권 콘텐츠와 비영어권 콘텐츠를 나누는 것도 다 언어가 문화를 담는 그릇이고, 언어가 다르면 수용하기 어렵다고 생각했기 때문이다. 그래서 더빙을 했다. 특정 외국 배우에 매칭되는 특정 국내 성우가 있었다. 강수진은 레오나르도 디카프리오나 멧 데이먼을 주로 담당했고, 구자형은 키아누 리브스나 양가휘, 벤 에플렉을 전담했다. 장 르노는 김기현이 담당했었다.

https://youtu.be/oZnnqCbJCp8?si=_6BnS5kxi4MNJp8w

불가피한 선택이었다. 국내 콘텐츠의 품질이 좋아져 외화가 사라지면 성우가 필요 없게 된다. 물론 외국 콘텐츠를 무조건 성우에 의존할 수도 없다. 성우의 역량이 아무리 뛰어난 들, 원작의 의미를 100% 재현하기는 어렵기 때문이다. 더구나 성우 시스템을 작동하기에는 비용이 많이 든다. 제한적으로 콘텐츠가 유통될 때는 그나마 규모의 경제랍시고 작동되었지만, 그 많은 콘텐츠에 모두 더빙을 붙인다는 건 ROI면에서 효과적이지 않다.

그래서 등장한 것이 자막이다. 자막도 엄청난 감수가 필요한 것이기에 그 역시 비용이 필수적이다. 흥미로운 건 이 자막은 플랫폼 쪽에서 시작되었다는 점이다. 지상파가 더빙을 할 때 유튜브는 자막에 집중했다. 넷플릭스도 자막전에 참여했다. 콘텐츠의 흥행 성적에 따라 더빙 언어를 선택하고, 자막 언어를 선택했다. 압도적으로 자막이 많았던 건 우리 상식 선에서 예상할 수 있다.

더빙이 로컬 콘텐츠 사업자의 선택이었다면, 자막은 글로벌 플랫폼 사업자의 선택이었다.

글로벌과 자막이 만나면 문화 할인의 최대 적이었던 언어 장벽에 균열이 발생한다. 우린 <오징어 게임>과 <쇼군 2024>를 통해 확인하고 있다.

이런 상황에서 또 하나의 변곡점이 시작될 모양이다. 바로 자동 더빙 (Auto Dubbing)다. 손 많이 가고 돈 많이 드는 더빙의 자동화. 그것도 몇 분 안에.

이 대목에서 Youtube가 등장한다.

Youtube는 최근 Aloud의 확장판을 곧 공개할 예정이라고 발표했다.

Aloud는 2022년 구글이 구글 번역 기능을 확장하겠다며 선보인 AI 기반의 더빙 툴을 말한다.

2020년 구글 클라우드는 Video dubbing tech를 선보였다. 비디오 속의 오디오를 Text로 변경한 뒤, 이를 다시 Audio로 바꾸는 방식이다. STT(Speech to Text)를 다시 TTS(Text to Speech)로 바꾸는 방식이다. 그러나 서비스라고 하기보다는 AI를 어떻게 활용하고 코딩해서 더빙을 할 수 있는지 "how to"를 보여주는 식이었다. 이를 정교하게 다듬은 것이 바로 2022년 등장한 Aloud였다.

Aloud는 Google의 일종의 실험프로젝트였다. Area120이라고 명명된 실험실에서 2022년 구글이 구글 번역 기능을 확장할 때 등장한 AI 기반의 더빙 툴이 바로 Aloud였다. 실험실에서 시작된 대부분의 프로젝트들이 그렇듯이, 처음에는 스페인어와 포르투갈어를 대상으로 시작했고, 2023년에는 중국어, 인도네시아, 아랍어, 일본어를 포함해 대략 70여 개의 언어들로 더빙이 가능하다. (제공언어의 숫자는 명확하지 않다. Google official Site에서는 여전히 스페인어와 포르투갈어만 제공하고 있다는 내용이 대부분이지만, 실제로 일본어 등으로 더빙된 사례를 발견하는 건 어렵지 않다)

아래 동영상의 2분 53초를 보면 일본어로 더빙된 목소리를 들을 수 있다.

기술적인 프로세스는 구글 클라우드와 흡사하다. 일단 크리에이터의 음성을 텍스트화하고, 이를 원하는 국가로 번역한 후, 다시 이를 해당 언어로 더빙한다. 텍스트화 단계에서 크리에이터는 검토하고 수정할 수 있다.

물론 여전히 제한적인 이용일뿐이다. 베타 서비스를 이용할 수 있는 크리에이터만 Aloud를 이용해서 더빙 서비스를 제공할 수 있다. 한국어는 아직 더빙 대상 언어가 아니어서 국내 시장에서는 Aloud에 대한 논의가 활성화되지 않았다.

그러나 2022년과 2023년 버전은 아직 발전 중이었으며, 감정 표현과 음성 리듬을 완벽하게 반영하지는 못하고 있다. 쓸만했으나 그렇다고 완벽한 것은 아니었다. 레딧(Reddit) 등에서 곧잘 "유튜브의 Auto Dubbing을 끌 수 있는 방법이 없냐"는 질문이 종종 나올 정도다. 그러나 2024년에는 개선된 버전이 나와 더 자연스러운 목소리와 감정 전달을 목표로 하고 있어, 사용자 경험이 훨씬 나아질 것으로 예상된다. 위 동영상에서도 확인하듯이 지금도 원래 언어의 특성을 반영하고는 있으나, 더빙시에 효과음이 사라지는 등 원 언어 수준은 아니다. 그러나 점진적으로 개선되고 있다는 점을 감안하면 곧 정보 제공의 수준에는 손색없는 품질을 확보할 수 있을 것으로 보인다.

지금 당장은 아니라도 곧 Auto Dubbing이 자연스러운 시대가 곧 도래할 것으로 보인다.

어쩌면 2025년에는 Auto Subtitles 만큼 정교한 Auto Dubbing 시대가 열릴지도 모른다.

어제의 불편함이 오늘은 개선되어 나왔다. 오늘 느끼는 불편함은 내일 또 개선되어 나올 것이다. 이 개선의 속도가 빨라지고 있다.

그럼 그다음 질문이 시작된다.

Auto Dubbing이 일상화되면 영상 시장 전체는 어떻게 바뀔까? 설레발 일 수 있다는 것을 감수하고 마구마구 상상해 보자.

첫 번째는 문화적 할인 요소였던 언어 장벽이 없어지고 나면 로컬과 글로벌의 경계가 완전히 허물어진다. 마치 인터넷이 등장하고 나서 로컬 상점이 사라졌던 것 모양 글로벌 수준의 작품이 세상을 독식하는 시장이 열린다. 일부 로컬 특화사업을 제외하면 과학 정보를 굳이 한국인이 재해석해 주는 것을 듣기보다는 제대로 더빙된 노벨상 수상자의 설명을 듣는 것이 더 정확할 테이니.

이는 특정 콘텐츠의 reach가 달라진다는 말이 된다. 자막으로 소통되던 것과는 다른 수준의 소통이 시작된다. 자막과는 다른 의미다. 자막은 읽는 것이고, 더빙은 보는 것이다.

권용선은 {읽는다는 것}에서 "본다는 것이 겉으로 드러난 어떤 모습 자체를 그야말로 보는 것이라고 한다면, 읽는 것은 좀 더 주의를 기울여서 들여다보는 것"이라고 했다. 엔터테인먼트의 관점에서 재해석하자면 TV를 본다는 것은 주의를 기울일 필요 없이 소파에 기대어 아무 생각 없이 소비해도 된다는 뜻이고, 읽는다는 것은 관조가 아니라 머리를 쓰며 집중해야 한다는 것을 의미한다. 과거식이라면 읽는다는 것은 평론가의 영역이고, 본다는 것은 소비자의 영역이다.

물론 에미상 18개 부문 수상으로 빛나는 <쇼군> 등이 영상 시장에서 언어 장벽이 허물어지고 있다는 것을 의미하는 것이라고 한다면, 자동 더빙은 언언 장벽 자체를 소멸시킨다는 것을 의미한다.

절대적 문맹자들에게 다가설 수 있는 길이고, 심리적 거부자들에게도 도달할 수 있는 것이 바로 더벙이기 때문이다.

두 번째는 인공지능이 탐하는 더빙은 기존 더빙의 한계를 극복할 것이기에 기조 더빙에 대한 거부감이 사라질 수 있다는 점이다. 흔히 더빙은 공급자는 비용의 문제로, 소비자는 오리저널 콘텐츠의 가치 훼손이라는 측면에서 아쉬움을 남겼다. 번역이 제2의 창작이라고 했던 만큼이나, 더빙도 제2의 창작 활동이었다. 이는 결과론적으로 원본과 다르다는 의미다. 영화 등 엄청난 자본이 투입되었던 작품들이 대부분 더빙보다는 자막을 선호했던 이유도 이 때문이다. 그런데 지금 Youtube가 발전시키고자 하는 Auto Dubbing은 원 발언자의 음색, 리듬, 톤 등을 모두 반영해서 해당 언어로 표현하고자 한다는 결정적인 특징이 있다.

강수진이 목소리를 대역한 레오나르도 디카프리오가 아니라, 레오나르도 디카프리오가 한국인이라면 발언했을 톤과 억양과 기분을 그대로 드러낸다는 점에서 더 이상 더빙이 오리지널 콘텐츠의 가치를 훼손한다는 주장을 할 수가 없게 된다.

물론 아직은 영화나 드라마에 적용할 수준은 아니다. Youtube 콘텐츠의 특징상 특정 1인 크리에이터의 목소리를 반영하는 수준이지만, 현재의 속도라면 10년 내에 드라마 더빙을 auto dubbing이 대체하지 못할 것이라고 단언하기 힘들 수준이다.

아래에서부터 혁명이 시작된다. Youtube에서 시작된 자연스럽고 있는 그대로의 auto dubbing이 드라마나 영화에 적용될 그날이 생각보다 멀지 않았다.

그때 한국 콘텐츠의 위상은 어떻게 될까?

(To be continued)

여기까지 읽으신 여러분, 구독은 사랑입니다!!!

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari