brunch

You can make anything
by writing

C.S.Lewis

by 앨리스 Nov 15. 2021

더빙 PD라면 유인나 목소리 정도는 알아들었어야 했을까

[코드스테이츠 PMB 8기] 네이버 클로바더빙 분석



클로바더빙, 클로바보이스 서비스를 들어본 적이 있으신가요?



클로바 더빙은 네이버가 2020년 2월에 출시한 인공지능 AI 더빙 서비스로, 텍스트를 음성으로 변환해 영상에 편집까지 할 수 있게 만든 서비스입니다. 독자적인 음성 합성 기술로 제작한 클로바 보이스를 이용했죠.  


저는 이전 직장에서 더빙과 오디오를 담당했던 PD로 업계에 몸 담고 있었고, 사적으로는 소소하게 유튜브로 콘텐츠를 만들며 2020년 2월 베타 서비스를 시작함과 동시에 이 프로덕트를 처음 접하게 되었습니다.

(직접 서비스를 이용해 영상을 출품했고 상품으로 네이버 페이도 받았습니닷!)


회사 대표님도 네이버라는 대기업이 관련 서비스를 냈다는 소식을 바로 접하시고는 저희 팀에게 음성 합성 기술을 만들어 보라고 지시하셨죠. 오늘은 이 클로바더빙 프로덕트를 분석해보고자 합니다.


분석에 앞서 베타 버전이 출시 되었을 때의 소개 영상을 첨부해봅니다.






1. Why? 클로바더빙은 왜 만들어졌는가?



이 서비스는 고객의 어떤 문제를 풀기 위해 태어났을까?

고객이 대체 어떤 불편함을 느끼고 있기에 이 서비스를 만들어 고객의 필요 욕구를 채워주려 한 걸까?


당신의 목소리를 들려주세요

우리는 지금 보이스가 많이 필요해진 시대 속에 살고있다.


- 면대면이 아닌 비대면 상황이 코로나로 인해 가속화 되며, 우리 사람을 마주하지 않고 의사소통을 한다. 키오스크와 앱 사용이 증가했고, 코로나로 재택 근무가 증가하며 전화 상담의 업무도 변화하고 있다.


- 텍스트 만으로 소통하기 어려운 상황 발생하고, 더욱 힘들어 하시는 노인 연령층도 늘어나고 있다.


- 반대로 일부러 영상 보다는 오디오를 선택해 소비하는 상황도 늘고 있다. 텍스트를 읽기엔 시간이나 공간적 어려움이 있어 음성을 들으며 다른 일을 동시에 하는 상황이 지금의 경우다. 운전을 하며 오디오북 듣거나, 업무를 하며 유튜브를 보는 등 말이다.


- 앞으로 이런 상황은 더욱 가속화 될 전망이다. 스마트 스피커가 더욱 보급화 될 것이고, 모빌리티의 발전으로 자동차 안에서 운전을 하지 않고 이동할 수도 있기 때문이다. 이런 상황이라면 오디오는 더욱이 중요해 진다.


- 이에 맞춰 콘텐츠의 수요와 공급은 더욱 증가할 것이고, 여기엔 영상 뿐만 아니라 오디오도 반드시 포함될 것이다. 그리고 현재에도 보는 것과 같이 다양한 개인들이 참여해 적극적으로 콘텐츠를 제작할 것이다.



이렇게 사회 전반에 보이스가 필요한 상황이 오고 있는데, 우리는 그 보이스를 어떻게 만들고 있을까?


개인기업으로 나눠 얘기해 보자면,


개인음성을 녹음하는 것부터 어렵다. 녹음 장비를 구비하지 않고, 방음이 되는 녹음 환경을 만들지 않으면 음질 문제가 있고, 전문 아나운서나 성우처럼 발음과 발성이 상대적으로 좋지 않아 원하는 퀄리티를 보장하기도 어렵다. 그렇다고 전문 성우와 작업하자니 비용 부담이 되는 것도 사실이다.


요즘 개인이 콘텐츠를 제작하는 시대가 열리면서 유튜브에서만 찾아 봐도 일반인이 읽어주는 오디오북, 뉴스나 정보 전달 영상 등 음성 위주로 만들어진 콘텐츠도 상당히 많다.  


기업이나 기관들도 어려움을 겪기는 마찬가지이다. 그들의 경우에도 자사의 서비스를 소개하거나 교육을 하는데 음성이 필요하고, 미래 산업 발전에 맞춰 오디오 서비스에 대한 수요를 예측해 서비스를 많이 개발하고 있는 상황이다. 비즈니스를 하는 곳이니 만큼 더욱 질 좋은 보이스에 대한 요구가 늘어난 것은 당연하다.


그렇다면 앞서 얘기했듯이 질 좋은 음성을 얻기 위해서는 성우들과 작업을 해야할 텐데, 적지 않은 성우 비용이 발생하고, 실제로 녹음 하는 데 상당한 시간이 들어가기도 한다. 또 편집이나 믹스 등의 후반 작업에도 많은 시간과 추가 인력이 필요하기 때문에 이 문제도 예산과 작업 기간에 포함시켜야 한다.


(실력 있는 성우분과 작업하면 그만큼 적은 시간으로 녹음을 끝낼 수 있다. 하지만 그만큼 비용은 올라갈 수도 있다... 이건 당연한 얘기인 것 같다. 좋은 서비스를 제공하는 실력있는 분에겐 그만큼에 대가를 드리는게 맞으니까. 그리고 성우라는 직업도 상당히 고되다.)


이렇게 우리는 시대가 바뀌며 더 많은 보이스들을 제공하고 들어야 하는 상황이 되었고, 그에 맞추어 빠르고 편리하게 음성을 만드는 서비스가 필요하게 되었다. 그리고 네이버는 선두에 나서 그 시장을 주도해 가고 있다.


정리해 보자면, 클로바 더빙 서비스의 목표는 아래와 같이 정의할 수 있겠다.


우리는 사람들에게
좀 더 쓰기 편리하고 가격 부담은 적고
듣기에  좋은 보이스를 제공해야 한다.







2. How? 클로바 더빙은 어떻게 고객에게 가치를 제공하는가?



1) 쓰기 편리하고


- 각자가 시간과 수고를 들여 어렵게 음성을 녹음할게 아니라 인공지능으로 음성을 합성해 텍스트만 입력하면 음성을 만들 수 있게 한다.

- 음성을 녹음해서 영상과 편집하는 것은 어렵다. 영상에 맞춰 음성을 녹음해야 하고 그런 후에 영상과 잘 어우러지게 편집해야 하는 기술은 누구나 하는 것이 아니다. 따라서 인공지능으로 만든 음성을 영상에 바로 편집할 수 있는 손쉬운 편집 툴을 만든다.



2) 가격 부담은 적고


- 상황에 따라 실력있는 성우의 인건비는 부담이 될 수 있다.그리고 콘텐츠의 양, 성우에게 요하는 능력, 서비스 되는 매체에 따라 금액은 천차만별이다. 따라서 AI 기술을 통해 합리적인 가격으로 보이스를 제공한다.



3) 듣기에  좋은 (고품질인)


- 전문 성우, 아마추어 성우를 직접 고용하지 않은 음성 합성이더라도 자연스럽고 감정이 풍부한, '사람처럼 자연스러운' 보이스를 제공한다.자연스러운 음성 뿐만 아니라 다양한 효과음까지 포함해 콘텐츠의 퀄리티를 높이는 더빙 편집툴을 만든다.



이렇게 네이버는 자신의 미션을 수행하기 위해 크게는 인간처럼 자연스러운 음성합성 기술 개발과 그동안 쌓아왔던 숙련된 개발/UX 경험을 바탕으로 손쉽게 편집 가능한 더빙 편집툴 제작 이라는 비전을 가지고 고객의 불편함을 최대한으로 덜어 고객가치를 높이고 앞으로 더욱 커질 오디오 시장에서 자사의 기업 가치를 높이기 위해 서비스를 제작하고 있다.



3. What? 클로바 더빙은 무엇을 만들어 고객에게 가치를 전달하고 있는가?



클로바 더빙 서비스에는 자사의 음성합성 기술인 클로바 보이스의 역할이 상당하다.


출처 - 네이버 클로바 공식 블로그



NES는 적은 분량의 녹음으로도 목소리의 특징을 분석하고 자동으로 학습하는게 중요 포인트이다. 기존에 합성음을 제작하는데 성우와 전문 스튜디오가 필요했을 뿐만 아니라 녹음에 40~100시간이 소요된 것을 감안하면 더 효율적이다.



1. 고품질의 다양한 보이스

출처 - 네이버 클로바더빙

이 기술을 바탕으로 클로바더빙은 자연스러운 언어를 구사하는 다양한 연령대 남녀노소의 목소리를 제공한다. 감정과 상황도 다양하게 준비해 보다 자연스러운 콘텐츠 제작을 가능하게 했다.


2. 섬세한 더빙 커스터마이징

출처 - 네이버 클로바더빙

기본 보이스의 속도와 볼륨을 조절하여 자신만의 보이스를 만들 수 있다.


자신의 특색에 맞게 조절한 보이스를 제공하고 다양한 효과음도 넣을 수가 있어서 자신의 개성을 표현하고, 몰입감 넘치는 콘텐츠를 제작하는데 효과적이다.


3. 쉬운 더빙 편집

출처 - 네이버 클로바더빙

클로바 더빙은 쉽고 직관적인 UI로 원하는 시점에 타임라인에서 보이스를 추가할 수 있다. 보이스를 추가하면, 바로 편집기에서 확인이 가능해 빠르고 쉽게 콘텐츠를 편집할 수 있다.


 4. 나눔 보이스 등의 공익적 서비스

출처 - 테크월드

많은 이들에게 따듯함과 응원의 메시지를 전하기 위해 '나눔 보이스'라는 이름으로 음성을 제작해 서비스를 하고 있기도 하다. 이 서비스는 21년 12월 31일까지 무료로 이용이 가능하다고 하다! 뜻깊은 취지의 서비스이니 만큼 필요하신 분들이라면 많이 사용해 보시길 권한다.


이런 공익적인 뜻으로 클로바 더빙은 작년 코로나로 필수적인 비대면 상황이 폭증할 때 서비스를 무료로 제공하기도 했다.


코로나 19, 함께 이겨내요.

이렇게 네이버 클로바는 자신들의 서비스를 통해 그들이 존재하는 미션과 비전을 명확하게 보여주고 실행하고 있었다.


세상에 꼭 필요한 보이스를 편리하게 제공하겠다는 목적으로 사람들의 문제를 해결하고 선한 영향력을 행사하는 모습이 참으로 보기가 좋았다.


천재 교과서 - AI가 읽어주는 역사 교과서 '내 귀에 교과서'  교과서 미리듣기

AI 내 귀에 교과서 페이지



미리캔버스와 함께 진행한 수업 동영상 만들기 튜토리얼

출처 - 클로바 공식 블로그


이러한 서비스는 앞으로 더욱 중요해 지리라 생각된다.

고객들에게 꼭 필요한 서비스이고, 앞으로의 산업 발전 방향에도 맞아 보이기 때문이다.


네이버의 클로바더빙 서비스 역시 본인들이 정한 미션에 맞게 방향을 설정하고 비전과 전략을 세워 나가려면 아래의 것들도 분명 고민해 봐야 하지 않을까 생각하기에 적어보려 한다.



1. 정말 인간이라고 느껴질 만큼의 자연스러고 다양한 음성 제공

- 초기 베타 버전과 비교했을 때 지금의 음성은 상당히 자연스럽다. 지금은 목소리도 다양하고, 딱딱하고 차분한 느낌에서 좀 더 다이나믹한 감정들까지 표현하려 애쓴 점이 느껴진다. 또 글로벌하게 외국어 음성도 생긴 점도 맘에 든다.그러나 고객들의 사용후기를 찾아보면 아직도 어색하고 기계같다는 느낌을 받는다는 내용을 볼 수 있다. 우리 주변에 볼 수 있는 사람들의 음성처럼 좀 더 내추럴하고 감정이 많이 실린 음성을 개발해야 할 것이다.


2. 클로바 더빙이 사용될 더 많은 서비스 확보

사용자를 늘릴 수 있도록 마케팅하고, 서비스될 창구들을 늘려 나가야 한다. 지금은 자사의 제품인 스마트 스피커와 네이버 뉴스 기사를 통해 인지도가 높은 유인나, 오상진의 목소리를 들을 수가 있다. 앞으로는 메타버스 속에서도 음성으로 소통하는 순간들이 오리라 예상하기에 제페토 같은 서비스에 블랙핑크나 BTS 같은 유명 연예인의 목소리를 제공하는 건 어떨까 생각해본다.


3. 딥페이크에 대한 고민과 실질적 방지를 위한 방안 수립

김재민 클로바더빙 책임리더는 "악용 가능성을 고민했다"고 인정했다. 이어서 "영상 원작자를 보호하기 위한 실명 인증, '클로바 더빙을 썼다'는 워터마크 부착, 불법·반사회 콘텐트 생성 금지 약관, 욕설·비속어 포함 시 합성음 생성 방지 등 기술적 제한을 적용하고 있다"고 말했다. 서비스 초기부터 클로바 더빙은 '악용 가능성'을 고민하고 있다. 기술이 고도화 되면 될수록 이를 이용해 악용하고 심각한 문제가 발생할 가능성이 높기때문에 법적 규제를 만들거나 내부적으로 악용 되지 않도록 방침을 세우는 작업도 반드시 비전과 전략에 들어가야 한다고 생각했다.





마지막으로,


콘텐츠와 더빙 업계에서 근무하며 느꼈던 점을 얘기해 보려합니다.

저는 더빙 PD로 근무하며 성우들과 더빙 작업, 시각장애인을 위한 화면해설, 오디오북 녹음도 해봤고, TTS(Text To Speech) 개발을 위한 녹음도 진행해 보았습니다. 지금 언급한 작업들 모두 정말 많은 사람들의 수고와 시간이 들어가는 일입니다.


90분 짜리 영화 한편을 녹음하는데 12-15시간 정도가 걸리고(OTT 용. 극장용은 더 걸립니다), 그에 앞서 작품을 분석하고 캐스팅을 하는 PD의 업무나 녹음 후 편집과 믹스를 하고 퀄리티 체크까지 하는 후반 작업까지 따지면 성우 뿐만 아닌 정말 다수의 사람들의 노력과 수고가 들어가는 작업입니다.


작년  TTS 녹음을 하던 때입니다.


한창 클로바 더빙이 베타서비스를 시작했을 때 우리 회사도 TTS 개발에 착수했습니다. 음성합성 기술을 보유한 회사와 협업했고, 성우 녹음만 50시간 넘게 했던 것 같아요. 제공했던 음성이 개발에 적합하지 않다고 다시 녹음했던 경우도 있었고요. 당시 TTS에 대한 제대로된 이해를 바탕으로 녹음에 들어간게 아니고 초반 준비도 미흡했던터라 원하는 만큼의 퀄리티는 나오지 않았습니다. 또한 대표님께서도 지금 개발에 들어가면 시간을 두고 제작 될 것을 예상하셨기에  현재의 수준인 나레이션용 음성보다 더욱 발전된 연기가 가미된 수준까지의 음성합성을 원하셨고, 또 거기에 맞춰 성우들과 한 작품을 여러차례 녹음하기도 했습니다. 이때 느꼈던 점은 이 음성합성이라는 것이 고도의 기술력이 바탕이 되어야 사용 가능한 수준, 자연스러운 음성이 나올 수 있다는 것이었습니다. 그래서 이번 분석을 통해 40분이라는 짧은 녹음시간으로 음성 합성을 자연스럽게 해내는 클로바더빙이 정말 대단하다고 여겨졌어요.


그리고 성우들에 대해서도 얘기하고 싶습니다.


TTS 프로젝트를 담당했던 건 아니지만 피디로써 녹음을 진행하며 참여했던 성우님이나 다른 성우님들과도 이 음성합성 기술에 대해 얘기하곤 했었습니다. 클로바 더빙 서비스에서 제공된 목소리를 녹음하신 성우님과도 얘기를 나눴었고요.


여러 의견들이 있었어요. 불안하고 두렵기도 하고, 이 기술로 인해 성우들의 일자리가 줄면 어떡하냐 하는 얘기도 있었고요. 또, 보이스 시장이 커지는 만큼 참여자가 늘고 기술이 고도화되는 건 당연한 흐름이다. 시장의 파이도 함께 커지는 것이니 우리는 기계가 절대 대체할 수 없는 영역을 고민하고 발전시켜야 한다고도 얘기 하셨습니다. 그리고 그것은 바로 인간으로서 인간의 감정을 연기하는 것이라고요.


저도 거기에 전적으로 동의하는 바입니다. 스튜디오에서 녹음을 진행하고 있으면 마이크 앞에서 온 힘을 다해 인물을 연기하는 연기자의 감정이 유리벽 너머로 고스란히 느껴집니다. 그래서 저도 가끔은 웃느라 진행을 놓치거나, 울컥할 때도 있어요.


성우분들이 자신의 일을 사랑하고, 열정을 갖고 일하는 프로페셔널한 모습을 가슴 깊이 존경하는 사람으로서 앞으로 발전할 기술과 함께 공존할 수 있고, 그 기술을 이용해 성우의 작업환경이 더 편해지고, 자신들의 역량을 더욱 키울 수 있는 그런 방향으로 이 산업이 건강하게 발전했으면 좋겠습니다.


정말 마지막으로,

지금까지 개발된 클로바 보이스의 자연스러움을 테스트해 보고 싶으시다면,

아래 링크를 클릭해 진짜 유인나 목소리인지, 음성 합성으로 만든 목소리인지 맞혀보세요.


더빙 PD 3년차인 저는 부끄럽게도 여러개 틀렸습니다.... ㅎㅎ


https://www.clova.ai/ko/events/celeb_voice/






브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari