누구나 쉽게 작업해보는 네이버 클로바더빙
예술 근처 어디쯤 Day.13
특정 제품을 홍보할 의도는 아니지만 강연을 듣고 나서 굉장히 끌렸기에 한번 사용해보았던 프로그램이다. 현재 무료로 공개되어 있으며 누구나 쉽게 사용할 수 있는 프로그램이기에 언급해보려 한다.
로봇의 개념이 등장할 때부터 로봇과 인간이 자유자재로 대화를 하는 모습은 오래전부터 꿈꿔왔다. 컴퓨터는 디지털 언어를 사용하되 인간은 아날로그 언어, 즉 자연언어를 사용한다. 따라서 둘 사이의 대화가 이뤄지기 위해 디지털 언어와 자연언어가 변환이 자유자재로 이뤄져야 한다. 그 과정에서 인간의 언어 즉, 자연 언어를 분석하는 과정이 생각보다 쉬운 작업은 아니었다.
자연어를 처리하기 위해서 STT(Speech-To-Text) & TTS(Text-to-Speech) 분석이 선행된다. 쉽게 설명하면 대화에서 글로, 글에서 대화로 변환이 자유롭게 되어야 한다. 음성합성기술은 이 중에서 TTS(Text-To-Speech), 글자를 음성으로 바꿔주는 기술을 의미한다. 우리가 컴퓨터에 문자를 입력하면 이를 음성으로 변환하여 표현해준다.
크로버는 네이버에서 개발 중인 인공지능 플랫폼이다. 그중 네이버 클로바는 자체 연구 개발한 음성합성기술 nVoice의 HDTS(Hybrid Dnn Text-to-Speech) 기술을 활용하여 클로바를 통한 모든 음성 답변을 다앙햔 인물들의 목소리로 접할 수 있도록 지원한다. HDTS(Hybrid Dnn Text-to-Speech) 기술은 최소 40시간 이상의 녹음 시간이 필요한 UTS(Unit-selection Text-to-Speech; 합성 단위 선택 방식) 기술보다 한층 고도화된 기술로써, 글로벌 IT기업들이 실제 서비스에 활용하고 있는 음성합성기술 대비 우수성을 갖췄다
네이버가 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 클로바의 음성 합성 신기술 ‘NES(Natural End–to-end Speech Synthesis)’을 공개하고, 이를 기반으로 보이스 비즈니스 서비스를 제공한다. ‘NES’는 40분 수준의 음성 데이터(약 400 문장)로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술로, 40시간에서 100시간 정도의 음성이 필요했던 기존과 비교하여 쉽고 빠르게 음성 서비스를 개발할 수 있다는 것이 특징이다.
2020년 12월 31일까지 무료기간이다. 그전까지 몇 번이고 이용해보자. 일단 유튜브 영상에 남자 목소리가 필요하다고 나에게 부탁하던 친구에게 먼저 말해줄 생각이다.
무료 사용 신청 또한 너무나도 간단하다. 몇 가지 사항만 입력하면 거의 바로 사용 가능하다. 그런 뒤에 나타나는 화면에서 '새 프로젝트 시작하기' 버튼을 눌러주시면 된다.
그리고 화면을 참고해보시면 동영상 파일은 FHD 이하 해상도의 MP4 및 MOV 형식만 지원하며 최대 20분, 500MB까지만 업로드할 수 있다 라고 표시되어 있고 프로젝트 파일은 최대 5개까지 저장할 수 있으며 최종 저장 날짜부터 최대 30일간 저장이 된다.
프로젝트가 생성되면 바로 다음과 같은 화면이 나오게 되는데, 여기서 동영상 추가 버튼을 클릭해서 동영상을 일단 하나 추가해주시면 된다.
영상을 불러오게 되면 다음과 같이 화면이 나타나며 여기서 더빙하고픈 문장을 넣으면 된다. 여기가 굉장히 신기하다. 주인공에 따라 입력한 문장을 읽는 목소리가 달라지는데 인공지능이라는 느낌이 거의 들지 않을 정도로 굉장히 자연스럽다.
이렇게 다양한 주인공의 목소리와 더불어 감정상태까지 지원해준다. 심지어 일본어와 영어, 스페인어까지 지원해준다. 정말 대단한 더빙 프로그램이다. 그리고 이러한 모든 걸 공짜로 이용할 수 있다니. 그냥 경험 삼아 와서 작업해보는 것도 굉장히 재미있을 것 같다.
이제 우리는 이러한 기술을 어떻게 예술분야에 활용할 수 있을지 고민해봐야 한다. 이렇게 좋은 기술들이 누구나 이용하기 쉽게 공개되는 세상이다. 예술인들이 이러한 인공지능 기술을 두려워하지 않는다면 만들 수 있는 창작의 영역은 더욱 넓어질 테다.