말하는 기계, 음성합성
영화 <설국열차>에서 기차의 보안설계자 남궁민수(송강호)는 입에 동그란 기계를 대고 말을 한다. 동그란 기계는 영어를 사용하는 상대에게 한국어로 의사소통을 하기위해 꺼내든 자동번역 기계이다. 남궁민수가 동그란 자동 번역기에 대고 한국어로 말을 하면 기계는 영어로 번역된 음성을 내 뱉는다.
동작원리를 추정해보면 남궁민수의 한국어는 음성인식을 거쳐 한국어 텍스트로 변환되고 그것은 영어 텍스트로 자동번역될것이다. 영어로 번역된 문장은 유창한 영어 음성으로 변환되어 동그란 기계의 스피커를 통해 흘러나오는것이다. 동그란 기계를 통해 흘러나오는 영어 음성은 음성합성기가 만든 소리임이 분명하다. 영화에서는 기계가 들려주는 어눌한 발음? 억양? 때문에 웃음을 유발하기도 하는데, 아마도 봉준호 감독에게는 아주 오래전의 낮은 기술 수준의 음성합성기를 접했던 기억이 남아있었던것 같다.
근래 딥러닝 기술로 만들어진 음성합성기는 사람과 기계를 구분하지 못할 정도로 높은 퀄리티를 보여주고 있다.
음성합성기는 사람대신 컴퓨터가 말을 해야하는 곳에 사용된다.
이렇게 정의 할 수 있다
문자정보를 음성정보로 변환하는 기술
음성합성기는 텍스트를 사람의 음성으로 변환하는 기술이다. 즉, 문자를 음성으로 변환해준다. 컴퓨터에 텍스트를 입력하면 사람의 음성으로 그것을 읽어주는 기술이다.
주변 사람들에게 물어보면 열에 아홉은 음성합성이라는 용어에 고개를 갸우뚱 한다. 음성합성이란 용어가 낯설지 않은 사람들 조차도 기술이 어디에 사용되고 있는지에 대해서는 매우 궁금해 한다.
음성합성기는 <설국열차>의 자동번역기 처럼 특별한 장비만을 위한 희귀한 기술이 아니다. 알고보면 우리의 곁에서 늘 우리와 함께 하고 있다.
몇 가지만 살펴보자.
지하철과 버스정류장에서 안내방송이 흘러 나온다. "다음 정차역은 .... 입니다. 내리실분은... 어쩌고 저쩌고", "이번에 도착할 버스는 00번, 00번...". 안내방송이 성우의 멋진 목소리로 흘러나온다.
대부분 음성합성기가 만들어내는 소리이다.
아마도 이 글을 읽기 전까지 많은 사람들은 성우가 녹음한 안내멘트 정도로 알고 있었을 것이다.
아파트 안내방송도 마찬가지이다. 때로는 관리소장님의 어색한 멘트에 웃음보가 터지기도 하지만 대부분의 많은 단지에서는 음성합성기를 이용하여 안내방송을 내보내고있다.
e-book 에서도 사용된다. 국내 대부분의 e-book에는 필자의 회사에서 개발한 음성합성기가 탑재되어 책을 읽어주고 있다. 카시오나 샤프의 전자사전이나 디오딕과 같은 유명 사전 앱에서도 음성합성기가 사용된다. 사전에 탑재된 여러 언어로 단어나 예제 문장들을 읽어주기 위해서다.
성우나 아나운서가 직접 방송하거나 필요한 멘트를 녹음해서 사용하면 더욱 더 자연스럽고 감성적인 음성을 들려 줄 수 있을텐데, 왜 음성합성기를 사용하는 것일까?
몇 가지 이유가 있는데 비용과 활용도 측면에서 합성기가 유리하기 때문이다. 아무래도 안내 방송이 필요할때마다 그때를 위해 고급 인력인 성우나 아나운서를 채용하는것은 부담이 될것이다. 게다가 성우나 아나운서가 감기에 걸렸거나 휴가라도 가면 곤란한 상황에 직면하게 된다. 그런데 컴퓨터는 1년 365일 아프지도 않고 휴가도 가지 않는다.
더구나 여러 나라의 언어로 방송해야하는 경우라면 더욱 그렇다. 각 나라의 언어를 잘 구사하고 목소리까지 좋은 아나운서를 섭외 해야 할 것이다.
만약 읽워 줘야할 텍스트가 정해진 고정멘트를 대상으로 한다면 음성합성기가 필요없다. 스튜디오에 의뢰해 녹음하는 것이 여러면에서 유리하다.
최근 음성합성 기술을 가장 필요로하고 있는 곳은 AI플랫폼 분야이다. SKT NUGU, KT에서 출시한 기가지니, 카카오미니, 네이버 클로바와 같이 인공지능 스피커에서 나오는 예쁜 목소리는 음성합성기가 만들어내는 목소리이다.
아무래도 AI플랫폼의 입을 담당하고 있는 기술인 만큼 사용자와 가장 가까운 곳, 청각신경까지 다가가 AI플랫폼의 경험을 선사한다.
개발 업체들은 그 중요성을 제품 출시전까지는 잘 모르는 경우가 많다. 그러나 제품을 출시하고 나면 생각이 달라지는 경우가 대부분이다. AI플랫폼으로 부터 나오는 목소리는 감성적인 경험을 전달하기 때문에 제품에 대한 이미지를 결정하는데 많은 영향을 미치고 있기 때문이다.
인공지능 스피커를 사용하는 유저들은 목소리가 주는 감성적인 측면을 더 중요하게 생각한다. 그 동안의 음성합성기는 안내방송과 같이 정보 전달 측면에서 명료성이나 발음의 정확도를 중요시 했다면, 최근에는 자연스럽고 감성적인 측면을 더 중요하게 생각하기 시작했다.
이와 같은 여러 이유로 AI플랫폼을 개발하는 기업들은 저마다 자기만의 보이스 아이덴티티를 가지고 싶어한다. 기업들은 자기들만의 고유 캐릭터를 설계하고 그에 맞는 목소리를 개발하여 탑재하고 있다.
인공지능의 시대에서 음성인식과 음성합성 기술은 미래의 인공지능 인터페이스로서 매우 중요한 역할을 하게 될 것이다. 그리고 앞으로는 더 자연스우면서 감성적인 표현까지도 가능한 음성합성 기술에 대한 요구가 더욱 거세질것으로 보인다.
필자가 글을 쓰게된 이유중 하나는, 미래의 중요한 인터페이스로서의 음성합성 기술에 대하여 잘 모르는 분들이 많다. 음성합성 분야에 삶의 일부를 소모하고 있는 필자의 입장에서 음성합성기술에 대한 이해가 조금이라도 알려지길 바라는 마음에서다. 앞으로 연재를 통해 음성합성 기술의 역사와 배경, 음성합성 기술과 개념, 최근의 딥러닝 기반 음성합성 기술까지 가능하면 깊이 있게 설명해보려고한다.
글 - 박태훈 (oldamigo9@gmail.com/wayne.t.park@selvas.com)
* 현재 - 셀바스 AI 근무 - 음성합성기 개발/딥러닝 TTS개발/음성합성팀 팀장
Publication
DPCM with a recurrent neural network predictor for image compression
발표·출판일1998년 5월 4일 논문·저서 /IEEE Neural Networks Proceedings
발표·출판일1996년 7월 논문·저서 / 대한전기학회 1996년도 하계학술대회