인공지능이 맥락과 운율을 살려 이야기한 비결

Text to Speech : 자연스러움을 더해가는 음성 합성 기술

Nov 26. 2018

kakao i Text to Speech 소개영상

e-book이 엄마처럼 다정하고 자연스럽게 말 한 비결은?

영상 속 e-book은 진형 어린이에게 엄마처럼 다정하고 차분한 목소리로 자연스럽게 동화를 읽어줍니다. 동화책 속 글과 문맥을 사람처럼 이야기 할 수 있는 배경에는 음성 합성 기술이 있습니다.

음성합성(Text to Speech(TTS) 혹은 Voice Synthesis)은
말소리의 음파를 기계가 자동으로 만들어 내는 기술입니다.

음성 모델로 선정된 특정인, 이를테면 성우가 대본을 녹음하는 것이 기술 구현의 첫 단계입니다. 다음으로 녹음 파일을 자모음 음소 단위로 잘라 그에 맞는 부호, 즉 대본상의 텍스트를 붙여 합성기에 입력해 둡니다. 이후 지시에 따라 필요한 음성 단위만을 합쳐 합성기가 소리를 만들어 내면 우리가 흔히 듣는 안내방송이나 e-book 리더기가 되죠. 어떤 문장이라도 자연스럽게 들리는 수준이 되려면 성우가 대본을 녹음하는 첫 단계에서 많은 양의 음성이 확보돼야 합니다. 이를 위해 수만 문장을 잘게 쪼개 데이터베이스화 하죠. 이 데이터베이스 안에서 최적의 연결을 찾는 능력이 뛰어나다면 보다 자연스러운 음성을 생성시킬 수 있습니다.

충분한 데이터베이스가 가장 중요

TTS 기술은 어떤 계기로 급격히 발전하게 됐을까요? 컴퓨터 연산 능력과 저장매체에 한계가 있었던 80년대 까지만 하더라도 이 기술은 로봇 혹은 외계인같은 소리만 낼 수 있었습니다. 상용화에 뚜렷한 한계가 존재할 수 밖에 없었죠. 1990년대 들어 컴퓨팅 파워가 발전하면서 목소리 녹음 분량을 확 늘려놓고 골라서 조합하는 방식이 쓰이기 시작합니다. 컴퓨터가 사람과 흡사한 수준의 소리를 합성해 낸 것은 90년대 후반에 이르러서입니다.

‘안’이라는 음절의 용도를 생각해보죠. ‘안녕’과 ‘안방’에 쓰이는 ‘안’의 쓰임새는 다릅니다. ‘안 했어요’나 ‘안티(Anti)’라는 단어에서도 쓰임새가 다르죠. 뜻과 쓰임새가 다른 만큼 발음에도 차이가 있습니다.

이처럼 같은 음절이지만 다른 뜻을 가진 데이터베이스를
충분히 갖추어 상황에 맞게 조합해 쓰는
‘유닛 셀렉션(Unit Selection)’ 방식을 상용화 할 수 있게 된거죠.

대통령 선거로 뜨거웠던 2017년, 한 게임회사가 문재인 당시 대통령 후보와 손석희 앵커의 음성을 합성 해 크게 주목받은 바 있습니다. 각 인물별로 한정된 문장만 구사했지만, 워낙 실제 인물의 음성과 비슷했기 때문에 반향이 컸습니다. 일각에서는 음성 합성 기술을 활용해 보이스피싱 같은 범죄가 활개 칠거라는 예상도 나왔죠. 하지만 잡음 없는 많은 분량의 특정인의 목소리 데이터베이스가 필요하고, 실제 사람과 혼동할 정도로 완벽한 목소리를 만들어내긴 어렵긴 때문에 이런 걱정은 아직은 이르다고 볼 수 있습니다.

음성 합성 기술이 만들어낼 풍경들

요즘 음성 합성 기술계의 화두는 얼마나 적은 데이터를 써서 특정인의 목소리를 구사하느냐에 있다고 합니다. 상업적 수요가 크기 때문입니다. 예를 들면 학술적, 예술적 업적이 뛰어난 망자의 목소리를 복원해 직접 이야기 하는 듯한 콘텐츠를 만들고자 하는 수요가 꾸준한데 반해 데이터베이스로 삼을만 한 음성 데이터를 확보하는데는 한계가 있습니다. 기술이 고도화 된다면 에디슨의 목소리로 축음기나 전화기의 발명 원리를 들을 수 있겠죠. 아직도 그리워하는 사람이 많은 고 유재하나 고 김광석 같은 가수들의 신곡 발표까지도 꿈꿔볼 수 있을겁니다. 한국어를 전혀 모르는 배우의 음성으로 영화 더빙을 입히는 모습도 상상할 수 있겠죠.

생활속 가까이에서 접할 수 있는 음성 합성 기술은 어떤것들이 있을까요? 카카오미니는 11월 20일 부터 카카오톡 메시지 읽기 기능을 추가했습니다. 배달대행업체 제트콜은 카카오 음성 API를 활용, 접수된 주문 내역을 음성으로 변환해 매장과 배달 담당 직원에게 안내합니다. 바쁜 업무 중 일일이 터치해가며 눈으로 주문 내역을 확인할 필요가 없어졌죠. 미디어다음에서는 뉴스 콘텐츠를 음성으로 변환해 주고 있습니다.

글을 눈으로 읽기 어려운
시각 장애인, 말 하기 어려운 장애인들을 위해
다양한 응용 서비스를 만드는 기반 기술이 되기도 합니다.

음성합성을 개발하는 연구원들이 더 좋은 결과물을 위해 오늘도 헤드폰을 끼고 하루종일 목소리를 들으며 연구를 이어가는 이유입니다.

음성 합성 기술을 체험해 보고 싶다면 '클릭'

(html5 호환 브라우저에서만 정상 작동 합니다)

kakao i 기술동영상 해석 목차

[멀티미디어 처리 기술]
- 라이언의 코, 어떻게 내 코를 따라다닌거지? (Face Alignment 기술)
- 벚꽃과 살구꽃, 구분할 수 있나요? (Convolutional Neural Networks 기술을 활용한 꽃검색)
- 유명해야만 '얼굴이 명함'일까요? (얼굴 인식 기술)
- “그 옷 어디서 샀어?”라는 질문, 사라질 수도 있다 (유사이미지 검색 기술)

[음성 처리 기술]
- 공부 많이 한 AI가 ‘좋은 귀’를 가진다 (음성 인식 기술)
- 인공지능이 맥락과 운율을 살려 이야기한 비결 (음성 합성 기술) _ 이번글

keyword