음성합성 개념과 활용 사례
▣ 음성합성이란? (TTS, Text to Speech)
▪ 말소리의 음파를 기계가 자동으로 만들어 내는 기술
▪ 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할
▪ 이후, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합침
▪ 현재 보편적으로 사용되고 있는 기술은 연결 합성과 통계기반 파라미터 합성 기술
▪ 연결합성 기술은 현재 산업 분야에서 가장 널리 활용되고 있는 기술
※용어설명※
▸ 연결 합성 : 단어 또는 문장 단위로 녹음된 음성 데이터를 어떤 기준에 의해 음소 단위로 잘게 쪼개 음편(Unit) DB로 만들고, 반대로 음성을 합성할 때는 이 DB에서 전체 발화에 적합한 음편을 찾아 이어 붙이는
구조
녹음 원음으로부터 만들어진 음편을 이어 붙이는 기술로 음향 품질이 가장 우수
반면, 음편을 이어 붙이는 과정에서 운율(음의 강약, 장단, 고저) 이 불안정해진다는 한계가 있다.
지하철과 버스 정류장의 안내방송, 아파트 관리 사무소, ATM기에서 나오는 목소리, 은행에 전화를 걸면 흘러나오는 ARS 음성 등 익숙한 그 목소리들이 사실은 전부 음성합성 기술로 만들어 낸 가상의 목소리
▣ 딥러닝(인공지능) 기반 음성합성 기술
▪ 딥러닝 기술을 음성합성 분야에 활용
▪ 입력과 출력에 대한 데이터만 존재하면, 입력과 출력 사이의 함수 관계를 스스로 학습
▪ 운율이 매우 자연스럽고 음향 품질 또한 우수 (기존 음성합성 기술의 단점 극복)
▪ 다양한 사람의 발화 스타일을 직접 학습하며 감정, 스타일 등의 표현도 가능해짐
▪ 수 분~수 시간의 녹음 데이터만 가지고도 그 사람의 목소리를 가진 음성합성기를 만들 수 있음
▸ Neural Vocoder : Neural(신경의) +Vocoder(Voice Coder의 약어, 음성을 전기적으로 분석·합성하는 장치) 음성 합성기의 마지막 단계에서 실제로 소리를 만들어내는 부분
▣ 인공지능 음성합성 기술의 등장
▪ 인공지능 기술의 매커니즘을 이해하기 위해선 Python과 Tensor에 대한 이해가 필요
▪ 구글, 타코트론(Tacotron) 기반 음성합성기가 등장 이후 AI 기반 음성합성 기술은 비약적인 성장
▪ 전처리 과정이 사라지고 텍스트와 음원 사이의 연관성을 AI가 스스로 학습
• 실제 사람이 말하는 것과 같은 자연스러운 합성 품질을 보이며, 개발 장벽도 한층 낮아짐
▣ 인공지능 기반 음성합성의 장단점
▣ End-to-End 개인화 음성합성 기술
2017년 초에 발표된 End-to-End 음성합성 모델은 기존 상용 음성합성기가 수행하던 텍스트 전처리, 발음 기호 변환, 운율 예측, 신호 합성 등의 여러 세부 단계를 Sequence to Sequence network (Seq2seq), attention mechanism이라는 두가지 기술로 구성된 하나의 커다란 딥러닝 네트워크를 통해 수행
▣ Google의 타코트론
▪ 타코트론은 딥러닝 기반 음성 합성의 대표적인 모델
▪ Attention mechanism을 seq2seq에 적용하여 구현
▪ 문자열을 입력으로, 음성의 스펙트럼 특징벡터 열을 출력으로 지정해 문자열이 스펙트럼으로 변환되는 중간 과정을 자동으로 학습
▪ 이때 입력과 출력의 길이의 차이가 발생하는데, 어텐션(Attention)이라는 신경망 층을 도입해 입력과 출력 사이의 매핑(Mapping) 관계를 학습
▪ 타코트론은 인코더 / 디코더 / 어텐션 / 오디오 생성(보코더) 4부분으로 구성
▪ Tacotron2 모델과 Wavenet Vocoder를 결합하여 한국어 TTS구현
(https://github.com/hccho2/Tacotron2-Wavenet-Korean-TTS)
구글 타코트론 음성합성기술 ( attention + seq2seq의 tts버전)
▣ 타코트론의 단점
▪ 학습 문장들에 비해 입력 문장의 길이가 길 경우 잘 작동하지 않습
▪ 학습 문장들에 포함되지 않은 새로운 어휘 혹은 예외 발음 규칙을 갖는 단어들이 포함되면 합성음 품질이 크게 왜곡
▪ 바이두의 딥보이스3(Deep Voice3)는 타코트론의 대안으로 등장
▪ 딥보이스3는 입력 문자열 이외에도 학습 데이터에 존재하지 않는 단어, 외래어, 약어 등 특수 단어들에 대해서는 발음 기호 열을 추가적으로 도입하는 방식을 택함
▣ 음성합성 기술의 미래
▪ 4차 산업혁명의 시대를 맞이하는 음성합성 기술의 발전 방향은 사람
▪ 이미 사람처럼 자연스럽게 말하는 딥러닝 기반의 음성합성 기술은 한 걸음 더 나아가 말속에 섬세한 감정까지 표현하는 것을 목표로 함
▪ 또, 딥러닝 이전 음성합성기 목소리의 주인공이 잘 훈련된 프로페셔널 성우의 몫이었다면, 인공지능 기술을 품은 음성합성기는 좋아하는 스타와 친구, 심지어 엄마의 목소리까지로 그 영역을 넓혀 가는 중이다.
▣ 커스텀보이스 시장의 등장
▪ 딥러닝 기술 중 전이학습(transfer learning)이란 기술을 활용하면, 소량의 녹음 데이터로 특정인의 목소리를 가진 음성합성기를 만들어 낼 수 있음
▣ 딥러닝 기반 음성합성 기술 활용 영역
▣ 국내 AI기반 음성합성 기술활용 기업/서비스 분석
▣ 딥러닝 기반 음성합성 기술 활용방안
• 기반 음성합성 기술은 각 단계별 전문 지식이 필요 없어지고 대신 입력 텍스트와 그에 대한 음성 데이터만 가지고도 모델을 학습할 수 있게 함
• 이는 음성합성 기술에 대한 진입 장벽을 낮추는 역할을 했을 뿐 아니라, 음성 데이터를 가공하기 위해 필요했던 노력도 줄어들며 자체 비용 개발이 절감되는 효과를 얻을 수 있음
• 위에서 소개한 여러 딥러닝 기반 음성합성 기업으로부터 제휴를 통해 서비스를 개발하거나 새로운 비즈니스를 실행할 수 있음
• 정부의 AI기술 사용 장려 정책을 활용하면 손쉽게 AI기술을 활용할 수 있음
▣ 정부의 딥러닝 기반 음성합성 기술 장려 사업 (정부의 AI 바우처 지원사업)
AI개발 무료 컨설팅 받기⇩
《 출 처 》
http://www.epnc.co.kr/news/articleView.html?idxno=95069
https://www.newspim.com/news/view/20200325001834
http://www.epnc.co.kr/news/articleView.html?idxno=93221
https://www.slideshare.net/ifkakao/ss-113145522
https://blog.ncsoft.com/end-to-end-speech-synthesis-1/
https://www.eksss.org/archive/view_article?pid=pss-10-1-39
https://www.kakaobrain.com/blog/109
https://clovadubbing.naver.com/