brunch

매거진 AI개발기업 디피니트 콘텐츠

라이킷 4 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 김도환 Jan 04. 2023

AI 음성합성 기술 개발 의뢰전 확인하세요!

음성합성 개념과 활용 사례

1. AI기반 음성합성 기술이란?

▣ 음성합성이란? (TTS, Text to Speech)

▪ 말소리의 음파를 기계가 자동으로 만들어 내는 기술

▪ 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할

▪ 이후, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합침

▪ 현재 보편적으로 사용되고 있는 기술은 연결 합성과 통계기반 파라미터 합성 기술

▪ 연결합성 기술은 현재 산업 분야에서 가장 널리 활용되고 있는 기술

※용어설명※

▸ 연결 합성 : 단어 또는 문장 단위로 녹음된 음성 데이터를 어떤 기준에 의해 음소 단위로 잘게 쪼개 음편(Unit) DB로 만들고, 반대로 음성을 합성할 때는 이 DB에서 전체 발화에 적합한 음편을 찾아 이어 붙이는

구조

녹음 원음으로부터 만들어진 음편을 이어 붙이는 기술로 음향 품질이 가장 우수

반면, 음편을 이어 붙이는 과정에서 운율(음의 강약, 장단, 고저) 이 불안정해진다는 한계가 있다.

지하철과 버스 정류장의 안내방송, 아파트 관리 사무소, ATM기에서 나오는 목소리, 은행에 전화를 걸면 흘러나오는 ARS 음성 등 익숙한 그 목소리들이 사실은 전부 음성합성 기술로 만들어 낸 가상의 목소리

▣ 딥러닝(인공지능) 기반 음성합성 기술

▪ 딥러닝 기술을 음성합성 분야에 활용

▪ 입력과 출력에 대한 데이터만 존재하면, 입력과 출력 사이의 함수 관계를 스스로 학습

▪ 운율이 매우 자연스럽고 음향 품질 또한 우수 (기존 음성합성 기술의 단점 극복)

▪ 다양한 사람의 발화 스타일을 직접 학습하며 감정, 스타일 등의 표현도 가능해짐

▪ 수 분~수 시간의 녹음 데이터만 가지고도 그 사람의 목소리를 가진 음성합성기를 만들 수 있음

▸ Neural Vocoder : Neural(신경의) +Vocoder(Voice Coder의 약어, 음성을 전기적으로 분석·합성하는 장치) 음성 합성기의 마지막 단계에서 실제로 소리를 만들어내는 부분

2. AI기반 음성합성 기술 및 트렌드

▣ 인공지능 음성합성 기술의 등장

▪ 인공지능 기술의 매커니즘을 이해하기 위해선 Python과 Tensor에 대한 이해가 필요

▪ 구글, 타코트론(Tacotron) 기반 음성합성기가 등장 이후 AI 기반 음성합성 기술은 비약적인 성장

▪ 전처리 과정이 사라지고 텍스트와 음원 사이의 연관성을 AI가 스스로 학습

• 실제 사람이 말하는 것과 같은 자연스러운 합성 품질을 보이며, 개발 장벽도 한층 낮아짐

▣ 인공지능 기반 음성합성의 장단점

▣ End-to-End 개인화 음성합성 기술

2017년 초에 발표된 End-to-End 음성합성 모델은 기존 상용 음성합성기가 수행하던 텍스트 전처리, 발음 기호 변환, 운율 예측, 신호 합성 등의 여러 세부 단계를 Sequence to Sequence network (Seq2seq), attention mechanism이라는 두가지 기술로 구성된 하나의 커다란 딥러닝 네트워크를 통해 수행