GCP
Google Text to Speech는 구글에서 제공하는 텍스트를 음성으로 변환시켜주는 AI 기술을 기반으로 API로 40개 이상의 언어 및 방언이 지원됩니다.
딥마인드의 음성 합성 전문 기술이 기반이 되어 인간과 같은 억양을 가진 음성을 생성합니다. 이 음성을 통해 상호작용이 가능하며 용도에 알맞게 여러 기기들에 쓰일 수 있습니다.
아랍어, 중국어, 덴마크어, 영어, 한국어 등 정말 다양한 음성이 있는데요. 어떤 음성이 제공되는지는 이 페이지를 통해 자세히 확인해볼 수 있습니다.
Text-to-Speech 기술은 텍스트 또는 음성 합성 마크업 언어(SSML) 입력을 MP3 또는 LINEAR16과 같은 오디오 데이터로 변환합니다. 임의의 문자열, 단어, 문장을 동일한 내용을 말하는 사람의 소리로 변환하는 게 가능합니다.
또한 선택한 음성의 높낮이를 기본 출력보다 최대 20반음까지 높거나 낮게 맞춤설정할 수 있습니다. 말하기 속도를 일반 속도보다 4배 빠르거나 느리게 조정할 수 있습니다.
이를 위해서 음성 합성이라는 것이 진행되는데요. 텍스트 입력을 오디오 데이터로 변환하는 프로세스를 합성이라고 하며 합성 출력을 합성 음성이라고합니다.
Text-to-Speech는 원시 텍스트나 SSML 형식의 데이터와 같은 두 유형의 입력을 사용합니다. 그리고 이 데이터를 base64로 인코딩된 문자열로 생성합니다. base64로 인코딩된 문자열을 오디오 파일로 디코딩해야 애플리케이션에서 재생할 수 있습니다. 또한 대부분의 플랫폼과 운영체제에는 base64 텍스트를 재생 가능한 미디어 파일로 디코딩하는 도구가 있습니다.
기본적으로 다음과 같은 형태를 가지고 있습니다.
그렇다면 이쯤 SSML(Speech Synthesis Markup Language)가 뭔지 궁금하실 분도 계실 겁니다. SSML은 음성 합성 어플리케이션을 위한 XML 기반의 마크업 언어입니다. SSML을 사용해 Text-to-Speech에서 생성한 오디오 데이터에 일시중지, 두문자어 발음 또는 추가 세부정보를 삽입할 수 있습니다. SSML은 다음과 같은 기능들을 제공합니다.
Rate
Pitch
Pitch range
Contour
Duration
Volume
또한 Google Text to Speech는 기존 음성과는 조금 다른 WaveNet 음성이라는 것도 제공합니다. 프리미엄 음성으로 Wavenet에서 생성된 음성은 다른 합성 음성보다 더 인간과 흡사하게 들립니다.
WaveNet 음성 모델은 실제 인간이 말한 다양한 음성 샘플로 학습된 신경망을 사용합니다. 네트워크는 학습 단계에서 서로 이어지는 톤과 현실적인 음성 파형의 모양과 같은 음성의 기본 구조를 추출하고 텍스트 입력이 제공되면 학습된 WaveNet 모델이 해당하는 음성 파형을 처음부터 생성할 수 있습니다.
실제 연구 결과 WaveNet 음성이 가장 실제 사람의 음성에 가깝다는 결과가 도출되었습니다.
그렇다면 실제로 사용하기 전에 데모로 직접 체험해봅시다. 이 페이지에서 체험해볼 수 있습니다.
들어가 보면 한국어도 지원되는 걸 확인할 수 있습니다.
직접 텍스트를 입력하고 스피크 잇을 누르자 텍스트가 오디오 데이터로 변환돼 흘러나옵니다.
이처럼 Google Text to Speech 기능을 통해 고객과 상호작용을 할 수 있고 기기 및 애플리케이션에 적용해 음성 사용자 인터페이스로 사용자의 참여를 유도하는 것도 가능합니다.
하이프마크에서는 기업의 웹앱로그데이터의 클라우드 적재와 ETL 파이프라인 구성 그 외 클라우드 내 데이터분석 환경 구축 및 분석 시각화 서비스를 함께 제공하고 있습니다.
AWS, GCP등 클라우드 이전 매니지드서비스 및 웹앱로그데이터 태깅 적재 관련 문의사항이 있으시면 하이프마크에 문의 주세요
감사합니다.